), гласящая что закономерностей, взаимосвязей, различий в генеральной совокупности не существует – все что мы обнаружили всего лишь нелепая случайность в нашей выборке. И альтернативная (H>1), которая гласит, что обнаруженные в выборке различия нельзя объяснить случайностью: они вероятнее всего имеют место и «материальны»в генеральной совокупности.

6. Практическая статистика оперирует не вероятностью наступления события (или истинности утверждения), а вероятностью ошибиться в случае применения обнаруженной закономерности ко всей генеральной совокупности. Самым страшным и критичным в анализе считается именно обнаружить закономерности, взаимосвязи или различия, которых на самом деле в генеральной совокупности не существует.

7. Все закономерности (взаимосвязи, различия), по которым вероятность ошибки относительно их отсутствия в генеральной совокупности менее 5% (менее 0,05), считаются статистически значимыми.

8. В социально-экономической реальности Вы редко будете встречать нормальное распределение. Оно будет скорее скошено вправо или влево, или очень сжато к оси ОХ или ОY. 90% жителей страны владеют 2% капитала, 2 певца забирают 95% популярности, 99% тиража всех книг приходится на 1% авторов и т. д.

КРАТКО О ПОДГОТОВКЕ МАССИВА ДАННЫХ ДЛЯ АНАЛИЗА

Что такое массив данных

Cложно-техническими рассуждениями голову забивать не будем. Массивом данных для пользователей как мы с Вами по большому счету является таблица, в которую внесены данные. Главное: в массиве все данные по той или иной переменной должны соотноситься с конкретным случаем, объектом, процессом, явлением.

Строки таблицы – это случаи или объекты (например, ФИО, завод, филиал, клиент и т.д.).

Колонки – это наши переменные, то есть характеристики этих случаев или объектов (доход, % брака, возраст, пол, страна и т.д.).


Массивом для последующей аналитической обработки является «плоская» таблица (не сведенный отчет). См. рис. 18.


Рис. 18. Базовая структура массива данных


В массивах, с которыми Вы будете в основном сталкиваться в работе, по строкам идут случаи / объекты / процессы (компания, дата замера, человек, клиент и т.д.), а по колонкам – исследуемые переменные с их значениями для этих случаев / объектов / процессов.

В массиве не должно быть никаких объединений ячеек или по несколько разных переменных в одной ячейке. Каждая переменная – отдельная колонка и ее значение для каждого объекта / случая записывается в отдельную ячейку.

Мы не будем рассматривать нечеткий анализ (типа анализ текста, содержания, фото, видео и других форматов). Поэтому все значения переменных в массиве, по которым будут применяться методы анализа, надо оцифровать (записать цифрами). Например, если у Вас есть частота «покупки шмоток» в формате вариантов / альтернатив «Редко-Часто-Очень часто», то в массив должны быть заданы цифры 1, 2, 3, соответствующие этим вариантам / альтернативам. Исключениями могут быть только строчные переменные типа ФИО.

Такая структура массива данных позволит принять его в обработку любыми статистическими пакетами – от ОСА и до SPSS и нашего PSPP. В Excel можно многое оставлять и «буквенным» (например, «пол» писать «м», «ж» или указывать частоту «часто-редко») – но специализированные прикладные статистические программы «буквенность» очень плохо воспринимают для анализа.

Также специализированные программы еще потребуют создания так называемого «паспорта» для переменных, в котором будет задано имя, шкала переменной и описание ее альтернатив / вариантов.

Например, переменную «Пол» надо будет записать в паспорте «Пол», задать 2 альтернативы с кодами 0=М, 1=Ж. А приводимую в пример ранее частоту покупок шмоток надо будет закодировать 1=Редко, 2=Часто, 3=Очень часто. Мы увидим, как выглядит «паспорт» далее, при знакомстве с программой PSPP.