Сразу оговорюсь, что подготовка и «чистка» массива данных – это очень важная скурпулезная и дотошная работа. В книге в части рассмотрения этой проблематики мы ограничимся только базовыми, но самыми ключевыми вещами (другими словами, только минимумом достаточного).
Консолидация данных в единый файл
Часто данные содержатся в разных файлах или системах. И чтобы свести всё в единый массив, придется их собирать в одном файле.
Хорошо, когда это могут сделать ИТ специалисты, предоставив единый файл согласно Вашего запроса.
Но если этого не получается сделать, то может помочь такая функция Excel как ВПР (VLOOKUP). Она позволяет свести данные из множества разрозненных файлов в один файл-массив.
Главное, чтобы во всех разрозненных файлах содержался единый идентифицирующий признак.
Например, Вы работаете в компании и кадровые данные (пол, возраст, стаж, зарплата и т. д.) по сотрудникам содержатся в HR системе Ulcimus, фактические начисления и отчисления – в 1С, а оценка эффективности в Success Factor. Тогда идентификатором может являться либо ИНН (если он содержится во всех системах), либо ФИО (если нет полностью совпадающих ФИО), либо е-мейл.
Если Вы собираете данные с многих разных точек (например, магазинов, цехов, дочерних компаний или филиалов), то заранее приготовьте единую структуру Excel-файла. По однообразным таблицам можно осуществить их объединение вручную или осуществить быструю автоматическую консолидацию (через соответствующий макрос или меню команд Excel).
Если Вам необходимо собрать данные в виде мнений или экспертных оценок (например, провести опрос насколько сотрудники довольны программой страхования или клиенты новыми тарифами) – то можно воспользоваться специальными он-лайн программами. Есть отличные программы типа Key Survey или Monkey Survey. Даже Google Form позволит Вам быстро и бесплатно получить массив данных для анализа.
Если Вы провели бумажный опрос (социолог, психолог, политолог, маркетолог, HR…) или собирали данные в бумажном виде – то надо проверить заполненность анкет и организовать их ввод в электронную базу. Также для считывания данных с бумажных анкет и ускорения формирования базы данных можно использовать специальные сканеры.
Но замечу, что на сегодня уже основная масса данных собирается «готовой к употреблению» сразу в электронном виде. Даже опросы в торговых точках, супермаркетах, производственных цехах и т. д. проводятся с применением Touch Pad технологий (интервьюер с интерактивным экраном, на котором отмечает ответы клиентов / сотрудников), позволяющих сразу же сформировать электронную базу данных.
Подготовка данных к анализу
Все данные, в каком бы они виде не были, необходимо вывести в единую таблицу.
И вот массив (таблица, в которой каждому объекту / наблюдению соответствуют значения переменных) у Вас есть, необходимо подготовить все данные к анализу.
Первое, что мы делаем – проверяем типы данных и шкалы наших переменных. В Excel достаточно сделать все данные числовыми (кроме названий компаний, ФИО, случаев и т.д.). Когда Вы будете использовать другой продукт (SPSS, PSPP, OCA и т.д.), то там будут свои требования.
Второе – проверяем корректность данных, путем использования фильтров или функционала сводной таблицы. Например, если у Вас переменная «Пол» принимает кроме значения 1 (мужчина) и 0 (женщина) еще какие-то числа – надо отобрать фильтром эти числа и понять откуда они «всплыли». Возможно, просто массив по конкретных строкам сместился в сторону, а возможно их надо удалить или запросить уточнение данных.
Третье – недостающие или пропущенные данные. Что с ними делать надо решать исходя из особенностей предмета, который Вы анализируете / исследуете. Обычно их либо выкидывают, либо заменяют средними значениями или модой.