– разнообразие типов структурированных и полуструктурированных данных.
Методы и средства работы с Большими данными бурно развиваются в настоящее время[5].
Особенности больших данных породили целую науку Data science (науку о данных). Это наука о методах анализа данных и извлечения из них полезной информации Она объединяет математические методы, программирование, методы работы с большими данными, методы машинного обучения. Data scientist (ученый по данным) должен владеть:
– математикой и статистикой;
– информационными технологиями, включая программирование;
– пониманием бизнес-процессов, для которых он собирает информацию.
4. Системы поддержки принятия решений (DSS – decision support systems). DSS, которые все чаще используются в настоящее время, – это скоординированный набор данных, систем, инструментов и технологий, программного и аппаратного обеспечения, с помощью которого в организации под управлением пользователя[6] собирается и обрабатывается информация о бизнесе и окружающей среде с целью обоснования маркетинговых действий.
DSS состоит из трех основных частей.
– Система данных для сбора и хранения информации о маркетинге, финансах и производстве, получаемой из внутренних и внешних источников. Обычно это база или банк данных, как и в MIS.
– Система диалога, позволяющая пользователю задавать, какие данные следует выбирать и как их обрабатывать.
– Система моделей – идей, алгоритмов и процедур – которые позволяют обрабатывать данные и проводить их анализ. В обработке данных используются различные процедуры, от простого суммирования до статистического анализа и нелинейной оптимизации. Типовыми процедурами являются:
– объединение в группы;
– получение сводных показателей;
– ранжирование;
– выделение особых случаев;
– графическое представление данных.
Несмотря на кажущуюся простоту, важность процедур последнего типа трудно переоценить. Иногда достаточно только взглянуть на графическое представление данных, чтобы понять, даст ли хороший результат кластерный анализ, какой вид регрессионной функции выбрать и т.д.
Модели принятия решений служат для обработки данных, нужных для решения, и по способам представления результатов своей работы подразделяются на информационные (что есть и что будет, если…), советующие (в меру своего "разумения") и (редко) управляющие. Типы таких моделей представлены в таблице 1.
Таблица 1 – Модели принятия решений
В настоящее время идеи DSS получили свое дальнейшее развитие. Прогресс в области вычислительной техники сделал возможным новые подходы к анализу данных.
5. Онлайновая аналитическая обработка данных (OLAP – Online Analytical Processing) – один из новых инструментов. Данные обычно берутся из уже существующих баз данных и подвергаются быстрому, но достаточно поверхностному предварительному разведочному анализу[7]. В OLAP обычно используется многомерная модель данных. Это позволяет гибко манипулировать информацией, но требует довольно серьезной специальной подготовки.
6. Для обработки данных, в том числе и находящихся в хранилищах, предложена концепция интеллектуального анализа данных (Data Mining – "добыча данных"). Это, согласно[8], "процесс обнаружения в сырых данных ранее неизвестных; нетривиальных; практически полезных; доступных интерпретации знаний … для принятия решений". Новизна подхода заключается в том, что современные мощные компьютеры в состоянии переработать огромные массивы данных и найти в них что-то полезное. Однако не следует считать, что компьютер полностью заменяет исследователя-человека. Наоборот, применение методов Data Mining – процесс, требующий от исследователя глубоких знаний. Система Data Mining требует четко согласованной работы всех своих компонентов. Пользователь должен быть квалифицированным специалистом в таких областях, как работа с базами данных, анализ данных традиционными математическими методами и средствами искусственного интеллекта. Наконец, интерпретация полученных данных и использование полученных результатов также остаются прерогативой человека.