Благодаря появлению социальных медиа пользователи Интернета со всего мира начали становиться создателями данных. Каждый из нас, будто информационная система или датчик, непрерывно создаёт данные. Это повлекло за собой беспрецедентный по своему размаху «взрыв данных».
Помимо резкого увеличения объёма данных социальные медиа привели также к усложнению устройства вселенной данных. Кто-то, создавая пост в микроблоге, прикрепляет изображение, кто-то – видео, произведённые ими данные и по размеру, и по структуре совершенно различны. В связи с отсутствием строгой структуры данные, созданные в социальных медиа, называются также неструктурированными.
Рисунок 1.6. Разные данные с точкизрения размера и типа
Примечание: взаимное влияние разных типов данных. Коммерческие данные могут естественным образом содержать в себе и производить данные о поведении человека и окружающей природной среде, точно так же данные о поведении человека и окружающейприродной среде являются взаимовключающимися, перекрёстными и взаимовлияющими. В прошлом мы фиксировали что-либо, только предварительно выбрав, что именнодолжно быть зафиксировано. В эпоху больших данных мы выбираем то, что зафиксировано быть не должно, и затем удаляем запись об этом. По мере непрерывного расширения сферы фиксирования можно быть уверенным: в будущем совокупный объём данных,имеющихся в распоряжении человека, будет нарастать подобно снежному кому.
Обработка подобных данных несопоставимо сложнее, чем обработка данных, имеющих строгую структуру. 15 марта 2019 года сервис микроблогов Sina Weibo опубликовал «Отчёт о развитии пользователей Weibo в 2018 году», согласно которому по состоянию на четвёртый квартал 2018 года среднее количество текстов, которые пользователи сервиса публиковали в сутки, составил 130 миллионов, среднее количество публиковавшихся за сутки изображений – 120 миллионов, среднее количество публиковавшихся за сутки видео и проведённых прямых эфиров – более 1,5 миллионов. Для сравнения: суммарный объём информации, опубликованной New York Times за прошедшие пятьдесят лет, не превышает 3 миллиардов слов.
Учитывая беспрецедентную скорость производства данных, примерно 75 % от общемировых данных в настоящий момент – это неструктурированные данные. Оглядываясь назад, мы можем сказать, что появление социальных медиа оказало на большие данные определяющее воздействие. Отталкиваясь от приведённого выше анализа, мы можем принять следующее:
Большие данные = структурированные данные + неструктурированные данные.
Однако, как мы уже упоминали, определение «большой» в понятии «большие данные» указывает не только на большой объём данных, но и на их большую ценность. Ценность же заключается в использовании. Как в случае с погребённой в недрах земли нефтью: она хотя и существовала с глубокой древности, человечество вошло в нефтяную эпоху благодаря тому, что появились технологии её добычи и переработки, – точно так же главная причина начала эпохи больших данных состоит в значительном прорыве и прогрессе в возможностях эти данные использовать.
1.4. Как интеллектуальный анализ данных «превращает цифры в золото»
Прорыв, сделанный в отношении возможностей использовать данные, проявляется в интеллектуальном анализе данных.
Под интеллектуальным анализом данных (data mining) подразумевается осуществляющийся с помощью специальных алгоритмов автоматический анализ больших объёмов данных, имеющий целью выявление скрытых в них закономерностей и тенденций, иными словами, получение из данных большого объёма новых знаний, от которых можно отталкиваться, принимая те или иные решения. Основная причина прогресса в интеллектуальном анализе данных, то есть способность человека непрерывно изобретать всё более сложные алгоритмы распознавания образов