В 60-е годы 20 века, когда наблюдался огромный прогресс в теории программного обеспечения, были изобретены базы данных. После этого численные данные, тексты и изображения стали без дифференциации храниться в базах данных компьютеров, единицей, в которой осуществлялось хранение, был «бит», а значение слова «данные» начало расширяться. Понятие «данные» указывает не только на являющиеся результатом измерений числовые значения, то есть «числовые значения измеряемой величины», постепенно оно стало общепринятым обозначением «чисел, текстов, изображений, аудио и видео», то есть синонимом «информации». Поскольку такая информация существует как своего рода свидетельство и базис, её можно назвать «опорными данными».

Исходя из этого автор считает, что определение понятия «большие данные» достаточно ясно и точно выражает следующая формула:

Большие данные = традиционные числовые + современныезначения измерений опорные данные

(Источником количественных данных являются измерения, как вслучае с температурой 28° C; источником опорных данных является регистрация, как в случае с фотоснимком, например.)

Хотя количественные данные ближе к «числам», чем опорные данные, с исторической точки зрения последние возникли раньше, чем первые. Регистрация событий собственной жизни, которую человек вёл уже в древние времена, так называемые «летописи», и есть ранние опорные данные, можно даже сказать, что опорные данные – это тень истории. Количественные данные в практике регистрации событий и явлений реальности появляются медленно, их ключевой смысл заключается в точности. Обилие или, напротив, нехватка количественных данных напрямую определяли возможность науки развиваться. Если отталкиваться от этой точки зрения, источники данных – это уже не только измерения реальности, но и её регистрация. Таким образом, в информационную эру добавился ещё один источник данных – регистрация.

С её наступлением данные стали синонимом информации, и оба слова могут использоваться как взаимозаменяемые. Несмотря на то, что, например, письмо содержит много информации, с технической точки зрения она может представлять собой «единицу данных». Сфера «Данные» в современном толковании шире, чем сфера «Информация» (показано на рисунке 1.3).



Рисунок 1.3. Категории современныхданных

Наряду с расширением внутреннего содержания понятия и созданием баз данных возникло ещё одно важное явление – непрерывное увеличение объёма данных, происходящее при этом с постоянно нарастающей скоростью.

Для описания названного феномена в 80-е годы ХХ века один американский специалист предложил использовать понятие «большие данные». И хотя в то время эпоха «большого взрыва данных» ещё не началась, некоторые специалисты были способны предсказать, что вслед за прогрессом информационных технологий важность программного обеспечения будет снижаться, а важность данных, напротив, возрастать. В те годы определение «большой», как и в случае с выражениями «большой человек», «большой шаг», главным образом имело ценностное значение. В 21 веке, особенно после возникновения социальных медиа в 2004 году, объём данных начал увеличиваться как при большом взрыве: как показывают данные компании International Data Corporation (IDC), в период с 2011 по 2018 годы объём общемировых данных увеличился в 18 раз, и вопрос формулировки понятия «большие данные» снова попал в поле зрения широких масс и привлёк к себе пристальное внимание. В этот период значение определения «большой» стало ещё более широким и указывало и на большой объём, и на большую ценность.