И всё же насколько большие данные могут называться «большими»? За десять с небольшим прошедших лет по этому вопросу велось огромное множество споров. Ответ на него в первую очередь связан с размерами единиц измерения данных. В 2000 году, как правило, считалось, что большие данные – это данные, измеряющиеся в терабайтах. В тот период предприятий, где использовались бы данные терабайтного порядка, было представлена текстами, изображениями и музыкой, стал настолько велик, что традиционным предприятиям было бы немыслимо достичь того же уровня.
УГЛУБЛЁННЫЙ ВЗГЛЯД
Разберёмся в нескольких важных единицах хранения информации
Одна песня со стандартным качеством звука – это 4 мегабайта (Мб).
Один фильм со стандартным качеством графики – это 1 гигабайт(Гб, 1 гигабайт = 1024 мегабайтам, то есть размер фильма равен размеру250 песен со стандартным качеством звука).
Книжный фонд обычной библиотеки – это 1 терабайт (Тб, 1 терабайт = 1024 гигабайтам, это размер 1024 фильмов со стандартным качеством графики).
В действительности лавинообразное увеличение объёма самых разнообразных данных наблюдается не только в интернет-индустрии, но и во множестве других отраслей и индустрий, с единственным отличием – в масштабе. Если критерии больших данных ограничить исключительно интернет-индустрией и считать, что они используются только в ней, это серьёзно сузит смысл понятия «большие данные». В конце концов объём – это только одно проявление, а сущностью больших данных является как раз их ценность, и при этом большой объём совсем не обязательно представляет большую ценность. Подлинное значение больших данных заключается всё же в большой ценности, которая, в свою очередь, приобретается прежде всего за счёт консолидации, анализа и открытия данных. С этой точки зрения подлинное значение больших данных состоит в том, что человек, получив беспрецедентные возможности для использования огромного массива данных, выявил в них новые знания, создал новые ценности и тем самым принёс обществу «большое знание», «большую науку и технику», «большую эффективность», «большой интеллект» и другие возможности для развития.
Выше мы обсудили понятийное различие между «данными» и «большими данными», однако самый лучший способ постичь какое-либо понятие – это понять его происхождение в динамике. Формирование больших данных объясняется не только прогрессом в информационных технологиях, но и результатом того влияния, которое оказывали друг на друга многочисленные достижения, сделанные в разное время в области информационных технологий.
1.2. Революция запоминающих устройств: эволюция, приведённая в движение действием закона Мура
В 1965 году один из создателей компании Intel Гордон Мур, проведя исследование закономерностей развития аппаратных средств вычислительных устройств, сформулировал знаменитый закон Мура. Согласно которому количество транзисторов, которое может быть размещено на микросхеме одной площади, увеличивается вдвое за период от одного года до двух лет2.
Постичь значимость увеличения числа транзисторов совсем непросто. Первоначальная идея Мура состояла в том, что увеличение плотности транзисторов на удельную площадь микросхемы приведёт к тому, что быстродействие аппаратных средств вычислительных устройств и их запоминающая способность, то есть их основные характеристики, будут увеличиваться вдвое за срок от одного года до двух лет. Было бы правильным, если бы улучшение характеристик влекло за собой повышение цены, однако в реальности происходит ровно наоборот: в последние полвека характеристики аппаратных средств непрерывно улучшались, при этом их стоимость непрерывно снижалась. Главная стоящая за этим причина, как ни удивительно, в постоянном уменьшении размеров транзисторов, поскольку уменьшение габаритов приводит и к снижению себестоимости; помимо этого, спрос на транзисторы возрастает с течением времени, а крупномасштабность производства также влечёт за собой непрерывное удешевление.