Повсеместное компьютерное делопроизводство от удостоверений личности до бухгалтерии основано на использовании электронных баз данных. В 2007 году в цифровом формате хранилось 94% общего объёма данных технологического хранения. Электронные архивы стали столь же необходимым атрибутом жизнедеятельности как некогда библиотеки и аналоговые архивы.

Большие данные. В 2008 году благодаря американцу Клиффорду Линчу (Clifford Lynch), директору Coalition for Networked Information (CNI), возник термин «Big data» (Большие данные). Он связан с происходящим экспоненциальным ростом объёма данных хранимых на цифровых носителях и увеличением производительности компьютерной техники.

Основным источником больших данных являются непрерывно генерируемые сообщения различных устройств и систем (машинное генерирование). К большим относятся любые данные, не содержащие в записях специальных поисковых полей. Это неструктурированные файлы, log-файлы, цифровое видео, изображения, данные различных датчиков. Последних становится все больше и больше – от радиочастотных идентификаторов и метеорологических систем до систем видеорегистрации и телеметрического мониторинга (Data in motion).

Одним из источников больших данных являются сети электросвязи. Их операторами непрерывно собираются данные включающие сведения о времени, местоположении, устройстве и пользователе, сведения об оплате эфирного времени, производстве вызовов, отправке SMS, загрузке приложений и многое другое. Эта информация позволяет идентифицировать личность абонента, маршрут его перемещений, социальные связи, финансовую деятельность и предпочтения.

Пользуясь различными электронными устройствами люди оставляют за собой цифровые следы, позволяя делать точные выводы о себе, включая предпочтения, политические взгляды, семенных отношениях и многом другом. В публичных социальных сетях персональные страницы становятся важным источником личной информации, поскольку видны всем. Первыми этим воспользовались властные, партийные и, коммерческие структуры, а также спецслужбы многих стран. Социальные сети типа Facebook куда ежемесячно к 2017 году заходило около двух миллиардов человек стали не только раем для маркетологов, но ориентированным на сбор личных сведений различных структур и организаций.

В свою очередь, также как традиционные картографические построения всё больше подменяются системами геопозиционирования и методами неогеографии использующими сетецентричные технологии, так и технологии официальных статистических бюро всё больше дополняются анализом больших данных. Он позволяет оперативно делать социальные срезы, прослеживать динамику изменений в обществе, а в обратном ключе – влиять на людей и их политические и экономические предпочтения.

С каждым годом увеличивается перечень хранимых данных, и растёт их объём. К 2015 году примерно 90% цифровых данных в мире было создано только за предыдущие два года. По оценкам IBM, к 2015 году ежедневно генерировалось 2,5 квинтиллиона байт данных. Непрерывно растёт объём электронных корреспонденций в сотовых, социальных, финансовых, научных и многих других компьютерных сетях, служебного и общественного характера. Благодаря этому каждые два года мировой объём данных увеличивается более чем в два раза.

В 2009 году компании Arbor Networks и Merit Network совместно с Мичиганским университетом (University of Michigan) проанализировали мировой интернет-трафик. Только за два года он составил 256 эксабайт информации.

В 2004 году интернет-трафик пропорционально распределялся среди десятков тысяч сетей. В 2007 году 15 тысяч сетей отвечали за 50% всего трафика. К 2009 году 60% трафика приходилось всего на сто сетей. К примеру, Google отвечал за 6% всего глобального трафика, и являлся его крупнейшим генератором, а трафик в месяц на YouTube был эквивалентен суммарному трафику всей Глобальной Сети за 2000 год. При этом 52% всего онлайн-трафика составлял веб-трафик, тогда как на остальные протоколы приходилось 42%.