Так почему же именно большие данные обладают такой огромной мощью? Представьте себе все данные, которые разлетаются по интернету всего за день – по правде говоря, мы подсчитали объем такой информации. В начале двадцать первого века за день люди генерируют в среднем 2,5 миллиона триллионов байт данных[15].
И эти байты и есть ключ к разгадке.
Женщина скучает вечером в четверг. Она немного погуглила «приличные смешные видео». Она проверила свою электронную почту. Она отметилась в Twitter. Затем она гуглит «анекдоты про ниггеров».
Мужчине грустно. Он погуглил «симптомы депрессии» и «рассказы о депрессии». Затем разложил пасьянс.
Женщина видит в Facebook объявление о том, что ее подруга выходит замуж. Женщина не замужем, одинока, и она блокирует информацию о подруге.
Мужчина в перерыве между поисками информации о НХЛ и рэпе задает в поисковике вопрос: «Мечтать о поцелуях мужчины – это нормально?»
Женщина кликает на сюжет BuzzFeed про «15 милых кошек».
Мужчина видит ту же историю о кошках. Но на его экране она называется «15 самых очаровательных кошек». Он не кликает на ссылку.
Женщина гуглит: «Мой сын гений?»
Мужчина гуглит: «Как заставить мою дочь похудеть?»
Женщина в отпуске с шестью лучшими подругами. Все ее подруги постоянно говорят, как им весело. Она набирает в Google: «Одиночество вдали от мужа».
Мужчина, муж предыдущей женщины, в отпуске с шестью своими лучшими друзьями. Он набирает в Google: «Признаки того, что ваша жена изменяет».
Некоторые из этих данных содержат информацию, о которой в иной ситуации никто никогда не узнал бы. Если мы объединим все это, сохраняя анонимность, строго следя за тем, чтобы никто никогда не узнал о страхах, желаниях и поведении конкретных лиц, и добавим некоторые научные данные, мы начнем по-новому смотреть на людей – их поведение, их желания, их характеры.
Рискуя показаться пафосным, скажу: фактически я пришел к выводу, что новые данные, ставшие более доступными в нашу цифровую эпоху, способны радикально расширить наше понимание человеческой природы. Микроскоп позволил нам увидеть в капле воды из пруда гораздо больше, чем мы думали. Телескоп показал нам в ночном небе намного больше того, что мы видели невооруженным глазом. И теперь новые цифровые данные открывают нам в человеческом сообществе многое из того, что было скрыто. Они могут стать нашими современными микроскопом или телескопом, и полученная ими информация, возможно, приведет к важнейшим, даже революционным открытиям.
В подобных высказываниях есть еще один рискованный момент: они могут воприниматься не только как пафосные, но и трендовые. Многие делали серьезные заявления о могуществе больших данных, не приводя никаких доказательств. Это побудило людей, скептически относящихся к большим данным, которых тоже немало, отвергнуть идею исследования больших массивов данных. «Я не говорю, что нет никакой информации в больших данных, – пишет публицист и статистик Нассим Талеб, – там масса информации. Проблема – основная – заключается в том, что иголку приходится искать в непрерывно растущих стогах сена».
Одна из основных целей этой книги – представить недостающие доказательства и показать, что можно сделать с большими данными, то есть как можно при желании находить иголки в непрерывно растущих стогах сена. Я надеюсь предоставить достаточно примеров того, как большие данные дают возможность по-новому взглянуть на человеческую психологию и поведение, чтобы вы могли увидеть очертания чего-то действительно революционного.
«Постой, Сет, – могли бы вы сказать сейчас. – Ты обещаешь революцию. Ты так красноречиво разглагольствуешь об этих больших новых наборах данных. Но до сих пор ты использовал весь этот поразительный, впечатляющий, умопомрачительный, новаторский набор данных только для того, чтобы показать мне в основном два момента: в Америке много расистов и люди, особенно мужчины, сильно преувеличивают, говоря о том, как часто они занимаются сексом».