Прежде всего, в бизнесе. На поверку оказалось, что матч происходил при не самых честных условиях: обеим программам отключили дебютные книги и дали по минуте на ход. По всей видимости, искались те условия, при которых результат был бы столь впечатляющим. Гугл – контора коммерческая, смысл создания программ искусственного интеллекта – продать их в перспективе подороже. Соответственно, команда разработчиков должна постоянно рапортовать об успехах в целях сохранения финансирования. Сможет ли AlphaZero победить на чемпионате мира для шахматных программ – большой вопрос, ответ на который, скорее всего, отрицателен. Тем не менее это, безусловно, серьезное достижение. Но самое интересное в нем то, что алгоритм базируется на моделях нейронных сетей и обучается сам.
Еще более интригует субъективное восприятие манеры игры нового кандидата в транзисторные гроссмейстеры людьми. В отличие от традиционных движков, стиль которых обычно называют «комповщиной» (т. е. они принимают совершенно нечеловеческие решения), партии гугловского отпрыска оставляют позитивное эстетическое впечатление, они интуитивно красивы. Когда я говорил о красоте, породившей разум, я имел в виду именно это, а не «безупречное идеальное совершенство». Наше ощущение «красоты» подсознательно, неоднородно (от культуры к культуре) и постоянно меняется (в истории). Подсознательное внутри нас реализовано при помощи все тех же нейронных сетей. Правдоподобной кажется гипотеза о том, что решения AlphaZero кажутся нам красивыми именно благодаря резонансу нашего и его способов «мышления». Традиционные движки тем временем используют эвристики, подготовленные для них человеком, т. е. их расчет вариантов близок к разумному (разве что перебор они делают более тщательный, человек ограничивает дерево расчета «красивыми» ходами).
Зачем же нам вообще потребовался разум, сознание? Разве нельзя было, подобно гугловской программе, как-то на ощупь, подсознательно настроить наши нейронные мозги? Чуть выше мы уже поднимали этот вопрос. На входе шахматной программы – позиции, на выходе – выбранные ходы. На входе живого организма – сенсорика, данные с датчиков чувств (назовем это фазовым пространством), на выходе – моторика, те или иные действия. Если бы функция, описывающая идеальное поведение (т. е. преобразование входа в выход), была постоянной во времени и более-менее гладкой, то достаточно большой нейронной сети и впрямь хватит. Таковым, по всей видимости, является фазовое пространство игры в го. Не факт, что таковым является фазовое пространство игры в шахматы (очень много особых правил – например, рокировка или взятие на проходе). Абсолютно точно, что таковым не является наш мир. Помимо его нерегулярности (то потопы, то землетрясения), он постоянно меняется посредством деятельности живых организмов.
Давайте на секундочку посмотрим на наш мир глазами госпожи Эволюции и попробуем «вспомнить» вехи ее большого пути на Земле (т. е. поспекулировать на эту тему). Представим себе живой организм в виде… ну, хотя бы модели, т. е. некоего квадратика, который упрямо преобразует информацию на входах (в данном случае сенсорика) в информацию на выходах (в данном случае моторика). Развитие устройств ввода-вывода (органов чувств и передвижения), конечно же, тоже было гигантской задачей, но мы оставим ее пока без нашего внимания. Нас будет интересовать только то, что происходило в веках, которые были прежде нас, в самом сердце модели – внутри квадратика, т. е. в «нервной системе».
Итак, существует задача сбора информации посредством «зондирования». При этом необходимо обеспечить надежное функционирование дорогущего оборудования. Как запрограммировать аппаратуру таким образом, чтобы она принимала наиболее адекватные решения и избегала поломок? Жестко запаять реакции на те или иные стимулы – только первый шаг в этом направлении. Это безусловные рефлексы, уровень условной амебы. Последовательность трагических неудач в полевых условиях должна была привести к следующему этапу развития – самообучающимся нейронным сетям. Для того чтобы настроить систему, первым делом необходима обратная связь – оценка успеха или неудачи произведенной реакции. Ее обеспечил древний прототип того, что в современности часто величают «системой ценностей». На входе этой модели были сенсорные данные на момент времени непосредственно после принятого решения. На выходе – оценка, регулирующий сигнал для настройки нейронной сети. Это зачатки тех функций, которые мы называем «условными рефлексами».