Внешние факторы сложно предугадать. Политические, социальные и социальные изменения также могут способствовать темпам научного прогресса, и точное прогнозирование это практически невозможно.

Вывод

Ошибочность прогнозов в ИИ – результат определяет факторы: ограниченное понимание технологий, неожиданность научных прорывов, когнитивных алгоритмов, сложность процесса обучения ИИ и любые внешние факторы. Мы еще многого не знаем о том, что такое интеллект (как человеческий, так и искусственный), и каждый шаг на пути его изучения и рассмотрения приводит к нам новые открытия. Поэтому любые прогнозы развития ИИ, какими бы убедительными они ни казались сегодня, всегда содержат элементы неопределенности и риска.

Глава 2. «Внимание. Это все, что вам нужно» – 2017 год и революция трансформеров

В 2017 году группа исследователей из Google опубликовала статью под названием «Внимание – это все, что вам нужно», которая стала одной из самых влиятельных в истории современной науки об искусственном интеллекте. Эта работа представила мир архитектуры трансформеров – новую модель нейронных сетей, основанную на механическом внимании, которая существенно изменила подход к обработке текстов, изображений, звука и других данных. В этом главе мы разбеременны, в чем заключалась суть этой статьи, как работает механизм внимания и почему трансформеры совершают настоящую революцию в сфере ИИ.

Проблемы, которые предшествовали появлению трансформеров

До 2017 года в сфере обработки естественного языка (НЛП) доминировали рекуррентные нейронные сети (RNN) и их более сложные варианты, такие как LSTM (долгосрочная краткосрочная память). Эти модели были способны анализировать последовательность данных, например текст, где порядок слов имеет значение. Однако у RNN были некоторые ограничения:

Трудности в обработке последовательно последовательностей : Рекуррентные сети имели проблемы с сохранением и обработкой информации на небольших отрезках текста. Это привело к потере важного контекста.

Медленность и сложность обучения : RNN работала последовательно, что заметно, что обучение требовало большого количества ресурсов и времени.

Сложность параллельной обработки : Рекуррентные сети плохо поддаются параллельным вычислениям, что делает их неэффективными для применения на больших объемах данных.

Архитектура трансформеров: ключевая идея

Исследователи из Google предложили совершенно новый подход, который позволяет снизить рекуррентность и использовать другой механизм – механизм внимания . Эта идея была основана на предположении, что для понимания последовательности данных важно сосредоточиться на ключевых частях, оставляя незначительные.

Основные компоненты трансформеров:

Механизм внимания : он позволяет моделям на каждом этапе фокусироваться на разных частях в соответствии с последовательностью, уделяя больше внимания наиболее значимым элементам. Механизм называется самовниманием, потому что модель находит взаимосвязи между одними элементами и той же последовательностью.

Многоголовое внимание : для того, чтобы учесть различные аспекты данных, трансформеры используют несколько «голов» внимания, которые фокусируются на разных частях текста одновременно. Это позволяет модели создавать более сложные и детализированные взаимосвязи между словами или другими элементами по последовательности.

Энкодер-декодерная архитектура : Трансформеры состоят из двух основных частей – энкодера и декодера. Энкодер считывает входные данные и преобразует их в закодированное представление, а декодер на основе этого представления получает новый текст или результат. Такая структура оказалась особенно мощной для решения задач и других задач, связанных с генерацией последовательностей.