Как обучаются LLM?

Существует несколько способов обучения моделей. Поговорим о некоторых из них.

1. Обучение на больших данных

Чтобы LLM стала умной, её обучают на миллиардах текстов. Она «читает» тексты и анализирует, какие слова чаще встречаются вместе, как строятся предложения и как передаётся смысл.

Пример:

Вы показываете модели фразу: «Кот сидит на…» – и она учится предсказывать, что следующее слово, скорее всего, будет «стуле».

2. Математическая магия

Здесь все несколько сложнее, но для общего образования, работает это так. За всем этим стоит сложная математика. LLM преобразует слова в числа (векторное представление), чтобы найти закономерности в данных. Это как если бы она искала не просто слова, а скрытые связи между ними.

Это как если бы модель изучала дорожные карты и запоминала все маршруты. Она не знает конкретный город, но понимает, как связаны улицы, и может предложить оптимальный путь.

3. Многослойные нейронные сети

LLM используют глубокое обучение (deep learning), где текст обрабатывается через десятки слоёв нейронной сети. Каждый слой изучает текст на разном уровне:

• Один слой анализирует слова.

• Другой – смысл предложений.

• Третий – контекст целого абзаца.

Пример:

Если вы напишете: «Подскажи рецепт борща», модель сначала поймёт, что «рецепт» связан с готовкой, «борщ» – это конкретное блюдо, и ответит что-то вроде: «Возьмите свёклу, капусту, картошку и немного терпения. А если терпения нет, закажите доставку!»

Почему LLM такие крутые?

– Понимание контекста, модель запоминает о чем велся диалог:

Модель способна учитывать предыдущие вопросы и давать более точные ответы. Например, если вы сначала спросите: «Как приготовить пасту?» и потом уточните: «А какой соус лучше?», она поймёт, что речь идет про пасту.

– Создание текстов:

LLM может написать статью, помочь с резюме или даже сгенерировать сюжет для книги.

– Многоязычность:

Такие модели, как ChatGPT, могут работать на десятках языков, переводить тексты и объяснять сложные темы на понятном языке.

При этом, важно помнить, что LLM не обладает памятью. Она не помнит, что вы ей писали вчера, если только это не происходит в рамках одного диалога.

Это называется контекстным окном.

Контекстное окно – это объём текста (включая ваши запросы и ответы модели), который LLM может учитывать для построения ответа. Этот объём измеряется в токенах – кусках текста, которые могут быть словами, буквами или частями слов.

На практике это значит что существуют короткие диалоги и длинные.

В случае с короткими: модель легко помнит предыдущие вопросы и ответы, например, в рамках 10—15 сообщений.

С длинными: Если разговор слишком длинный, начальные сообщения будут «забыты».

Например, в случае если вы начали с вопроса: «Расскажи, что такое нейронные сети?» А затем, через 50 сообщений, спросите: «Что ты говорил о нейронных сетях?», модель уже может «забыть», если диалог вышел за пределы её контекстного окна. В данном случае, все будет зависеть от того, какую модель ИИ вы используете. Иногда такой контекст может быть и на 50 страниц.

В мире на сегодняшний день существует много языковых моделей, каждая из которых хороша по своему и решает достаточно много задач. Но самой популярной во всем мире на сегодняшний день является модель ChatGPT 4o. О ней мы и поговорим чтобы не забивать голову лишней информацией.

OpenAI

Как и положено какому-то продукту, за ним всегда стоит компания, которую основали люди.

Компания openAI основанная в 2015 году, стала одной из ключевых движущих сил в области искусственного интеллекта.

Основали ее уже давно известные умы, такие как: