Цепочки рассуждений: используем цепочки промптов, чтобы оценить способность моделей к логическому мышлению и анализу сложных задач.

Творческие задания: предложим моделям выполнить творческие задания, чтобы оценить их воображение и способность генерировать оригинальный контент.

Продвинутые техники: применим другие продвинутые техники создания промптов, такие как использование ролей и настройка параметров, чтобы увидеть, как это влияет на качество ответов.

Критерии оценки

Базовые критерии оценки ответов моделей:

Точность: насколько ответ соответствует действительности и не содержит фактических ошибок.

Релевантность: насколько ответ отвечает на поставленный вопрос и не уходит в сторону от темы.

Информативность: насколько ответ полон и содержит полезную информацию.

Логичность: насколько ответ структурирован и аргументирован, особенно в вопросах, требующих рассуждений.

Креативность: насколько ответ оригинален и интересен, особенно в творческих заданиях.

Язык и стиль: насколько ответ грамотен, понятен и соответствует заданному стилю (если это указано в промпте).

Ожидаемые результаты

Мы ожидаем, что проприетарные модели, благодаря своим большим обучающим данным и постоянным улучшениям, покажут в целом более высокие результаты. Однако открытые модели также могут продемонстрировать впечатляющие возможности, особенно с учетом их открытости и гибкости.

Это тестирование поможет нам лучше понять сильные и слабые стороны каждой модели, а также выявить наиболее подходящие модели для различных типов задач и областей применения. Мы также сможем увидеть, как продвинутые техники создания промптов влияют на качество ответов и как можно использовать их для получения максимальной пользы от языковых моделей.

Присоединяйтесь к нам в следующем разделе, где мы начнем наше практическое тестирование и погрузимся в увлекательный мир сравнения языковых моделей!

Этап 1: Простые вопросы

Начнем наше тестирование с серии простых вопросов, чтобы оценить базовые знания моделей и их способность понимать естественный язык.

Вопросы:

Какая столица Франции?

Кто написал роман "Война и мир"?

В каком году началась Вторая мировая война?

Какая самая длинная река в мире?

Кто изобрел телефон?

Ожидания:

На этом этапе мы ожидаем получить от всех моделей точные и краткие ответы. Это позволит нам убедиться, что они обладают базовыми знаниями и могут корректно интерпретировать простые вопросы.

Результаты ответов:

GPT-4 (OpenAI)

Ответы согласно промту

Отвечу на ваши вопросы последовательно и четко:

Какая столица Франции?


Столица Франции – Париж.

Кто написал роман "Война и мир"?


Роман "Война и мир" написал Лев Николаевич Толстой.

В каком году началась Вторая мировая война?


Вторая мировая война началась в 1939 году.

Какая самая длинная река в мире?


Самая длинная река в мире – Нил. Однако в некоторых источниках утверждается, что Амазонка может быть длиннее, в зависимости от методологии измерения.

Кто изобрел телефон?


Телефон изобрел Александр Грэм Белл.

Если у вас есть дополнительные вопросы или нужно что-то уточнить, не стесняйтесь обращаться!

Claude 3.5 Sonnet (Anthropic)

Ответы согласно промту

Отвечаю на ваши вопросы:

Столица Франции – Париж.

Роман "Война и мир" написал Лев Николаевич Толстой.

Вторая мировая война началась в 1939 году.

Самая длинная река в мире – Нил (некоторые источники также называют Амазонку).

Телефон изобрел Александр Грейам Белл в 1876 году.

Если вам нужны дополнительные подробности по какому-либо из этих вопросов, я с удовольствием предоставлю более развернутый ответ.

GigaChat (от Сбербанка)

Ответы согласно промту

Столица Франции – Париж.