Система ELO, изначально разработанная для шахмат, нашла применение и в области оценки больших языковых моделей (LLM). Этот подход позволяет сравнивать качество и способность нейросетевых архитектур решать пользовательские задачи через серию "матчей", где модели генерируют ответы на идентичные запросы, а их результаты оцениваются по установленным критериям - кто из пары моделей решил задачу лучше, а кто хуже - каждая задача или набор задач в совокупности - это "партия", в которой должна выиграть одна из моделей.
Ядро системы составляет формула обновления рейтингов после каждого сравнения (сыгранной партии):
\[ R' = R + K \times (S - E)\]
Где:
\[ E = \frac{1}{1 + 10^{(R_{opp} - R)/400}}\]
Эта экспоненциальная зависимость обеспечивает нелинейное изменение рейтингов: модели с близкими рейтингами имеют вероятность победы около 0.5. Тогда как встречи сильных и слабых моделей приводят к минимальным изменениям если выиграла более сильная модель и к существенному изменению рейтингов для каждой из моделей, если выиграла более слабая модель.
Таблица 1. Значение E при различных соотношениях рейтингов модели и ее оппонента.
R | R_opp | E |
---|---|---|
1600 | 600 | 0,997 |
1600 | 800 | 0,990 |
1600 | 1000 | 0,969 |
1600 | 1200 | 0,909 |
1600 | 1400 | 0,760 |
1600 | 1600 | 0,500 |
1600 | 1800 | 0,240 |
1600 | 2000 | 0,091 |
1600 | 2200 | 0,031 |
1600 | 2400 | 0,010 |
1600 | 2600 | 0,003 |
1600 | 2800 | 0,001 |
1600 | 3000 | 0,000 |
1600 | 3200 | 0,000 |
Видно, что, например, разница рейтингов в 2 раза определяет вероятность победы близко к 1 для более сильной модели. И при реализации ожидаемой победы более сильной модели \((S - E) \approx 0\) для обеих моделей.
На примере сравнения моделей с рейтингами 2200 и 1800 рассмотрим как может измениться рейтинг более сильной модели:
\[ E = \frac{1}{1 + 10^{(1800-2200)/400}} = \frac{1}{1 + 10^{-1}} ≈ 0.91\]
\[ \Delta R = 32 \times (1 - 0.91) = 2.88\]
\[ \Delta R = 32 \times (0 - 0.91) = -29.12\]
Такая система дает относительную стабильность рейтингов для зрелых моделей и быструю адаптацию для новых участников.
Подробнее про систему рейтингов ELO в шахматах
ELO-рейтинг стал активно используемым инструментом для сравнительной оценки производительности языковых моделей, позволяя ранжировать их по результатам парных сравнений. Особенно наглядно он показывает человеческие предпочтения, когда пользователи выбирают из ответов двух моделей на свой вопрос, указывая, какой ответ был лучше.
Это конечно очень размытая и субъективная оценка. Что значит лучше? У каждого пользователя свом представление о лучше, да и в разных задачах это "лучше" будет разным. Но тем не менее это хороший способ оценить способности модели в ее роли чат-бота в рамках общего домена.
Для русскоязычных моделей подобный рейтинг ведется на https://llmarena.ru/.
Из этих данных видно, что закрытые модели в целом лучше открытых, а большие модели в целом лучше маленьких. Вполне ожидаемо. Вероятность того что лидер gpt4o будет лучше доступной маленькой опенсорсной T-lite-instruct-0.1 на проивзольной чатовой задаче составляет 74% - те 3 раза из 4.
Также можно использовать и конкретные наборы тестовых заданий с конкретным способом измерения какой ответ лучше.
Во многих случаях выбирать какой ответ лучше дают какой-то одной сильной модели или их комитету. Например так устроен бенчмарк от Restack
Топ-5 моделей по данным Restack.io (январь 2025)
Рейтинг | Модель | ELO | 95% ДИ |
---|---|---|---|
1 | Med42-Llama3.1-70b | 1675 | ±2 балла |
2 | Llama3.1-70b-Instruct | 1627 | ±2 балла |
3 | Llama3.1-405b-Instruct | 1597 | ±3 балла |
4 | GPT-4o | 1284 | ±5 баллов |
5 | Mistral-Large-Instruct | 1148 | ±6 баллов |
Данные получены на основе 8,000 парных сравнений с использованием автоматизированной системы оценки. Модели семейства Llama3 демонстрируют доминирование благодаря сочетанию архитектурных инноваций и инструктивного дообучения. Med42-Llama3.1-70b выделяется за счёт медицинской экспертизы, показывая более высокую точность в диагностических кейсах по сравнению с базовой версией.
Но если вы измените состав тестовых заданий или способ оценки, то результаты и рейтинг, станут другими.
Результаты LMSYS Chatbot Arena (март 2024)
Этот рейтинг основан на 300,000+ человеческих оценок, где пользователи сравнивали слепые ответы моделей. Разница в методологии объясняет расхождения с данными Restack.io: краудсорсинговые оценки сильнее коррелируют с антропоцентричными критериями (ясность, стиль), тогда как автоматизированные системы акцентированы на фактологической точности.
Актуальный рейтинг можно посмотреть на https://lmarena.ai/
1. Архитектурные особенности
Размер модели:
Каждое удвоение параметров (7B → 13B → 70B) по статистике даёт прирост ELO на 12-17% при прочих равных. Например, переход от Mistral 7B (рейтинг 890) к Mixtral 8x7B (рейтинг 1120) увеличивает качество ответов (чтобы это ни значило) условно на 25%.
Специализация обучения:
Модели с доменной адаптацией (Med42-Llama3) показывают прирост рейтинга в своей области против общих моделей. Однако это может снижать их универсальность — в творческих задачах они уступают. И значение в рейтинге будет в большой степени зависеть от уклона тестовых примеров в тот или иной домен.
2. Методология оценки
Параметр | Человеческая оценка | Автоматическая оценка |
---|---|---|
Критерии | Субъективное предпочтение | Фактологическая точность |
Скорость обработки | 2-3 сравнения/час | 200+ сравнений/час |
Смещение | Культурные предпочтения | Оверфиттинг на метрики |
Системы с человеческим участием демонстрируют большую вариативность результатов из-за субъективности, но лучше отражают user experience - пользовательсктй опыт. Автоматизированные методы обеспечивают стабильность (±2 балла против ±15 у краудсорсинга), но требуют тщательной калибровки оценочных алгоритмов.
1. Статистические артефакты
Эффект Матфея:
Модели с изначально высоким рейтингом получают больше "лёгких" соперников, искусственно завышая показатели. Анализ 8,000 матчей показал, что топ-модели больше чем в половине случаев сравниваются с аутсайдерами.
Проблема транзитивности:
В части случаев наблюдается парадокс A > B > C > A из-за узкой специализации моделей. Например, Med42-Llama3 проигрывает GPT-4 в общих задачах, но доминирует в медицинских.
2. Экономические аспекты
Модель | ELO | Стоимость ($/1M токенов) |
---|---|---|
GPT-4 Turbo | 1284 | 12.50 |
Llama3.1-405b | 1597 | 4.20 (самостоятельный хостинг) |
Med42-Llama3.1-70b | 1675 | 9.80 |
При выборе модели ELO-рейтинг необходимо соотносить с экономической эффективностью. Например, имеет смысл смотреть соотношение цена/качество (например, 379 ELO-баллов на $1).
\[ \begin{split} PerfIndex = 0.6 * ELO + 0.2 * (1 / Latency) \\ + 0.2 * (1 / Power) \end{split}\]
Доменно-специфичные рейтинги:
Создание отдельных ELO-шкал для медицинских, юридических, креативных и технических задач. Пилотные проекты показывают, что специализация увеличивает точность прогноза применимости модели на 40%.
Динамическая калибровка:
Автоматическая подстройка K-фактора в зависимости от стабильности рейтинга:
\[ K = \begin{cases} 64 & \text{при } \sigma > 50 \\ 32 & \text{при } 20 \leq \sigma \leq 50 \\ 16 & \text{при } \sigma < 20 \end{cases}\]
Где \(\sigma\) — стандартное отклонение последних 100 матчей.
ELO-рейтинги являются важным, но не абсолютным инструментом выбора LLM. Они показывают среднюю температуру по больнице. На них можно опираться, но делать выводы о качестве модели в применении к вашей конкретной задаче - нельзя.
Для критических приложений рекомендуется:
Данные на январь 2025 года указывают на лидерство моделей семейства Llama3 в автономных оценках и GPT-4 в пользовательских предпочтениях, однако технологическая гонка продолжает ускоряться, обещая новые прорывы в ближайшие кварталы.
Подготовка датасета:
Генерация ответов:
Парные сравнения:
В исследовании Restack.io (2025) для получения статистически значимых результатов потребовалось провести 8,000 парных сравнений между 8 моделями.
Калибровка системы оценок
Ключевые параметры настройки:
Параметр | Типовое значение | Влияние |
---|---|---|
K-фактор | 32-64 | Скорость адаптации рейтингов |
Начальный рейтинг | 1500 | Точка отсчёта для новых моделей |
Частота матчей | 5-10 на модель | Стабильность рейтинга |
Состав пула | 8-16 моделей | Репрезентативность сравнений |
Пример калибровки из эксперимента с 16 моделями:
Практическая значимость результатов
Можно будет говорить о качественном уровне превосходства и различия моделей.
Примеры из рейтинга Restack.io (2025):
Разница | Пример моделей | Интерпретация |
---|---|---|
48 | Med42-Llama3.1-70b (1675) vs Llama3.1-70b-Instruct (1627) | Минимальное превосходство |
333 | GPT-4o (1284) vs Mistral-Large (1148) | Существенное отличие |
947 | Med42-Llama3.1-70b (1675) vs OpenBioLLM-70b (529) | Качественный разрыв |
Ограничения системы
Система ELO предоставляет мощный инструмент для сравнительного анализа LLM, но требует критического подхода к интерпретации. Чаще всего по ней можно говорить лишь о качественных различиях моделей при большой зазнице рейтингов, условно 200 и более.
Вы можете в целом смотреть на существующие рейтинги, но это скорее не повод брать лучшую модель, а лишь повод опредеиться с ТОП-20 кандидатов, из кого вы будете выбирать инструмент для решения вашей задачи.