Применение рейтинговой системы ELO для оценки языковых моделей (LLM)

Система ELO, изначально разработанная для шахмат, нашла применение и в области оценки больших языковых моделей (LLM). Этот подход позволяет сравнивать качество и способность нейросетевых архитектур решать пользовательские задачи через серию "матчей", где модели генерируют ответы на идентичные запросы, а их результаты оцениваются по установленным критериям - кто из пары моделей решил задачу лучше, а кто хуже - каждая задача или набор задач в совокупности - это "партия", в которой должна выиграть одна из моделей.

Математические основы ELO-рейтинга

Формула обновления рейтинга

Ядро системы составляет формула обновления рейтингов после каждого сравнения (сыгранной партии):

\[ R' = R + K \times (S - E)\]

Где:

R' — новый рейтинг рассматриваемой модели
R — текущий рейтинг модели
$R_{opp}$ — рейтинг модели оппонента
K — коэффициент чувствительности (обычно 32-64 для LLM)
S — фактический результат (1 за победу, 0 за поражение)
E — ожидаемая вероятность победы рассматриваемой модели, рассчитываемая как:

\[ E = \frac{1}{1 + 10^{(R_{opp} - R)/400}}\]

($R_{opp} - R$) - разница в рейтингах двух сравниваемых моделей.

Эта экспоненциальная зависимость обеспечивает нелинейное изменение рейтингов: модели с близкими рейтингами имеют вероятность победы около 0.5. Тогда как встречи сильных и слабых моделей приводят к минимальным изменениям если выиграла более сильная модель и к существенному изменению рейтингов для каждой из моделей, если выиграла более слабая модель.

Таблица 1. Значение E при различных соотношениях рейтингов модели и ее оппонента.

R	R_opp	E
1600	600	0,997
1600	800	0,990
1600	1000	0,969
1600	1200	0,909
1600	1400	0,760
1600	1600	0,500
1600	1800	0,240
1600	2000	0,091
1600	2200	0,031
1600	2400	0,010
1600	2600	0,003
1600	2800	0,001
1600	3000	0,000
1600	3200	0,000

Видно, что, например, разница рейтингов в 2 раза определяет вероятность победы близко к 1 для более сильной модели. И при реализации ожидаемой победы более сильной модели $(S - E) \approx 0$ для обеих моделей.

Динамика рейтинговых изменений

На примере сравнения моделей с рейтингами 2200 и 1800 рассмотрим как может измениться рейтинг более сильной модели:

Ожидаемая вероятность победы для модели с 2200:
\[ E = \frac{1}{1 + 10^{(1800-2200)/400}} = \frac{1}{1 + 10^{-1}} ≈ 0.91\]
При фактической победе сильной модели:
\[ \Delta R = 32 \times (1 - 0.91) = 2.88\]
При неожиданном поражении:
\[ \Delta R = 32 \times (0 - 0.91) = -29.12\]

Такая система дает относительную стабильность рейтингов для зрелых моделей и быструю адаптацию для новых участников.

Подробнее про систему рейтингов ELO в шахматах

Существующие рейтинги LLM моделей

ELO-рейтинг стал активно используемым инструментом для сравнительной оценки производительности языковых моделей, позволяя ранжировать их по результатам парных сравнений. Особенно наглядно он показывает человеческие предпочтения, когда пользователи выбирают из ответов двух моделей на свой вопрос, указывая, какой ответ был лучше.

Это конечно очень размытая и субъективная оценка. Что значит лучше? У каждого пользователя свом представление о лучше, да и в разных задачах это "лучше" будет разным. Но тем не менее это хороший способ оценить способности модели в ее роли чат-бота в рамках общего домена.

Для русскоязычных моделей подобный рейтинг ведется на https://llmarena.ru/.

На 23.03.2025 по итогам 53 тыс. оценок пользователей сейчас:
- лидирует gpt-4o-2024-11-20 с рейтингом - 1125.
- из опенсорсных моделей лидирует DeepSeek V3 с рейтингом - 1080
- из русскоязычных моделей лидирует GigaChat-Max-preview 4.0.26.20 с рейтингом - 1040
- из русскоязычных опенсорсных лидирует saiga_llama3_70b с рейтингом - 1016
- из опенсорсных небольших моделей - до 10B (до 10 миллиардов параметров) лидирует T-lite-instruct-0.1 с рейтингом - 942

Из этих данных видно, что закрытые модели в целом лучше открытых, а большие модели в целом лучше маленьких. Вполне ожидаемо. Вероятность того что лидер gpt4o будет лучше доступной маленькой опенсорсной T-lite-instruct-0.1 на проивзольной чатовой задаче составляет 74% - те 3 раза из 4.

Также можно использовать и конкретные наборы тестовых заданий с конкретным способом измерения какой ответ лучше.

Во многих случаях выбирать какой ответ лучше дают какой-то одной сильной модели или их комитету. Например так устроен бенчмарк от Restack

Топ-5 моделей по данным Restack.io (январь 2025)

Рейтинг	Модель	ELO	95% ДИ
1	Med42-Llama3.1-70b	1675	±2 балла
2	Llama3.1-70b-Instruct	1627	±2 балла
3	Llama3.1-405b-Instruct	1597	±3 балла
4	GPT-4o	1284	±5 баллов
5	Mistral-Large-Instruct	1148	±6 баллов

Данные получены на основе 8,000 парных сравнений с использованием автоматизированной системы оценки. Модели семейства Llama3 демонстрируют доминирование благодаря сочетанию архитектурных инноваций и инструктивного дообучения. Med42-Llama3.1-70b выделяется за счёт медицинской экспертизы, показывая более высокую точность в диагностических кейсах по сравнению с базовой версией.

Но если вы измените состав тестовых заданий или способ оценки, то результаты и рейтинг, станут другими.

Результаты LMSYS Chatbot Arena (март 2024)

GPT-4 Turbo (рейтинг ~1250)
Claude 3 Opus (рейтинг ~1220)
Gemini Ultra (рейтинг ~1180)

Этот рейтинг основан на 300,000+ человеческих оценок, где пользователи сравнивали слепые ответы моделей. Разница в методологии объясняет расхождения с данными Restack.io: краудсорсинговые оценки сильнее коррелируют с антропоцентричными критериями (ясность, стиль), тогда как автоматизированные системы акцентированы на фактологической точности.

Актуальный рейтинг можно посмотреть на https://lmarena.ai/

Ключевые факторы, влияющие на ELO

1. Архитектурные особенности

Размер модели:
Каждое удвоение параметров (7B → 13B → 70B) по статистике даёт прирост ELO на 12-17% при прочих равных. Например, переход от Mistral 7B (рейтинг 890) к Mixtral 8x7B (рейтинг 1120) увеличивает качество ответов (чтобы это ни значило) условно на 25%.
Специализация обучения:
Модели с доменной адаптацией (Med42-Llama3) показывают прирост рейтинга в своей области против общих моделей. Однако это может снижать их универсальность — в творческих задачах они уступают. И значение в рейтинге будет в большой степени зависеть от уклона тестовых примеров в тот или иной домен.

2. Методология оценки

Параметр	Человеческая оценка	Автоматическая оценка
Критерии	Субъективное предпочтение	Фактологическая точность
Скорость обработки	2-3 сравнения/час	200+ сравнений/час
Смещение	Культурные предпочтения	Оверфиттинг на метрики

Системы с человеческим участием демонстрируют большую вариативность результатов из-за субъективности, но лучше отражают user experience - пользовательсктй опыт. Автоматизированные методы обеспечивают стабильность (±2 балла против ±15 у краудсорсинга), но требуют тщательной калибровки оценочных алгоритмов.

Ограничения системы ELO

1. Статистические артефакты

Эффект Матфея:
Модели с изначально высоким рейтингом получают больше "лёгких" соперников, искусственно завышая показатели. Анализ 8,000 матчей показал, что топ-модели больше чем в половине случаев сравниваются с аутсайдерами.
Проблема транзитивности:
В части случаев наблюдается парадокс A > B > C > A из-за узкой специализации моделей. Например, Med42-Llama3 проигрывает GPT-4 в общих задачах, но доминирует в медицинских.

2. Экономические аспекты

Модель	ELO	Стоимость ($/1M токенов)
GPT-4 Turbo	1284	12.50
Llama3.1-405b	1597	4.20 (самостоятельный хостинг)
Med42-Llama3.1-70b	1675	9.80

При выборе модели ELO-рейтинг необходимо соотносить с экономической эффективностью. Например, имеет смысл смотреть соотношение цена/качество (например, 379 ELO-баллов на $1).

Расширение рейтингов ELO

Гибридные системы оценки:
Комбинация ELO с метриками энергоэффективности и скоростными характеристиками. Например возможна формула нового индекса:
\[ \begin{split} PerfIndex = 0.6 * ELO + 0.2 * (1 / Latency) \\ + 0.2 * (1 / Power) \end{split}\]

Latency - скорость генерации для пользователя (сколько токенов в секунду)
Power - затраты на генерацию одного токена в деньгах (электричество, цена инфраструктуры и др.)

Доменно-специфичные рейтинги:

Создание отдельных ELO-шкал для медицинских, юридических, креативных и технических задач. Пилотные проекты показывают, что специализация увеличивает точность прогноза применимости модели на 40%.
Динамическая калибровка:
Автоматическая подстройка K-фактора в зависимости от стабильности рейтинга:

\[ K = \begin{cases} 64 & \text{при } \sigma > 50 \\ 32 & \text{при } 20 \leq \sigma \leq 50 \\ 16 & \text{при } \sigma < 20 \end{cases}\]

Где $\sigma$ — стандартное отклонение последних 100 матчей.

ELO-рейтинги являются важным, но не абсолютным инструментом выбора LLM. Они показывают среднюю температуру по больнице. На них можно опираться, но делать выводы о качестве модели в применении к вашей конкретной задаче - нельзя.

Для критических приложений рекомендуется:

Сравнивать модели в рамках целевой доменной области
Учитывать TCO (Total Cost Ownership - полную стоимость владения)
Проводить A/B-тестирование на реальных рабочих задачах
Учитывать не только качество, но скорость работы, выдерживаемую нагрузку.

Данные на январь 2025 года указывают на лидерство моделей семейства Llama3 в автономных оценках и GPT-4 в пользовательских предпочтениях, однако технологическая гонка продолжает ускоряться, обещая новые прорывы в ближайшие кварталы.

Процедура оценки LLM в конкретных бенчмарках

Подготовка датасета:
- 500-1000 уникальных задач (промптов) различной сложности
- Баланс между открытыми вопросами и конкретными задачами с выбором ответа
- Включение edge-кейсов для проверки устойчивости моделей и корректности работы в краевых случаях
Генерация ответов:
- Параллельный запуск всех моделей на идентичных запросах
- Контроль стохастичности через фиксацию random seed - чтобы результат тестовых пар был воспроизводим
- Запись метаданных: время генерации, длина ответа, токенов в секунду
Парные сравнения:
- Случайный выбор пар моделей для каждого промпта (но с фиксированным рандм-сид для воспроизводимости эксперимента)
- Слепое оценивание анонимизированных ответов - чтобы не было предпочтения к моделям
- Использование как автоматических метрик (BLEU, ROUGE), так и экспертной оценки (целовек или LLM-as-a-Judje)

В исследовании Restack.io (2025) для получения статистически значимых результатов потребовалось провести 8,000 парных сравнений между 8 моделями.

Калибровка системы оценок

Ключевые параметры настройки:

Параметр	Типовое значение	Влияние
K-фактор	32-64	Скорость адаптации рейтингов
Начальный рейтинг	1500	Точка отсчёта для новых моделей
Частота матчей	5-10 на модель	Стабильность рейтинга
Состав пула	8-16 моделей	Репрезентативность сравнений

Пример калибровки из эксперимента с 16 моделями:

Модель Mistral-Large-Instruct-2407 показала рост рейтинга с 1500 до 1148 за 200 итераций
Llama3.1-405b-Instruct достигла 1597 баллов за 350 сравнений

Практическая значимость результатов

Можно будет говорить о качественном уровне превосходства и различия моделей.

Примеры из рейтинга Restack.io (2025):

Разница	Пример моделей	Интерпретация
48	Med42-Llama3.1-70b (1675) vs Llama3.1-70b-Instruct (1627)	Минимальное превосходство
333	GPT-4o (1284) vs Mistral-Large (1148)	Существенное отличие
947	Med42-Llama3.1-70b (1675) vs OpenBioLLM-70b (529)	Качественный разрыв

Ограничения системы

Зависимость от качества судей:
- Человеческие оценщики vs модель-арбитр
- Смещение в сторону антропоморфных ответов
- Субъективность оценок: Оценка качества ответов может зависеть от критериев, используемых при оценке.
Парадокс транзитивности:
- Модель A > B > C ≠ A > C
- Встречается в 12-15% случаев
Неучёт вычислительной эффективности:
- Рейтинг не отражает энергозатраты или скорость работы
Чувствительность к выбору моделей: Рейтинги могут быть подвержены влиянию порядка сравнений и гиперпараметров системы. Это означает, что результаты могут варьироваться в зависимости от того, какие именно пары моделей были протестированы.

Система ELO предоставляет мощный инструмент для сравнительного анализа LLM, но требует критического подхода к интерпретации. Чаще всего по ней можно говорить лишь о качественных различиях моделей при большой зазнице рейтингов, условно 200 и более.

Вы можете в целом смотреть на существующие рейтинги, но это скорее не повод брать лучшую модель, а лишь повод опредеиться с ТОП-20 кандидатов, из кого вы будете выбирать инструмент для решения вашей задачи.