| тип | рейтинговая система · парные сравнения |
| ввёл | Арпад Эло · 1960 · для шахмат |
| формула | EA = 1 / (1 + 10((RB−RA)/400)) · ΔR = K(S − E) |
| параметры | K — коэффициент обновления (16–32) · S — результат (1/0.5/0) |
| применение | шахматы · Go · видеоигры · LMSYS Chatbot Arena · LLM ranking |
| связано | LLM eval · BLEU · Cohen's κ |
Рейтинг через попарные сравнения.
не нужен абсолютный эталон — нужно только «A лучше B».
Рейтинг Elo решает простую задачу: как ранжировать игроков (или модели) по результатам попарных матчей1?
Идея: у каждого игрока есть рейтинг R. Ожидаемая вероятность победы A над B:
EA = 1 / (1 + 10((RB − RA)/400))
Если RA = RB: EA = 0.5 (50% шансов). Если RA выше на 400: EA ≈ 0.91 (91% шансов).
После матча рейтинг обновляется:
RAnew = RA + K · (SA − EA)
SA = 1 если A выиграл, 0 — если проиграл, 0.5 при ничьей. K — коэффициент чувствительности. Высокий K — быстрая адаптация, но шумный рейтинг.
Преимущество Elo для AI eval: не нужен абсолютный эталон. Человеку легче сравнивать, чем оценивать абсолютно.
Для LLM: LMSYS Chatbot Arena использует Elo2. Пользователи сравнивают два ответа анонимных моделей, выбирают лучший, рейтинг обновляется. Миллионы сравнений — стабильный рейтинг.
Ограничения: требует много сравнений для стабильности. Coverage bias: пользователи задают удобные вопросы. Транзитивность не всегда соблюдается на практике.
Bradley–Terry модель — теоретическое основание Elo3. TrueSkill (Microsoft) — байесовское расширение для командных игр4.
В продуктовой оценке Elo применим: попарное сравнение ответов поддержки, ранжирование рекомендаций, оценка качества генерации контента.