null
Elo
мера · №005
рейтинг Elo
попарные сравнения · Bradley–Terry · рейтинг моделей
типрейтинговая система · парные сравнения
ввёлАрпад Эло · 1960 · для шахмат
формулаEA = 1 / (1 + 10((RB−RA)/400)) · ΔR = K(S − E)
параметрыK — коэффициент обновления (16–32) · S — результат (1/0.5/0)
применениешахматы · Go · видеоигры · LMSYS Chatbot Arena · LLM ranking
связаноLLM eval · BLEU · Cohen's κ

эссе · ~400 слов · 3 мин

Рейтинг через попарные сравнения.

не нужен абсолютный эталон — нужно только «A лучше B».

Рейтинг Elo решает простую задачу: как ранжировать игроков (или модели) по результатам попарных матчей1?

Идея: у каждого игрока есть рейтинг R. Ожидаемая вероятность победы A над B:

EA = 1 / (1 + 10((RB − RA)/400))

Если RA = RB: EA = 0.5 (50% шансов). Если RA выше на 400: EA ≈ 0.91 (91% шансов).

После матча рейтинг обновляется:

RAnew = RA + K · (SA − EA)

SA = 1 если A выиграл, 0 — если проиграл, 0.5 при ничьей. K — коэффициент чувствительности. Высокий K — быстрая адаптация, но шумный рейтинг.

Преимущество Elo для AI eval: не нужен абсолютный эталон. Человеку легче сравнивать, чем оценивать абсолютно.

Для LLM: LMSYS Chatbot Arena использует Elo2. Пользователи сравнивают два ответа анонимных моделей, выбирают лучший, рейтинг обновляется. Миллионы сравнений — стабильный рейтинг.

Ограничения: требует много сравнений для стабильности. Coverage bias: пользователи задают удобные вопросы. Транзитивность не всегда соблюдается на практике.

Bradley–Terry модель — теоретическое основание Elo3. TrueSkill (Microsoft) — байесовское расширение для командных игр4.

В продуктовой оценке Elo применим: попарное сравнение ответов поддержки, ранжирование рекомендаций, оценка качества генерации контента.