рейтинг Elo — null/objects/statistics

Elo

мера · №005

рейтинг Elo

попарные сравнения · Bradley–Terry · рейтинг моделей

тип	рейтинговая система · парные сравнения
ввёл	Арпад Эло · 1960 · для шахмат
формула	E_A = 1 / (1 + 10^{((R_B−R_A)/400)}) · ΔR = K(S − E)
параметры	K — коэффициент обновления (16–32) · S — результат (1/0.5/0)
применение	шахматы · Go · видеоигры · LMSYS Chatbot Arena · LLM ranking
связано	LLM eval · BLEU · Cohen's κ

эссе · ~400 слов · 3 мин

Рейтинг через попарные сравнения.

не нужен абсолютный эталон — нужно только «A лучше B».

Рейтинг Elo решает простую задачу: как ранжировать игроков (или модели) по результатам попарных матчей1?

Идея: у каждого игрока есть рейтинг R. Ожидаемая вероятность победы A над B:

E_A = 1 / (1 + 10^{((R_B − R_A)/400)})

Если R_A = R_B: E_A = 0.5 (50% шансов). Если R_A выше на 400: E_A ≈ 0.91 (91% шансов).

После матча рейтинг обновляется:

R_A^new = R_A + K · (S_A − E_A)

S_A = 1 если A выиграл, 0 — если проиграл, 0.5 при ничьей. K — коэффициент чувствительности. Высокий K — быстрая адаптация, но шумный рейтинг.

Преимущество Elo для AI eval: не нужен абсолютный эталон. Человеку легче сравнивать, чем оценивать абсолютно.

Для LLM: LMSYS Chatbot Arena использует Elo2. Пользователи сравнивают два ответа анонимных моделей, выбирают лучший, рейтинг обновляется. Миллионы сравнений — стабильный рейтинг.

Ограничения: требует много сравнений для стабильности. Coverage bias: пользователи задают удобные вопросы. Транзитивность не всегда соблюдается на практике.

Bradley–Terry модель — теоретическое основание Elo3. TrueSkill (Microsoft) — байесовское расширение для командных игр4.

В продуктовой оценке Elo применим: попарное сравнение ответов поддержки, ранжирование рекомендаций, оценка качества генерации контента.