эссе · вероятность · спорт · ~620 слов · 6 мин

одно число.

Как уместить силу команды — или шахматиста, или нейросети — в одно число? Способ придумал шахматист и физик Арпад Эло. Сегодня по его методу считают рейтинг и футбольных сборных, и языковых моделей.

тема	рейтинг Эло · байесовское обновление · футбол · шахматы · LLM
читать	~6 минут
связано	симуляция турнира · андердоги · байес · xG · оценка LLM

Сила — вещь неуловимая: её не измерить линейкой. Эло предложил хитрый обход: не мерить силу напрямую, а вывести её из результатов. Обыгрываешь тех, кто обыгрывает других, — рейтинг растёт. Само число ничего не значит: важна только разница двух рейтингов, и именно она предсказывает исход. Разрыв в сто очков означает, что сильнейший в среднем берёт 64%, в двести — 76%1. Рейтинг — это не сила, а ставка на то, кто кого обыграет.

После каждой игры победитель забирает очки у проигравшего, и размер передачи зависит от неожиданности. Обыграл того, кто заметно сильнее, — получил много: система удивлена и резко пересматривает мнение о тебе. Обыграл слабого — почти ничего: этого и ждали2. По сути это обновление веры: рейтинг — текущая оценка силы, которую каждый матч чуть поправляет в сторону свежих данных. Тот же байесовский ход, что и везде, где мы уточняем убеждение фактом.

Метод придумал Арпад Эло — венгеро-американский физик и сильный шахматист — чтобы честнее ранжировать игроков. Шахматная федерация США приняла систему в 1960-м, мировая ФИДЕ — в 1970-м3. Эло понимал, что число всегда приблизительно, и сам сравнивал рейтинг с попыткой измерить положение качающегося на волнах поплавка — качающимся же метром: оценка вечно плавает вокруг настоящей силы4.

Рейтинг — это не истина о силе, а оценка, которую каждый матч чуть поправляет.

Красота метода в том, что ему всё равно, что ранжировать. Шахматы, го, скрабл, киберспорт — везде тот же расчёт. В футбол Эло перенесли в 1997-м, а в 2018-м на рейтинг по его методу перешла и сама ФИФА5. И ровно эти рейтинги — то «число силы», которое подставляют в симуляцию турнира: откуда модель знает, что Испания сильнее Кюрасао, — оттуда.

А самый неожиданный поворот — свежий. Тем же методом Эло сегодня ранжируют искусственный интеллект: на арене, где языковые модели отвечают на один и тот же запрос, люди голосуют, чей ответ лучше, и модели набирают рейтинг точно как шахматисты — победами друг над другом6. Шахматная формула 1960-х внезапно стала стандартом оценки нейросетей.

В этом весь Эло: он свёл неуловимую «силу» к одному числу, которое можно сравнивать и которое честно обновляется фактами — и при этом не притворяется истиной. Рейтинг не говорит, кто сильнее «на самом деле». Он говорит, во что разумно верить, посмотрев на результаты. А во что верить — всегда можно пересмотреть, как только сыграна следующая партия.

[1]Эло: E = 1 / (1 + 10^((R_опп − R)/400)). Разрыв в 100 очков → ожидаемые ~64%, в 200 → ~76%. Важна только разница рейтингов.

[2]После партии победитель забирает очки у проигравшего; размер передачи тем больше, чем неожиданнее исход. R′ = R + K·(S − E).

[3]Арпад Эло — физик и шахматный мастер; систему приняли USCF (1960) и ФИДЕ (1970). Книга «The Rating of Chessplayers, Past and Present» (1978).

[4]Образ самого Эло: измерять рейтинг — всё равно что мерить положение качающегося на волнах поплавка качающимся метром; число всегда плавает вокруг истинной силы.

[5]В футбол Эло перенёс Боб Раньян (1997, World Football Elo Ratings); ФИФА перешла на рейтинг по методу Эло в 2018 (у женщин — модифицированный Эло с 2003).

[6]Тем же методом ранжируют языковые модели: в «арене» LLM соревнуются попарно, и силу считают по Эло.