null
эссе · вероятность · спорт · ~620 слов · 6 мин

одно число.

Как уместить силу команды — или шахматиста, или нейросети — в одно число? Способ придумал шахматист и физик Арпад Эло. Сегодня по его методу считают рейтинг и футбольных сборных, и языковых моделей.

темарейтинг Эло · байесовское обновление · футбол · шахматы · LLM
читать~6 минут
связаносимуляция турнира · андердоги · байес · xG · оценка LLM

Сила — вещь неуловимая: её не измерить линейкой. Эло предложил хитрый обход: не мерить силу напрямую, а вывести её из результатов. Обыгрываешь тех, кто обыгрывает других, — рейтинг растёт. Само число ничего не значит: важна только разница двух рейтингов, и именно она предсказывает исход. Разрыв в сто очков означает, что сильнейший в среднем берёт 64%, в двести — 76%1. Рейтинг — это не сила, а ставка на то, кто кого обыграет.

После каждой игры победитель забирает очки у проигравшего, и размер передачи зависит от неожиданности. Обыграл того, кто заметно сильнее, — получил много: система удивлена и резко пересматривает мнение о тебе. Обыграл слабого — почти ничего: этого и ждали2. По сути это обновление веры: рейтинг — текущая оценка силы, которую каждый матч чуть поправляет в сторону свежих данных. Тот же байесовский ход, что и везде, где мы уточняем убеждение фактом.

Метод придумал Арпад Эло — венгеро-американский физик и сильный шахматист — чтобы честнее ранжировать игроков. Шахматная федерация США приняла систему в 1960-м, мировая ФИДЕ — в 1970-м3. Эло понимал, что число всегда приблизительно, и сам сравнивал рейтинг с попыткой измерить положение качающегося на волнах поплавка — качающимся же метром: оценка вечно плавает вокруг настоящей силы4.

Рейтинг — это не истина о силе, а оценка, которую каждый матч чуть поправляет.

Красота метода в том, что ему всё равно, что ранжировать. Шахматы, го, скрабл, киберспорт — везде тот же расчёт. В футбол Эло перенесли в 1997-м, а в 2018-м на рейтинг по его методу перешла и сама ФИФА5. И ровно эти рейтинги — то «число силы», которое подставляют в симуляцию турнира: откуда модель знает, что Испания сильнее Кюрасао, — оттуда.

А самый неожиданный поворот — свежий. Тем же методом Эло сегодня ранжируют искусственный интеллект: на арене, где языковые модели отвечают на один и тот же запрос, люди голосуют, чей ответ лучше, и модели набирают рейтинг точно как шахматисты — победами друг над другом6. Шахматная формула 1960-х внезапно стала стандартом оценки нейросетей.

В этом весь Эло: он свёл неуловимую «силу» к одному числу, которое можно сравнивать и которое честно обновляется фактами — и при этом не притворяется истиной. Рейтинг не говорит, кто сильнее «на самом деле». Он говорит, во что разумно верить, посмотрев на результаты. А во что верить — всегда можно пересмотреть, как только сыграна следующая партия.