Игры которые тренируют машины.
первое эссе про игры заканчивалось красивой петлёй: жизнь сжали до игры → игра породила математику → математика разжалась обратно и описала жизнь. это была история про прошлое. сейчас игра делает другую работу. не для нас.
| тема | теория игр · reinforcement learning · self-play · ИИ |
| читать | ~12 минут |
| связано | игры построившие математику · теория игр · монте-карло · покер |
Кости, карты, рулетка, пасьянс, покер. Четыреста лет, восемь теорий, ни один математик не разбогател в казино.
Но это была история про эпоху, когда игра была окном для человека в устройство мира. Кардано смотрел на кубик и видел случайность. Паскаль смотрел на прерванную партию и видел ожидание. Игра была микроскопом — её клали на стол, разглядывали, считали. Сейчас игра делает другую работу. Не для нас.
Последние тридцать лет игра перестала быть упрощением мира. Стала наоборот — самой сложной средой, до которой математика смогла дотянуться. Кости были проще жизни. StarCraft сложнее жизни — по числу возможных состояний, по скорости, по тому что противник в нём тоже учится в реальном времени.
И функция игры в математике изменилась. Раньше человек играл, чтобы понять мир. Теперь человек устраивает игру, чтобы научить машину этот мир обрабатывать. Игра сменила пользователя.
Кардано был игроком. AlphaGo — игроком сделана. Это разные вещи на структурном уровне. Игра в XVI веке была инструментом мышления одного человека. Игра в XXI стала тренажёрным залом для целого нового типа интеллекта. Помещением, в которое запускают агента и закрывают дверь — пусть тренируется.
И математика, которая из этого растёт, тоже другая по природе. Раньше она описывала закономерности — формулой, теоремой, распределением. Сейчас она описывает процесс обучения — как агент сходится к стратегии, как баланс между исследованием и эксплуатацией, как credit assignment в длинной цепочке решений. Не формула про мир, а формула про то как формула про мир может быть выучена.
Каспаров проиграл машине, и это казалось концом эпохи. На самом деле это был конец только одной парадигмы — брутфорса. Deep Blue не понимал шахматы, он их просчитывал. 200 миллионов позиций в секунду, alpha-beta pruning, эвристики написанные людьми. Это была вершина старой математики: если мир конечен, дайте мне достаточно железа и я переберу его весь. Шахматы оказались последней игрой где такой подход работал.
Го сломал перебор. Состояний на доске больше, чем атомов во вселенной — никаким железом не обойти. Пришлось придумать другой тип математики. Глубокие нейросети учились оценивать позицию как шахматный гроссмейстер — на глаз, по форме. Поверх этого Monte Carlo Tree Search — тот самый Монте-Карло, который Улам придумал в больнице с пасьянсом, только теперь не для физики, а для решения «куда поставить камень». А поверх всего — self-play. Машина играла сама с собой миллионы раз и училась у самой себя. AlphaGo Zero не видела ни одной партии человека — и обыграла все предыдущие версии. Это и есть главное изобретение десятилетия: учиться не у учителя, а у себя через игру.
В покере противник знает то, чего не знаешь ты. И врёт. Старая теория игр от фон Неймана не справлялась с многопользовательским no-limit Texas Hold'em — слишком много веток, слишком асимметричная информация. Появилась математика сожаления: counterfactual regret minimization. Идея, если упрощать, такая — играй миллиарды раз против себя и после каждой партии задавай вопрос «что было бы если бы я в этой точке решил иначе». Сожаление становится сигналом обучения. Pluribus в 2019-м обыграл шесть человек одновременно — впервые в истории. И блефовал лучше людей. Не потому что наглее. Потому что точнее посчитал когда блеф окупается.
Здесь сошлось всё что было сложного по отдельности: реальное время, неполная информация, длинные горизонты планирования, кооперация в команде, тысячи возможных действий каждую секунду. Решение оказалось архитектурным — league training. Не один агент учится против себя, а целый пул агентов учится друг против друга, и кто-то специально натренирован эксплуатировать слабости остальных. Получается экосистема, эволюция стратегий, как в природе. Из этого выросла идея, которая теперь применяется везде: чтобы агент стал по-настоящему устойчивым, его нужно тренировать не против одной версии оппонента, а против постоянно обновляющейся популяции.
Это уже другой класс. В Diplomacy выигрывает не тот кто лучше считает, а тот кто умеет договариваться. Игра построена на переговорах, союзах и предательстве — словами, в свободном чате. Meta объединила языковую модель со стратегическим движком и впервые получила систему, которая умеет говорить с людьми о планах. Cicero попал в топ-10% игроков на онлайн-платформе. И — отдельно интересно — он почти не врал. Авторы статьи отдельно отмечают: Cicero оказался эффективнее когда был честным. Это первая игра, где математика начала задевать территорию социального — доверие, кооперация, репутация.
Самое свежее и пока самое непонятное. Языковые модели вроде DeepSeek-R1 и o1 учатся рассуждать через чистый reinforcement learning — без размеченных людьми данных. Модель решает задачу, проверяет себя, переобучается на собственных решениях, снова решает. Это уже не «игра» в обычном смысле — нет доски, нет противника, нет правил. Есть только задача и обратная связь. Но структурно это та же штука: агент играет сам с собой и из этой игры рождается способность. Те самые «aha moments» в обучении R1, когда модель внезапно начинает писать «подождите, давайте я перепроверю» — это поведение никто не программировал. Оно эмерджентно выросло из миллионов раундов self-play. Математика этого процесса ещё формируется. Мы примерно на той стадии где Паскаль был в 1654 — задача есть, ответа пока нет.
Старая математика игр спрашивала: как устроен мир? Новая математика игр спрашивает: как устроено обучение? Это не риторический сдвиг, это другой объект исследования. Кардано изучал кубик. DeepMind изучает не Го — DeepMind изучает то, как агент учится играть в Го. Игра стала инструментальной. Полем, на котором тестируется не теория мира, а теория интеллекта.
И есть ещё один момент, который кажется мне важным. Все шесть игр выше — это всё ещё формальные среды. Доска, фишки, правила, конец партии. Жизнь так не устроена — в ней нет конца партии, нет чёткой функции выигрыша, нет рамки. Поэтому следующий вопрос математики уже виден: как обучать агента в средах без явной игры? Без победы и поражения, без счёта, без правил. Просто в мире. Это и есть та самая открытая граница, на которой сейчас работают все большие лаборатории — от RLHF до constitutional AI и до того что называется агентами в реальном вебе.
Кардано не знал что основал теорию вероятностей. Он просто хотел перестать проигрывать. Команды которые сейчас учат LLM играть в дебаты сами с собой тоже не знают что они основывают. Они просто хотят чтобы модель меньше врала.
В первом эссе была красивая фигура: жизнь → игра → математика → жизнь. Сейчас в эту фигуру встроилось ещё одно звено.
Машина, обученная в игре, выходит из игры и применяет себя к миру. Cicero, который научился договариваться в Diplomacy, через несколько лет окажется в системе бронирования билетов и будет торговаться с другим агентом за рейс. AlphaGo, которая научилась интуиции на доске, превратилась в AlphaFold и предсказывает структуры белков. Self-play модели, которые сейчас тренируются в текстовых играх, через год будут писать код в твоей IDE.
Игра перестала быть микроскопом для математика. Она стала инкубатором для интеллекта. И математика, которая там рождается, нам ещё не вся понятна — мы примерно как Гюйгенс в 1657-м, который услышал что двое решили интересную задачу, и пытается понять что это вообще такое.
Спойлер из первого эссе всё ещё работает: казино выигрывает у всех. Просто сейчас в казино играют машины. И математика, которую они приносят за стол, — пока что обыгрывает математику, которую туда приносим мы.
«математики не изучали игры. игры задавали вопросы. математикам приходилось изобретать ответы.» — и теперь то же самое делают машины.