эссе · §10 · теория игр · открытие · ~13 минут · 2026.06

скрытый этаж

как через тридцать лет в, казалось бы, добитой задаче нашли целый новый слой — и почему абсолютная власть в нём оборачивается щедростью

К две тысячи двенадцатому году про повторяющуюся дилемму заключённого, казалось, было известно всё. Тридцать с лишним лет после турниров Аксельрода: сотни статей, десятки стратегий, учебники с готовой моралью — будь добр, отвечай, прощай. Око за око на пьедестале, история со счастливым концом. Задача выглядела закрытой, как теорема с поставленной точкой: красиво, исчерпывающе, добавить нечего.

А потом двое физиков нашли в ней целый этаж, которого никто не замечал.

двое чужаков

Звали их Уильям Пресс и Фримен Дайсон. Второе имя стоит того, чтобы остановиться: Дайсон — одна из легенд физики двадцатого века, человек, который ещё в молодости свёл воедино конкурирующие версии квантовой электродинамики, а к моменту этой работы разменял девятый десяток. В теорию игр он пришёл чужаком — и сделал ровно тот ход, который чаще удаётся чужакам: посмотрел на заезженную задачу под незнакомым углом.

Угол был — линейная алгебра. Вместо того чтобы, как все тридцать лет до них, гонять стратегии в симуляциях и смотреть, кто кого, Пресс и Дайсон записали повторяющуюся игру как простую систему уравнений и принялись её решать на бумаге. И заметили трюк, мимо которого прошли все: если подобрать свою стратегию особым образом, один определитель в этих уравнениях обращается в ноль^[1]. От этого ноля и пошло название — zero-determinant, «нулевой определитель». А следствие из него оказалось ошеломляющим.

власть вместо ответа

Вот что они доказали. Игрок, помнящий всего один прошлый ход, может в одиночку навязать жёсткую связь между своим средним выигрышем и выигрышем соперника — линейную, заранее заданную, и соблюдаться она будет при любой игре соперника^[2].

Вдумайся, насколько это странно. Все предыдущие стратегии были реакциями: ты бьёшь — отвечу, ты миришься — помирюсь. Хорошая игра означала хорошо отвечать. А здесь игрок не отвечает — он диктует. Он не подстраивается под партию, он назначает уравнение, которому партия обязана подчиниться, что бы партнёр ни вытворял. Это не другая стратегия в прежнем смысле. Это другой смысл слова «стратегия»: не ход за ходом, а закон над итогом.

И сразу встаёт вопрос, который должен был встать: если можно диктовать связь между очками — нельзя ли продиктовать её в свою пользу?

вымогатель

Можно. Самое тёмное дитя нового класса — вымогательские стратегии (extortion).

Вымогатель навязывает такую связь: его перевес над выигрышем соперника всегда держится в заданной пропорции. Скажем, сколько бы очков ни набрал партнёр сверх нищенского минимума, вымогатель забирает себе вдвое больше сверх того же минимума. И вот в чём ловушка: партнёру, чтобы поднять собственный счёт, остаётся единственный путь — кооперировать, а кооперируя, он автоматически поднимает счёт вымогателю — ещё выше. Чем разумнее соперник, чем усерднее он тянет своё, тем жирнее кормит хозяина. Его собственная рациональность становится поводком.

На этом месте кажется, что вот он — наконец-то найденный убийца око за око. Стратегия, которая не отвечает на доброту, а доит её; которая обыгрывает любого рационального соперника не вничью, а с гарантированным перевесом. Пресс и Дайсон так и назвали свою статью — «стратегии, доминирующие над любым эволюционным противником». Тридцать лет искали правило сильнее взаимности — и вот оно, выведенное не из турнира, а из чистой алгебры.

Но дальше начинается самое красивое.

контрреволюция

Вымогательство непобедимо ровно в одном случае — в дуэли против одинокого соперника, который вынужден подстраиваться. Выпусти его в популяцию — и чары спадают.

Потому что доить вымогателю некого, кроме своих же. Против доброго мира он наживается, но мир добрых он сам же и выкашивает; а оставшись среди таких же вымогателей, он встречает зеркало — и обе стороны нищают на взаимной жадности. Когда Александр Стюарт и Джошуа Плоткин перепрогнали турнир Аксельрода, подмешав в поле ZD-стратегии, итог вышел почти издевательский: на вершину поднялась великодушная разновидность ZD — та, что гарантирует сопернику долю не меньше собственной, — а вымогательская осела почти у самого дна, рядом с тупым «всегда предавай»^[3]. Год спустя те же авторы показали и общий закон: вымогательство эволюционно неустойчиво, а щедрость — устойчива^[4].

Картина повторяет всю историю кооперации, только на новом этаже. Игроку дали в руки рычаг абсолютной власти над чужими очками — и оптимальный способ им распорядиться оказался не «отними побольше», а «отдай не меньше, чем берёшь». Даже там, где математика впервые позволила законно грабить, она же выводит к тому, что грабёж себя не окупает. Щедрость живёт дольше жадности — теперь это доказано и сверху, со стороны власти, а не только снизу, со стороны турнирной таблицы.

око за око всё это время было внутри

И последний поворот, тихий, но самый изящный. Когда Пресс и Дайсон описали новый класс, выяснилось, что один его представитель был известен давно. Око за око — это тоже zero-determinant стратегия. Особая, пограничная: она навязывает связь, в которой перевес равен нулю, то есть попросту уравнивает очки обоих игроков^[5].

Тридцать лет чемпион взаимности стоял на пьедестале сам по себе, простой и понятный. И вдруг оказалось, что всё это время он был частным случаем класса, который откроют только через три десятилетия. Не исключение, а одна точка на только что найденной прямой — самая честная её точка, та, где никто никого не обгоняет. Старая разгадка не отменилась. Она просто заняла своё место внутри разгадки большей.

ни одна задача не добита

Что из этого стоит унести — помимо самих вымогателей и щедрых.

Первое и общее: даже задача, изученная до дыр, может прятать целый слой. Повторяющуюся дилемму перебрали вдоль и поперёк, написали по ней библиотеку — и всё равно простой вопрос, заданный поздно и со стороны, вскрыл в ней этаж, мимо которого прошли все. Математика снова наградила не того, кто усерднее считал, а того, кто иначе посмотрел. У «закрытых» задач это бывает чаще, чем принято думать; точка в конце теоремы — почти всегда чья-то лень или нехватка нового угла.

И второе, сквозное для всей этой темы. Сюжет кооперации устроен так, что сколько ни ищи способ обыграть взаимность, выводит к ней же. Турниры показали это снизу — победой доброго правила. Эволюция показала через шум — победой прощающего. А скрытый этаж показал сверху, с самой вершины возможной власти: даже умея диктовать исход, выгоднее диктовать его по-честному. Можно открыть в игре сколько угодно новых этажей — лестница всё равно ведёт туда же.

Око за око снова не сделало ничего особенного. Оно просто оказалось там, куда всё сходится.

на полях

эссе: эволюция кооперации · условия кооперации · математика предательства · решения на дистанции

объекты: zero-determinant стратегии · стратегии повторяющейся игры · дилемма заключённого

фигуры: Роберт Аксельрод

[1]Название zero-determinant — от приёма линейной алгебры: стратегию подбирают так, чтобы определитель некоторой матрицы, составленной из выплат и вероятностей, обратился в ноль; тогда средние выигрыши обоих игроков ложатся на прямую, заданную одним из них.

[2]W. Press, F. Dyson. «Iterated Prisoner's Dilemma contains strategies that dominate any evolutionary opponent». PNAS (2012). Игрок с памятью на один ход может в одностороннем порядке навязать линейную связь между средними выигрышами обоих.

[3]A. Stewart, J. Plotkin. «Extortion and cooperation in the Prisoner's Dilemma». PNAS (2012). Переигровка турнира Аксельрода с ZD: великодушная ZDGTFT-2 — наивысший средний балл, вымогательская Extort-2 — почти худший.

[4]A. Stewart, J. Plotkin. «From extortion to generosity, evolution in the Iterated Prisoner's Dilemma». PNAS (2013). Вымогательские ZD эволюционно неустойчивы; великодушные — устойчивы. Близкий результат — Adami & Hintze, Nature Communications (2013).

[5]Око за око — пограничная ZD-стратегия, навязывающая равенство средних выигрышей обоих игроков (нулевой перевес).