эссе · §10 · теория игр · кооперация · ~17 минут · 2026.06

эволюция кооперации

почему за сорок пять лет никто так и не сверг око за око — и что это говорит о выгоде быть хорошим

Один-единственный раз дилемма заключённого решается просто, и решение это некрасивое. Что бы ни задумал сидящий напротив, тебе выгоднее его предать; так велит доминирующая стратегия, так сходится единственное равновесие — обоюдное предательство, холодное и безупречное. Об этой арифметике — отдельный разговор в «математике предательства».

Беда в том, что жизнь почти никогда не бывает одним ходом. С соседом, коллегой, конкурентом, со страной по ту сторону границы ты играешь не партию, а бесконечный сериал и не знаешь, на какой серии его закроют. И стоит игре повториться, как безупречное равновесие начинает плыть. В неё входит то, чего в одиночном ходе не было и быть не могло, — тень будущего. Сегодняшнее предательство аукнется завтрашним отказом, и внезапно выясняется, что сотрудничать — выгодно.

Остаётся вопрос: по какому правилу. Не «предать или нет» однажды, а какой линии держаться на тысяче ходов подряд. Сорок пять лет лучшие головы искали правило, которое побьёт все прочие. И самое захватывающее в этой истории — не то, что они в итоге нашли, а то, что найти так и не сумели.

турнир, с которого всё началось

В 1980-м политолог Роберт Аксельрод придумал ход одновременно ленивый и гениальный: вместо того чтобы решать задачу самому, он объявил турнир^[1]. Присылайте, говорит, свои стратегии для повторяющейся дилеммы — маленькие программы, что на каждом ходу заглядывают в историю партии и решают, протянуть руку или ударить. Откликнулись четырнадцать человек: математики, психологи, экономисты. Аксельрод свёл всех со всеми, по двести ходов на пару, и подсчитал очки.

Победила самая короткая программа турнира — пять строчек кода. Око за око (по-английски tit-for-tat) прислал Анатоль Рапопорт, математик и психолог. Правило в нём предельно простое: первый ход — протяни руку, дальше повторяй за соперником. Ударил — получишь в ответ. Смягчился — и око за око смягчается следом, без злопамятства.

Из этой победы Аксельрод вывел четыре свойства сильного игрока^[2]: будь добр и не бей первым; отвечай и не позволяй себя использовать; будь отходчив и не носи обиду вечно; будь понятен, потому что с предсказуемым охотнее идут на мировую. Из четырёх строчек выросла целая проповедь о том, что математика, дескать, доказала: быть хорошим — выгодно.

Только в самой победе спрятан факт, тихо переворачивающий всю проповедь.

чемпион, не выигравший ни одного боя

Око за око взял оба турнира, не выиграв ни единой схватки. Не по скромности — по устройству^[3]. Вдумайся: он не бьёт первым никогда. А значит, в любой паре его ждёт ровно одно из двух — либо ничья (оба до конца тянут друг другу руку), либо отставание на один-единственный ход, тот самый, когда соперник уже предал, а око за око ещё не успел ответить. Обогнать он не способен в принципе: его удар всегда ответный, и лучшее, на что этот удар годится, — сравнять счёт, но не вырваться вперёд.

Как же он тогда выиграл? Не победами, а приливом. Встретив другого мирного игрока, око за око раскручивал с ним долгую взаимную кооперацию, и оба расходились с полными карманами. Встретив агрессора — быстро переставал кормить и обрезал ему прибыль. По сумме поля он собрал больше всех не как боксёр, что роняет соперников одного за другим, а как партнёр, рядом с которым богатеют все.

Вот она, та самая неочевидная красота. Один на один око за око обыграет всякий, кто готов ударить. А в турнире — никто. Потому что на длинной дистанции «лучший» меряется не числом поверженных, а размером собственного выигрыша, — а выигрыш в кооперативной игре растёт не из чужого разорения, а из общего достатка.

прощение сильнее памяти

Аксельрод не поверил, что разгадка так проста, и затеял второй турнир. Теперь он заранее разослал всем разбор первого: вот победитель, вот почему. Он, по сути, нарисовал на чемпионе мишень — пусть теперь, зная его в лицо, попробуют свалить. Слетелось шесть десятков заявок. Око за око победил снова.

И всё же в разборе всплыла деталь, на которой стоит задержаться. Одна стратегия обыграла бы чемпиона во втором турнире — и Аксельрод собственноручно раздал её всем как образец заявки. Её не прислал никто. Звали её око за два ока (tit-for-two-tats): прощай до двух обид кряду и отвечай лишь на вторую^[4]. Там, где око за око вскидывается на каждый укол, этот терпит первый и реагирует только на повтор.

Вывод, обидный для всех мстительных: против того поля более прощающая версия чемпиона была бы ещё сильнее. Око за око терял очки в мелких перепалках взаимной мести, которых терпеливый собрат попросту не затевал. Это первый намёк на главную его трещину — и трещина расходится, едва в игру входит то, без чего не обходится ни одна настоящая игра. Ошибка.

одна осечка — и война без конца

Вообрази, что ход иногда срывается. Ты тянул руку, но дрогнул палец, сорвался сигнал, тебя не так поняли — и вышло предательство, которого ты не хотел. В стерильном турнире такого не бывает. В жизни — на каждом шагу.

Для око за око это смертельно. Двое таких мирно сотрудничают сотню ходов — и вдруг один по случайности бьёт. Второй, оскорблённый, отвечает ударом. Первый, ни в чём не виноватый, отвечает на ответ. И дальше уже не остановить: бесконечный размен ударами, эхо одной нечаянной осечки, которое не затихнет. Память без прощения превращает праведника в склочника.

Лечится это двумя средствами, и оба хороши.

Первое — великодушное око за око (generous tit-for-tat): мсти, но время от времени прощай обиду просто так, наугад, с некоторой вероятностью. Этого довольно, чтобы разорвать цикл: рано или поздно кто-то «не заметит» удара, и пара возвращается к миру.

Второе — и вот она, та самая суперстратегия — Pavlov, «выиграл — стой на своём, проиграл — меняйся» (win-stay, lose-shift)^[5]. Правило простое до гениальности: исход хорош — повтори ход; исход плох — смени. На языке игры это значит: если в прошлом раунде вы оба сходили одинаково — Pavlov протягивает руку; если вразнобой — бьёт.

У Pavlov два преимущества, которых у око за око нет^[6]. Первое: он сам исправляет свои осечки. Сорвался на удар, получил в ответ — на следующем ходу разворачивается обратно, и петля не закручивается. Второе, более тонкое: Pavlov кормится за счёт доверчивых. Наткнувшись на того, кто кооперирует всегда и несмотря ни на что, око за око будет вежливо держать руку рядом, а Pavlov, поняв, что наказания не последует, начнёт обирать его безнаказанно. Звучит цинично — но именно это бережёт его популяцию от вырождения: безусловные добряки в ней не накапливаются, а значит, не возникает и питательной среды, в которую потом вторгаются предатели.

В эволюционных прогонах Новака и Зигмунда (Nature, 1993) — с шумом, с мутациями — на вершину неожиданно вышел не око за око, а именно Pavlov. С одной оговоркой: он первенствует, когда игроки ходят разом; стоит им чередоваться, отдавая и принимая по очереди, и корону забирает великодушное око за око^[7]. Иная геометрия игры — иной чемпион. Но оба из одного рода: добрые, отвечающие, отходчивые. Просто крепче стоят под градом реальных ошибок.

как ломают не стратегию, а турнир

В 2004-м, к двадцатилетию, Грэм Кендалл собрал юбилейный турнир. И вот тут око за око формально свергли — но таким способом, что разбирать его надо отдельно: это победа не над стратегией, а над правилами.

Команда из Саутгемптона прислала не одну программу, а шестьдесят^[8]. Каждая открывала партию условным рукопожатием — заученной серией из пяти-десяти ходов, по которой узнавала своих. Опознав родню, две программы делили роли: «раб» принимался кооперировать каждый ход, жертвуя собой, а «господин» — бить каждый ход, снимая с жертвы максимум. Распознав чужака, программа становилась чистым вредителем и громила его предательствами.

Саутгемптон занял весь верх таблицы — и весь низ заодно: рабы-смертники честно осели в самом хвосте, скормив очки господам. И отдельные господа набрали больше, чем игроки око за око.

Но взгляни, что именно тут надломилось. Дилемма заключённого держится на одном допущении — узники немы, сговориться им нельзя. Саутгемптон протащил речь контрабандой, через «танец узнавания», и узаконил сговор, наводнив турнир десятками сговорённых заявок. В среднем эти стратегии око за око не сильнее^[9] — весь фокус в том, какую долю поля надо заполнить рабами, чтобы господин вырвался вперёд. Они одолели не взаимность. Они одолели саму выдумку турнира о том, что игрок одинок и нем. Стратегия осталась цела — обрушилось правило вокруг неё.

скрытый слой игры

Тридцать лет казалось, что о повторяющейся дилемме известно уже всё. А в 2012-м физики Уильям Пресс и Фримен Дайсон нашли в ней этаж, которого никто не замечал, — zero-determinant стратегии.

Выяснилось, что игрок, помнящий всего один прошлый ход, способен в одиночку навязать сопернику жёсткую связь между их очками — что бы тот ни делал. Отсюда — две породы стратегий, поразительные своей зеркальностью. Вымогатель (extortion) фиксирует, что его выигрыш всегда превосходит чужой в заданной пропорции; рациональный соперник, гонясь за своим, поневоле кормит вымогателя. А его двойник, великодушная ZD, гарантирует обратное — что сопернику достанется доля не меньше твоей.

Кажется, вот он, наконец-то найденный убийца око за око. Но дальше начинается самое изящное. Когда Стюарт и Плоткин перепрогнали турнир Аксельрода, подмешав ZD-стратегии, по средним очкам победила великодушная ZDGTFT-2 — выше и око за око, и его щедрой версии. А вымогательский Extort-2 осел почти на самом дне, чуть выше «всегда бей»^[10]. Вымогательство берёт верх в дуэли против одинокого рационального соперника, но в турнире, а тем более в живой эволюционирующей толпе, оно само себя разоряет: кормить вымогателя некому, кроме других вымогателей, а друг на друге они лишь беднеют. Устойчиво — снова великодушие. Даже нащупав в игре рычаг абсолютной власти, математика упрямо выводит к тому же: щедрость живёт дольше жадности.

машины садятся за стол

Сегодня стратегии не присылают почтой — их выращивают. И тут два свежих сюжета.

Первый: обучение с подкреплением рождает стратегии, которым удаётся то, чего око за око не умел, — доминировать в турнире, выигрывая поединки^[11]. Машина, в отличие от Рапопорта, не стесняется ударить первой, когда видит, что это сойдёт с рук. Но есть и зеркало: самоиграющие Q-агенты, оставленные наедине друг с другом, раз за разом приходят не к «всегда бей», а к кооперации в духе Pavlov. Машина, которой никто не велел быть доброй, заново открывает выгоду взаимности сама.

Второй сюжет — совсем свежий, январь 2025-го. Международная команда (Max Planck, Кардифф, Google) перепроверила Аксельрода уже не на четырнадцати стратегиях, а на ста девяноста пяти, прогнав тысячи турниров в разных средах^[12]. Вывод отрезвляющий: исход сильно зависит от того, в какое поле ты угодил. Аксельродовы четыре свойства — отчасти артефакт его крошечной выборки. Победители оказались не просто добрыми и отвечающими, но ещё и умными, чуть завистливыми, чуткими к окружению. Доброта по-прежнему в основании — но доброта негибкая проигрывает доброте сообразительной.

А что люди? Эксперимент 2019 года в American Economic Review показал: живые игроки тяготеют к трём линиям — «всегда бей», око за око и grim trigger («один раз предал — мщу до конца»), и выбор колеблется вслед за условиями игры^[13]. Мы вслепую нащупываем тот же спектр от непрощающей мести до взаимности, который машины перебирают в своих симуляциях.

что победило на самом деле

Сложи всё вместе — и проступает картина посильнее плоского «око за око лучший».

За сорок пять лет чемпиона обходили не раз. Но присмотрись, как именно. Каждый, кому это удавалось, делал ровно одно из трёх. Либо ломал правила — как Саутгемптон со своим сговором и контрабандной речью. Либо выигрывал дуэли ценой проигрыша в общей игре — как «всегда бей» и вымогатели, чемпионы поединка и аутсайдеры турнира. Либо был не чужаком, а уточнением всё того же доброго, отходчивого, отвечающего рода, просто устойчивее на ухабах, — как Pavlov, великодушное око за око, щедрые ZD.

Ни разу его не свалила стратегия, которая была бы злее и при этом честнее побеждала на длинной дистанции. Победителем оказалась не отдельная программа, а целый класс: добрый, в меру задиристый, отходчивый, взаимный. Око за око — лишь простейший его представитель, удобное имя для принципа, что всплывает снова и снова в новых одеждах. Менялся носитель — принцип стоял.

А поверх всего — тот самый поворот, с которого мы начали. Чемпион, открывший эту сорокапятилетнюю охоту, не выиграл ни одной схватки. Он победил тем, что вокруг него всем стало житься лучше. Это не примечание мелким шрифтом. Это и есть мораль.

кода: быть тем, к кому возвращаются

Всё это — частный случай решений на дистанции. В одном-единственном раунде предательство царствует, и спорить не о чем. Но почти ничто из важного не играется в один раунд. А на длинной дистанции математическое ожидание считают иначе: в выигрыше не тот, кто выжал из встречи всё до капли, а тот, к кому захотят прийти на следующую.

Взаимность здесь — не мораль, пришитая сверху белыми нитками, а стратегия, выпавшая снизу, из самой арифметики повторяющейся игры. Оттого она и проступает повсюду, где есть тень будущего: у летучих мышей-вампиров, что делятся кровью с оголодавшим собратом; у рыб-чистильщиков, которых держит в узде одна лишь репутация; в окопах Первой мировой, где батальоны напротив без слов уговаривались не стрелять всерьёз. И, если додумать до края, — на самом верху, там, где кооперацию приходится отвоёвывать заново на всё большем масштабе, от племени до планеты. Великий фильтр, быть может, и есть тот турнир, в котором цивилизации раз за разом приходится доказывать, что она умеет договариваться сама с собой.

Око за око не выиграл ни одной партии. Потому и выиграл всё.

---

на полях

объекты: дилемма заключённого · равновесие нэша · минимакс · стратегии повторяющейся игры (каталог) · zero-determinant стратегии

эссе: математика предательства · условия кооперации · решения на дистанции · ошибка игрока · игры, которые тренируют машины

фигуры: Анатоль Рапопорт · Роберт Аксельрод · Мартин Новак

на полях — в биологию: взаимность у вампиров и чистильщиков, перемирия в окопах, Великий фильтр как турнир кооперации

[1]Роберт Аксельрод провёл первый турнир по повторяющейся дилемме заключённого в 1980-м; результаты и анализ — в книге «The Evolution of Cooperation» (1984). 14 заявок, круговой формат, 200 ходов в матче.

[2]Четыре свойства сильной стратегии по Аксельроду: добрая (не бьёт первой), наказывающая, прощающая, понятная.

[3]Око за око никогда не бьёт первым, поэтому в парной встрече он либо играет вничью, либо отстаёт ровно на один ход. В масштабных переигровках турнира (напр. Harper et al., библиотека Axelrod-Python, arXiv:1707.06307) tit-for-tat не выигрывает ни одного отдельного матча и ни одного турнира по числу побед — только по сумме очков.

[4]Око за два ока (tit-for-two-tats) обыграл бы чемпиона во втором турнире; Аксельрод раздал его участникам как образец заявки, но никто не прислал.

[5]Pavlov / win-stay, lose-shift: повтори ход после хорошего исхода (T или R), смени после плохого (S или P). Эквивалентно: кооперируй, если в прошлом раунде оба сходили одинаково.

[6]M. Nowak, K. Sigmund. «A strategy of win-stay, lose-shift that outperforms tit-for-tat in the Prisoner's Dilemma game». Nature 364:56–58 (1993). Два преимущества Pavlov: исправляет случайные ошибки и эксплуатирует безусловных кооператоров.

[7]Pavlov первенствует при одновременных ходах; при чередовании ролей дающего и берущего верх берёт великодушное око за око (Milinski et al.).

[8]20-летний турнир (2004), организатор Грэм Кендалл; команду Саутгемптона вёл Ник Дженнингс. 60 программ, «рукопожатие» из 5–10 ходов, роли «господин/раб».

[9]В среднем стратегии Саутгемптона око за око не превосходят; преимущество господина зависит от доли скоординированных «рабов» в поле. По сути — обход запрета на коммуникацию и одиночную заявку, а не более сильная стратегия.

[10]ZD-стратегии — W. Press, F. Dyson, PNAS (2012). Стюарт и Плоткин (2012) перепрогнали турнир Аксельрода с добавлением ZD: великодушная ZDGTFT-2 дала наивысший средний балл, вымогательский Extort-2 — почти худший.

[11]Обучение с подкреплением выводит доминирующие в турнире стратегии (Harper et al., 2017); параллельно самоиграющие Q-обучаемые агенты доказуемо сходятся к кооперативной политике Pavlov.

[12]Исследование Max Planck Institute for Evolutionary Biology, Cardiff University и Google (январь 2025): 195 стратегий в тысячах турниров; победители — добрые, отвечающие, но также умные, слегка завистливые и приспосабливающиеся; «четыре правила» отчасти артефакт малой выборки Аксельрода.

[13]Экспериментальное исследование в American Economic Review (2019): реальные испытуемые чаще всего выбирают «всегда бей», око за око и grim trigger в зависимости от параметров игры.