эссе · §10 · теория игр · математика · ~9 минут · 2026.05

математика предательства.

два человека. два выбора. сотрудничать или предать. если оба предадут — оба проиграют. если оба будут сотрудничать — оба выиграют. но каждый в отдельности выиграет больше, если предаст.

тема	теория игр · Нэш · Аксельрод · кооперация · эволюция
читать	~9 минут
связано	равновесие Нэша · минимакс · дилемма заключённого · аукционы · EV

Джон фон Нейман в 1928 году доказал теорему о минимаксе1. Для любой игры с нулевой суммой между двумя игроками существует оптимальная смешанная стратегия. Это было началом теории игр.

Джон Нэш в 1950 году обобщил это2. Он доказал, что равновесие существует в любой конечной игре — не только с нулевой суммой. Равновесие Нэша: профиль стратегий, где никому не выгодно отклоняться в одностороннем порядке. Нобелевская премия 1994.

// термины

G	игра	формальная модель стратегического взаимодействия: игроки · стратегии · выплаты
S	стратегия	полный план действий для всех ситуаций. чистая или смешанная (вероятностная)
u(s)	функция выплат	числовая оценка исхода. игроки максимизируют свои выплаты
NE	равновесие Нэша	никому не выгодно отклоняться в одностороннем порядке. существует в любой конечной игре
DS	доминирующая стратегия	лучшая независимо от хода оппонента. если есть — рациональный игрок выберет её
PO	оптимум по Парето	нельзя улучшить одному не ухудшив другому. NE ≠ PO — в этом суть социальных дилемм
R	повторяющаяся игра	открывает возможность репутации и кооперации. теорема фолька
ESS	эволюционно стабильная стратегия	популяция не может быть вытеснена мутантом. Мэйнард Смит · 1973

дилемма заключённого

Дилемма заключённого — самая известная задача теории игр3. Два подозреваемых. Каждый может молчать или донести. Если оба молчат — оба получают по 1 году. Если один доносит, а другой молчит — доносчик выходит на свободу, молчун получает 10 лет. Если оба доносят — оба получают по 5 лет.

	оппонент молчит	оппонент доносит
ты молчишь	−1 / −1	−10 / 0
ты доносишь	0 / −10	−5 / −5

NE = оба доносят (−5/−5) · красная рамка
Парето-оптимум = оба молчат (−1/−1) · зелёный фон
условие T > R > P > S: T = 0 · R = −1 · P = −5 · S = −10

Каждый думает: «если он молчит — мне выгоднее донести (0 > −1). Если он доносит — мне всё равно выгоднее донести (−5 > −10)». Доминирующая стратегия для обоих — предательство. Оба доносят. Оба получают по 5 лет. Хотя могли бы получить по 1.

Это фундаментальный конфликт: индивидуальная рациональность ≠ коллективная оптимальность. NE ≠ PO. Атомные гонки. Рыболовство. Загрязнение. Компании, которые могли бы не тратиться на рекламу — но вынуждены тратиться, потому что конкурент тратится. Трагедия общих ресурсов.

турнир Аксельрода

В 1980 году политолог Роберт Аксельрод провёл эксперимент4. Он пригласил учёных прислать стратегии для повторяющейся дилеммы заключённого — 200 раундов друг против друга. Каждая стратегия сыграла против каждой (round-robin). Пришли стратегии от математиков, психологов, экономистов. Некоторые сложные — с анализом истории ходов. Некоторые простые.

Победила самая простая из всех. «Око за око» (Tit-for-Tat) от Анатолия Рапопорта — четыре строки кода. В первом раунде сотрудничать. В каждом следующем — повторить то, что сделал оппонент в прошлом.

// стратегии турнира

Tit-for-Tat победитель

в раунде 1 — кооперировать. далее — повторять последний ход оппонента. добрая · наказывающая · прощающая · прозрачная.

Tit-for-Two-Tats

предаёт только если оппонент предал дважды подряд. терпимее к ошибкам — лучше в шумных средах.

Pavlov (Win-Stay · Lose-Shift)

хороший исход → повторить. плохой → изменить. адаптируется быстрее TfT. эволюционно сильная.

Grim Trigger

кооперировать пока оппонент кооперирует. первое предательство → предавать навсегда. максимальное наказание → мощное сдерживание.

Always Defect

всегда предавать. выигрывает против наивных. проигрывает турнир.

Always Cooperate

всегда кооперировать. оптимально в добросовестной среде. легко эксплуатируется.

Random (50/50)

непредсказуем для оппонента. не использует информацию о нём.

Почему «Око за око» победило? Аксельрод выделил четыре свойства. Добрая — начинает с кооперации, не провоцирует. Наказывающая — немедленно отвечает на предательство, нельзя эксплуатировать безнаказанно. Прощающая — после наказания возвращается к сотрудничеству, не застревает в войне. Прозрачная — оппонент легко понимает логику, можно выстроить взаимную кооперацию.

Аксельрод провёл второй турнир — все участники знали результаты первого. Многие попытались превзойти «Око за око» сложными стратегиями. Tit-for-Tat победил снова.

Успех «Око за око» учит нас, что не нужно быть завистливым, не нужно быть первым кто предаёт, нужно отвечать взаимностью — и на кооперацию, и на предательство, нельзя быть слишком умным. — Роберт Аксельрод, «Эволюция кооперации», 1984

эволюция кооперации

Эволюционная версия — популяции стратегий. Стратегии размножаются пропорционально своей приспособленности. Always Defect поначалу процветает, эксплуатируя кооператоров. Но кооператоры постепенно исчезают, и Always Defect остаётся один — и начинает проигрывать самому себе. Tit-for-Tat выживает в кластерах: защищает своих.

Биолог Джон Мэйнард Смит применил теорию игр к эволюции5. Эволюционно стабильная стратегия (ESS): стратегия, которую популяция не может вытеснить мутантом. Кооперация в природе — не альтруизм. Это оптимальная стратегия при правильных условиях. Стратегии не выбираются — они отбираются естественным отбором.

Что нужно для возникновения кооперации? Аксельрод выделил три условия: (1) игра повторяется достаточно долго; (2) игроки достаточно «терпеливы» (ценят будущее); (3) игроки могут идентифицировать друг друга.

в продуктах и платформах

Маркетплейсы — повторяющиеся игры. Продавец и покупатель встречаются снова. Репутация — механизм, который делает честность рациональной долгосрочной стратегией. Рейтинги, отзывы, блокировки — всё это механизмы, превращающие одноразовую игру в повторяющуюся.

Теорема фолька: при бесконечно повторяющейся игре с терпеливыми игроками любой Парето-улучшающий исход достижим как равновесие. Можно договориться. Если есть завтра.

Теория игр объясняет не только тюремные дилеммы. Ценовые войны компаний — повторяющаяся дилемма заключённого. Ядерное сдерживание — игра с асимметричными выплатами. Эволюция альтруизма — почему организмы помогают друг другу.

В мире без центральной власти, без договоров, без принуждения кооперация может возникнуть сама. Если игра повторяется достаточно долго и игроки достаточно терпеливы — сотрудничество становится рациональным.

Самый важный вывод теории игр: предательство оптимально один раз. Кооперация оптимальна всегда — если есть завтра. И математика это доказывает.

[1] Джон фон Нейман · «Zur Theorie der Gesellschaftsspiele» · 1928 · теорема о минимаксе для игр с нулевой суммой.

[2] Джон Нэш · «Non-Cooperative Games» · Annals of Mathematics · 1950 · диссертация 27 страниц · Нобелевская премия по экономике 1994.

[3] Дилемма заключённого сформулирована Мерриллом Флудом и Мелвином Дрешером (RAND, 1950). Названа Альбертом Такером в том же году.

[4] Роберт Аксельрод · «The Evolution of Cooperation» · 1984 · турниры 1980 и 1981 · 14 стратегий в первом, 62 во втором · Tit-for-Tat Анатолия Рапопорта.

[5] Джон Мэйнард Смит · «Evolution and the Theory of Games» · 1982 · ESS · применение теории игр к биологической эволюции.