null
эссе · §10 · теория игр · математика · ~9 минут · 2026.05

математика предательства.

два человека. два выбора. сотрудничать или предать. если оба предадут — оба проиграют. если оба будут сотрудничать — оба выиграют. но каждый в отдельности выиграет больше, если предаст.

тематеория игр · Нэш · Аксельрод · кооперация · эволюция
читать~9 минут
связаноравновесие Нэша · минимакс · дилемма заключённого · аукционы · EV

Джон фон Нейман в 1928 году доказал теорему о минимаксе1. Для любой игры с нулевой суммой между двумя игроками существует оптимальная смешанная стратегия. Это было началом теории игр.

Джон Нэш в 1950 году обобщил это2. Он доказал, что равновесие существует в любой конечной игре — не только с нулевой суммой. Равновесие Нэша: профиль стратегий, где никому не выгодно отклоняться в одностороннем порядке. Нобелевская премия 1994.

// термины
G игра формальная модель стратегического взаимодействия: игроки · стратегии · выплаты
S стратегия полный план действий для всех ситуаций. чистая или смешанная (вероятностная)
u(s) функция выплат числовая оценка исхода. игроки максимизируют свои выплаты
NE равновесие Нэша никому не выгодно отклоняться в одностороннем порядке. существует в любой конечной игре
DS доминирующая стратегия лучшая независимо от хода оппонента. если есть — рациональный игрок выберет её
PO оптимум по Парето нельзя улучшить одному не ухудшив другому. NE ≠ PO — в этом суть социальных дилемм
R повторяющаяся игра открывает возможность репутации и кооперации. теорема фолька
ESS эволюционно стабильная стратегия популяция не может быть вытеснена мутантом. Мэйнард Смит · 1973
дилемма заключённого

Дилемма заключённого — самая известная задача теории игр3. Два подозреваемых. Каждый может молчать или донести. Если оба молчат — оба получают по 1 году. Если один доносит, а другой молчит — доносчик выходит на свободу, молчун получает 10 лет. Если оба доносят — оба получают по 5 лет.

оппонент молчит оппонент доносит
ты молчишь −1 / −1 −10 / 0
ты доносишь 0 / −10 −5 / −5
NE = оба доносят (−5/−5) · красная рамка
Парето-оптимум = оба молчат (−1/−1) · зелёный фон
условие T > R > P > S: T = 0 · R = −1 · P = −5 · S = −10

Каждый думает: «если он молчит — мне выгоднее донести (0 > −1). Если он доносит — мне всё равно выгоднее донести (−5 > −10)». Доминирующая стратегия для обоих — предательство. Оба доносят. Оба получают по 5 лет. Хотя могли бы получить по 1.

Это фундаментальный конфликт: индивидуальная рациональность ≠ коллективная оптимальность. NE ≠ PO. Атомные гонки. Рыболовство. Загрязнение. Компании, которые могли бы не тратиться на рекламу — но вынуждены тратиться, потому что конкурент тратится. Трагедия общих ресурсов.

турнир Аксельрода

В 1980 году политолог Роберт Аксельрод провёл эксперимент4. Он пригласил учёных прислать стратегии для повторяющейся дилеммы заключённого — 200 раундов друг против друга. Каждая стратегия сыграла против каждой (round-robin). Пришли стратегии от математиков, психологов, экономистов. Некоторые сложные — с анализом истории ходов. Некоторые простые.

Победила самая простая из всех. «Око за око» (Tit-for-Tat) от Анатолия Рапопорта — четыре строки кода. В первом раунде сотрудничать. В каждом следующем — повторить то, что сделал оппонент в прошлом.

// стратегии турнира
1
Tit-for-Tat победитель
в раунде 1 — кооперировать. далее — повторять последний ход оппонента. добрая · наказывающая · прощающая · прозрачная.
2
Tit-for-Two-Tats
предаёт только если оппонент предал дважды подряд. терпимее к ошибкам — лучше в шумных средах.
3
Pavlov (Win-Stay · Lose-Shift)
хороший исход → повторить. плохой → изменить. адаптируется быстрее TfT. эволюционно сильная.
4
Grim Trigger
кооперировать пока оппонент кооперирует. первое предательство → предавать навсегда. максимальное наказание → мощное сдерживание.
5
Always Defect
всегда предавать. выигрывает против наивных. проигрывает турнир.
6
Always Cooperate
всегда кооперировать. оптимально в добросовестной среде. легко эксплуатируется.
7
Random (50/50)
непредсказуем для оппонента. не использует информацию о нём.

Почему «Око за око» победило? Аксельрод выделил четыре свойства. Добрая — начинает с кооперации, не провоцирует. Наказывающая — немедленно отвечает на предательство, нельзя эксплуатировать безнаказанно. Прощающая — после наказания возвращается к сотрудничеству, не застревает в войне. Прозрачная — оппонент легко понимает логику, можно выстроить взаимную кооперацию.

Аксельрод провёл второй турнир — все участники знали результаты первого. Многие попытались превзойти «Око за око» сложными стратегиями. Tit-for-Tat победил снова.

Успех «Око за око» учит нас, что не нужно быть завистливым, не нужно быть первым кто предаёт, нужно отвечать взаимностью — и на кооперацию, и на предательство, нельзя быть слишком умным. — Роберт Аксельрод, «Эволюция кооперации», 1984
эволюция кооперации

Эволюционная версия — популяции стратегий. Стратегии размножаются пропорционально своей приспособленности. Always Defect поначалу процветает, эксплуатируя кооператоров. Но кооператоры постепенно исчезают, и Always Defect остаётся один — и начинает проигрывать самому себе. Tit-for-Tat выживает в кластерах: защищает своих.

Биолог Джон Мэйнард Смит применил теорию игр к эволюции5. Эволюционно стабильная стратегия (ESS): стратегия, которую популяция не может вытеснить мутантом. Кооперация в природе — не альтруизм. Это оптимальная стратегия при правильных условиях. Стратегии не выбираются — они отбираются естественным отбором.

Что нужно для возникновения кооперации? Аксельрод выделил три условия: (1) игра повторяется достаточно долго; (2) игроки достаточно «терпеливы» (ценят будущее); (3) игроки могут идентифицировать друг друга.

в продуктах и платформах

Маркетплейсы — повторяющиеся игры. Продавец и покупатель встречаются снова. Репутация — механизм, который делает честность рациональной долгосрочной стратегией. Рейтинги, отзывы, блокировки — всё это механизмы, превращающие одноразовую игру в повторяющуюся.

Теорема фолька: при бесконечно повторяющейся игре с терпеливыми игроками любой Парето-улучшающий исход достижим как равновесие. Можно договориться. Если есть завтра.

Теория игр объясняет не только тюремные дилеммы. Ценовые войны компаний — повторяющаяся дилемма заключённого. Ядерное сдерживание — игра с асимметричными выплатами. Эволюция альтруизма — почему организмы помогают друг другу.

В мире без центральной власти, без договоров, без принуждения кооперация может возникнуть сама. Если игра повторяется достаточно долго и игроки достаточно терпеливы — сотрудничество становится рациональным.

Самый важный вывод теории игр: предательство оптимально один раз. Кооперация оптимальна всегда — если есть завтра. И математика это доказывает.