математика предательства.
два человека. два выбора. сотрудничать или предать. если оба предадут — оба проиграют. если оба будут сотрудничать — оба выиграют. но каждый в отдельности выиграет больше, если предаст.
| тема | теория игр · Нэш · Аксельрод · кооперация · эволюция |
| читать | ~9 минут |
| связано | равновесие Нэша · минимакс · дилемма заключённого · аукционы · EV |
Джон фон Нейман в 1928 году доказал теорему о минимаксе1. Для любой игры с нулевой суммой между двумя игроками существует оптимальная смешанная стратегия. Это было началом теории игр.
Джон Нэш в 1950 году обобщил это2. Он доказал, что равновесие существует в любой конечной игре — не только с нулевой суммой. Равновесие Нэша: профиль стратегий, где никому не выгодно отклоняться в одностороннем порядке. Нобелевская премия 1994.
| G | игра | формальная модель стратегического взаимодействия: игроки · стратегии · выплаты |
| S | стратегия | полный план действий для всех ситуаций. чистая или смешанная (вероятностная) |
| u(s) | функция выплат | числовая оценка исхода. игроки максимизируют свои выплаты |
| NE | равновесие Нэша | никому не выгодно отклоняться в одностороннем порядке. существует в любой конечной игре |
| DS | доминирующая стратегия | лучшая независимо от хода оппонента. если есть — рациональный игрок выберет её |
| PO | оптимум по Парето | нельзя улучшить одному не ухудшив другому. NE ≠ PO — в этом суть социальных дилемм |
| R | повторяющаяся игра | открывает возможность репутации и кооперации. теорема фолька |
| ESS | эволюционно стабильная стратегия | популяция не может быть вытеснена мутантом. Мэйнард Смит · 1973 |
Дилемма заключённого — самая известная задача теории игр3. Два подозреваемых. Каждый может молчать или донести. Если оба молчат — оба получают по 1 году. Если один доносит, а другой молчит — доносчик выходит на свободу, молчун получает 10 лет. Если оба доносят — оба получают по 5 лет.
| оппонент молчит | оппонент доносит | |
|---|---|---|
| ты молчишь | −1 / −1 | −10 / 0 |
| ты доносишь | 0 / −10 | −5 / −5 |
Парето-оптимум = оба молчат (−1/−1) · зелёный фон
условие T > R > P > S: T = 0 · R = −1 · P = −5 · S = −10
Каждый думает: «если он молчит — мне выгоднее донести (0 > −1). Если он доносит — мне всё равно выгоднее донести (−5 > −10)». Доминирующая стратегия для обоих — предательство. Оба доносят. Оба получают по 5 лет. Хотя могли бы получить по 1.
Это фундаментальный конфликт: индивидуальная рациональность ≠ коллективная оптимальность. NE ≠ PO. Атомные гонки. Рыболовство. Загрязнение. Компании, которые могли бы не тратиться на рекламу — но вынуждены тратиться, потому что конкурент тратится. Трагедия общих ресурсов.
В 1980 году политолог Роберт Аксельрод провёл эксперимент4. Он пригласил учёных прислать стратегии для повторяющейся дилеммы заключённого — 200 раундов друг против друга. Каждая стратегия сыграла против каждой (round-robin). Пришли стратегии от математиков, психологов, экономистов. Некоторые сложные — с анализом истории ходов. Некоторые простые.
Победила самая простая из всех. «Око за око» (Tit-for-Tat) от Анатолия Рапопорта — четыре строки кода. В первом раунде сотрудничать. В каждом следующем — повторить то, что сделал оппонент в прошлом.
Почему «Око за око» победило? Аксельрод выделил четыре свойства. Добрая — начинает с кооперации, не провоцирует. Наказывающая — немедленно отвечает на предательство, нельзя эксплуатировать безнаказанно. Прощающая — после наказания возвращается к сотрудничеству, не застревает в войне. Прозрачная — оппонент легко понимает логику, можно выстроить взаимную кооперацию.
Аксельрод провёл второй турнир — все участники знали результаты первого. Многие попытались превзойти «Око за око» сложными стратегиями. Tit-for-Tat победил снова.
Успех «Око за око» учит нас, что не нужно быть завистливым, не нужно быть первым кто предаёт, нужно отвечать взаимностью — и на кооперацию, и на предательство, нельзя быть слишком умным. — Роберт Аксельрод, «Эволюция кооперации», 1984
Эволюционная версия — популяции стратегий. Стратегии размножаются пропорционально своей приспособленности. Always Defect поначалу процветает, эксплуатируя кооператоров. Но кооператоры постепенно исчезают, и Always Defect остаётся один — и начинает проигрывать самому себе. Tit-for-Tat выживает в кластерах: защищает своих.
Биолог Джон Мэйнард Смит применил теорию игр к эволюции5. Эволюционно стабильная стратегия (ESS): стратегия, которую популяция не может вытеснить мутантом. Кооперация в природе — не альтруизм. Это оптимальная стратегия при правильных условиях. Стратегии не выбираются — они отбираются естественным отбором.
Что нужно для возникновения кооперации? Аксельрод выделил три условия: (1) игра повторяется достаточно долго; (2) игроки достаточно «терпеливы» (ценят будущее); (3) игроки могут идентифицировать друг друга.
Маркетплейсы — повторяющиеся игры. Продавец и покупатель встречаются снова. Репутация — механизм, который делает честность рациональной долгосрочной стратегией. Рейтинги, отзывы, блокировки — всё это механизмы, превращающие одноразовую игру в повторяющуюся.
Теорема фолька: при бесконечно повторяющейся игре с терпеливыми игроками любой Парето-улучшающий исход достижим как равновесие. Можно договориться. Если есть завтра.
Теория игр объясняет не только тюремные дилеммы. Ценовые войны компаний — повторяющаяся дилемма заключённого. Ядерное сдерживание — игра с асимметричными выплатами. Эволюция альтруизма — почему организмы помогают друг другу.
В мире без центральной власти, без договоров, без принуждения кооперация может возникнуть сама. Если игра повторяется достаточно долго и игроки достаточно терпеливы — сотрудничество становится рациональным.
Самый важный вывод теории игр: предательство оптимально один раз. Кооперация оптимальна всегда — если есть завтра. И математика это доказывает.