стратегии повторяющейся игры

⊞

объект · справка · §10

каталог · от классики взаимности до скрытого слоя

тип	каталог · 20 стратегий · повторяющаяся дилемма заключённого
семейства	взаимные · каратели · наивные · прощупыватели · ZD · современные · вне правил
связано	эволюция кооперации · математика предательства · дилемма заключённого

объект · справка · каталог · ~1200 слов · 8 мин

Сразу оговорка, без которой список врёт: единого «лучшего» нет. Кто победит, зависит от среды — длины тени будущего, уровня шума, состава поля, структуры популяции. Вымогатель царит в дуэли и нищает в эволюции; око за око берёт турнир и не выигрывает ни одной схватки. Поэтому ниже — не строгий рейтинг, а каталог по семействам, от самых надёжных к самым специальным. О том, при каких условиях кто выигрывает, — в эссе «условия кооперации».

Обозначения: **память** — на сколько прошлых ходов смотрит правило.

// взаимные · ядро кооперации

око за око (tit-for-tat)

память 1 · Рапопорт, 1980

великодушное око за око (generous tit-for-tat)

память 1 · Новак–Зигмунд, 1992

око за два ока (tit-for-two-tats)

память 2 · Аксельрод, 1980

Pavlov (win-stay, lose-shift)

память 1 · Новак–Зигмунд, 1993

раскаивающееся око за око (contrite tit-for-tat)

память + «репутация» · Бойд, 1989

постепенный (gradual)

полная история · Бофис–Делаэ–Матьё, 1996

// каратели · память без прощения

спусковой крючок (grim trigger / Friedman)

полная история · Аксельрод, 1980

строгое/мягкое большинство (hard/soft majority)

полная история

// наивные · базовая линия

всегда мир (ALLC)

память 0

всегда бей (ALLD)

память 0

случайный (random)

память 0

// прощупыватели · разведка и эксплуатация

прощупыватель (prober)

память 1+

хитрое око за око (Joss)

память 1 · Аксельрод, 1980

моделирующий (Downing / outcome-maximization)

полная история · Аксельрод, 1980

// скрытый слой · zero-determinant

великодушная ZD (ZDGTFT-2)

память 1 · Стюарт–Плоткин, 2012

вымогатель (Extort-2)

память 1 · Пресс–Дайсон, 2012

// современные · выращенные

обученные RL/эволюцией · переменная память

Харпер и др., 2017

омега-око-за-око (Omega TFT)

память + счётчики

адаптивное око за око (adaptive TFT) · скользящая оценка · Дзафестас, 2000

Держит непрерывную оценку «настроения» соперника и реагирует плавно, без резких качелей кооперация/предательство.

// вне правил · взлом турнира

господин/раб (Southampton handshake) · сговор · Кендалл/Дженнингс, 2004

Десятки программ узнают своих по «рукопожатию», затем делятся на жертв и эксплуататоров. Формально свергли око за око — но обходом запрета на сговор, а не лучшей стратегией.

на полях

эссе: эволюция кооперации · условия кооперации · математика предательства

объекты: дилемма заключённого · равновесие нэша · Pavlov · zero-determinant стратегии