null
эссе · игры · теория игр · стратегия · ~13 минут · 2026.05

Эксплойт против равновесия. Когда математику надо нарушать.

вот парадокс, с которого я хочу начать. Лучшие игроки в покер не играют оптимально.

тематеория игр · стратегия · равновесие нэша
читать~13 минут
связанопокер · критерий келли · математика предательства · теория игр

Они знают оптимальную стратегию — выучили её по солверам, как я разбирал в первом эссе серии. Но за столом сознательно от неё отклоняются. И именно за счёт этих отклонений зарабатывают больше всего.

Это звучит как противоречие. Зачем учить идеальную стратегию, чтобы потом её нарушать? Разве оптимальное — не значит наилучшее по определению?

Оказывается, нет. И в этом «нет» спрятана одна из самых глубоких идей теории игр — настолько общая, что она работает далеко за пределами покера: в бизнесе, в переговорах, в конкуренции, в войне. Идея о том, что существует разница между не проиграть и выиграть максимально, и что это часто противоположные цели.

два способа играть

Есть два принципиально разных подхода к игре против соперника.

Первый — игра по равновесию. То самое равновесие Нэша, которое вычисляют солверы. Ты играешь идеально сбалансированно: блефуешь с правильной частотой, защищаешься с правильной частотой, рандомизируешь решения. Смысл такой игры — стать неуязвимым. Что бы противник ни делал, он не может тебя обыграть. В покерном жаргоне это называется GTO — game theory optimal.1

Второй — эксплуатирующая игра. Ты наблюдаешь за конкретным противником, находишь его ошибки и подстраиваешься, чтобы максимально их наказать. Видишь, что он слишком часто пасует под давлением — начинаешь блефовать чаще обычного. Видишь, что коллирует всё подряд — перестаёшь блефовать вообще и просто долбишь его сильными руками. Это называется эксплойт.2

Ключевое различие в одной фразе: равновесие стремится не быть эксплуатируемым, эксплойт стремится максимизировать прибыль. Это не одно и то же. И понимание, почему это не одно и то же — суть всего эссе.

что такое равновесие на самом деле

Тут есть тонкость. Равновесие не максимизирует твой выигрыш. Равновесие минимизирует твой максимальный проигрыш. Это защитная стратегия — то, что в теории игр называется минимакс.3 Играя по равновесию, ты гарантируешь себе как минимум безубыток против любого, даже самого сильного противника. Лучший игрок мира, сев против идеального равновесия, в лучшем случае сыграет в ноль.

Но у этой брони есть цена, которую новички не замечают. Против слабого игрока равновесие тоже играет в свою защитную силу — то есть осознанно оставляет деньги на столе. Когда любитель совершает грубую ошибку, идеально сбалансированная стратегия не наказывает её по максимуму. Безопасно — но не максимально прибыльно.

Представь, что ты фехтуешь в идеальной глухой защите. Тебя невозможно ранить. Но и ты почти никого не ранишь — потому что вся стойка заточена под оборону. Против мастера это спасает жизнь. Против неумелого противника — ты выигрываешь медленно и скучно, хотя мог бы разнести его в три удара, открывшись.

красивая деталь: пассивная эксплуатация

Здесь прячется один изящный факт. Если ты играешь равновесие, а противник играет плохо — ты уже забираешь его деньги, ничего специально не делая. Любое отклонение слабого игрока от оптимума в худшую сторону автоматически перетекает в твою прибыль. Тебе не нужно его «эксплуатировать» в активном смысле — равновесная стратегия доит его сама, как побочный эффект.4

В теории это называется пассивной эксплуатацией. Математически: если один игрок играет равновесие, то любая ошибка второго может только переложить стоимость в карман первого. То есть равновесие — это не «нейтральная» стратегия. Против плохой игры она автоматически выигрывает. Просто не по максимуму.

А максимум достаётся через активную эксплуатацию: когда ты сам отклоняешься от равновесия, чтобы выжать из конкретной ошибки противника всё до копейки. И вот тут начинается самое интересное — потому что у активной эксплуатации есть цена.

цена меча

Как только ты отклонился от равновесия, ты перестал быть неуязвимым. Твоя броня была именно в балансе — а ты его нарушил, чтобы ударить. Теперь у тебя самого появилась брешь.

Пример. Ты заметил, что противник никогда не блефует — ставит только с сильными руками. Логичный эксплойт: пасуй каждый раз, когда он ставит крупно. Ты экономишь кучу денег. Но представь, что он либо изменил игру, либо ты неправильно его прочитал — и он начал блефовать. Теперь твоя стратегия «всегда пасую под крупную ставку» катастрофична: тебя блефуют каждую раздачу, и ты беспомощен.

Эксплойт работает, только если твоя оценка противника верна. Равновесие не требует никаких предположений о сопернике — оно работает против кого угодно.

Ошибся в оценке — и отклонение, которое должно было принести прибыль, оборачивается убытком. Причём, как правило, бóльшим, чем выигрыш, на который ты рассчитывал, потому что максимально эксплуатирующая стратегия — это всегда крайность, а крайности наказываются жёстко.5 Меч бьёт сильнее щита. Но щит защищает всегда, а меч — только если ты правильно увидел, куда бить.

война уровней

Из этой асимметрии вырастает то, что покеристы называют войной уровней, а теоретики игр — иерархией рассуждений.6

Уровень 0: я думаю о своих картах. Уровень 1: я думаю о том, какие карты у противника. Уровень 2: я думаю о том, что противник думает о моих картах. Уровень 3: я думаю о том, что противник думает о том, что я думаю о его картах. И так далее, вглубь, насколько хватит мозга обоих.

Эксплойт — это всегда игра на уровень выше противника. Если он играет на уровне 1, я выигрываю, играя на уровне 2. Но если он на самом деле на уровне 3, а я думал, что он на уровне 1 — я переиграл сам себя и проиграл.

Тут есть ловушка переусложнения. Против совсем простого игрока, который не думает вообще, бессмысленно играть на пятом уровне — нужно вернуться на первый и просто наказывать его очевидные ошибки прямо в лоб. Это называется «переуровневаться», и это проигрышно. Лучший игрок — не тот, кто думает на максимально глубоком уровне. А тот, кто правильно оценивает уровень противника и встаёт ровно на одну ступень выше. Не больше.

когда что применять

Против слабого, читаемого противника, чьи ошибки ты видишь ясно — отклоняйся и эксплуатируй. Деньги на столе того стоят, а риск контр-эксплуатации мал. Именно поэтому на низких лимитах, где сидят любители, чистый эксплойт прибыльнее идеального равновесия.

Против сильного, адаптирующегося противника, которого ты не можешь надёжно прочитать — возвращайся к равновесию. Здесь броня важнее меча. Именно поэтому на хайстейкс, где сидят профи, доминирует игра по равновесию. Все читают всех, данные публичны, отклонение нужно обосновывать железным ридом, а не догадкой.

Стандартный подход профи: равновесие как база, эксплойт как контролируемое отклонение от неё. Знание равновесия нужно даже для того, чтобы грамотно эксплуатировать: чтобы понять, что противник ошибается, надо знать, как выглядит правильная игра.

мост за пределы покера

Размен «равновесие против эксплойта» — это структура любой конкурентной ситуации.

В бизнесе. Следовать отраслевым best practices — это игра по равновесию. Безопасно, проверено. Но ты и не обгонишь конкурентов. Чтобы вырваться вперёд, нужно отклониться: сделать ставку, которую не делает никто. Стартапы — это машина активной эксплуатации: поиск ошибки, которую совершает весь рынок, и ставка против неё.

В переговорах. Можно вести себя сбалансированно и предсказуемо-честно — это равновесие. А можно читать конкретного человека напротив и давить на его слабости. Второе прибыльнее, но требует точной оценки.

В спорте. Универсальная подготовка «играй в свою игру» против разбора конкретного соперника и подстройки под его слабости.

И тут красивая связь с тем, что у меня уже разобрано в эссе про дилемму заключённого.7 Турнир Аксельрода показал, что в повторяющихся играх побеждает стратегия «отвечай тем же» — кооперируйся по умолчанию, наказывай за предательство. Это, по сути, тоже гибрид: дружелюбное равновесие как база плюс точечная эксплуатация-наказание в ответ на конкретное поведение.

что я из этого вынес

Равновесие — это стратегия для мира, в котором ты не знаешь, против кого играешь. Эксплойт — для мира, в котором знаешь. И мудрость в том, чтобы понимать, в каком мире ты сейчас находишься.

Когда информации о противнике нет или он сильнее тебя — играй неуязвимо, защищайся, не делай предположений. Когда ты видишь его ошибки ясно — отклоняйся и наказывай, потому что иначе оставляешь деньги на столе. Ошибка в обе стороны стоит дорого.

И самый контринтуитивный вывод: иногда оптимально перестать играть оптимально. Идеально сбалансированная игра гарантирует, что ты не проиграешь — но именно поэтому она же гарантирует, что ты не выиграешь по максимуму. В мире, полном ошибающихся людей, неуязвимость стоит слишком дорого.

Кардано искал, как не проигрывать в кости. Фон Нейман — как не проигрывать в покер, и вывел минимакс, математику гарантированной безопасности. А современный покер пошёл дальше и обнаружил: гарантированная безопасность — это не то же самое, что максимальная победа. Чтобы выигрывать по-настоящему много, надо в нужный момент опустить щит и ударить. Весь вопрос — угадать момент.

«играй в игрока, а не в карты — но сначала убедись, что правильно понял, кто перед тобой сидит.»
—— итог обеих серий: решения на дистанции →