эссе · игры · теория игр · математика мышления · ~14 минут · 2026.05

Покер. Как профи считают в голове.

я смотрю стримы high-stakes покера время от времени. И каждый раз ловлю одно и то же ощущение: я не понимаю что происходит.

тема	теория игр · вероятность · принятие решений
читать	~14 минут
связано	EV · теория игр · игры построившие математику · хорошие решения

Парень с парой королей долго думает и фолдит. Парень коллирует с двойкой и тройкой разной масти. Парень ставит ровно $4380, а не $4500 или $4000. Аналитики в чате пишут «solid line», «pure shove», «good check», «mixed strategy». Кажется что говорят на другом языке.

Я знал что покер про вероятности. Но представлял это так: профи быстро прикидывают шансы своей руки, и более или менее всё. Оказалось — нет. То что профи делают за столом в реальном времени — это полноценная задача из теории игр, решаемая в голове за 30 секунд. Уровень математической работы, которого нет ни в одном другом «спорте».

Я полез разбираться. Сейчас расскажу что выяснил. Если ты, как я, смотришь стримы и не понимаешь странных решений — после этого эссе будешь понимать.

не рука, а облако

Главный сдвиг, который любители не понимают. Когда любитель видит на флопе своего короля, он думает: «у противника туз или нет?». Это бинарная мысль. У него или туз, или не туз.

Профи думает иначе: «исходя из его действий до этого момента, у него с вероятностью 12% сильная пара, 23% средняя пара, 18% карты на дро, 15% мусор для блефа, 32% слабая рука которую он может бросить». Это распределение вероятностей по всем возможным комбинациям карт, которые могли остаться в его руке. Покеристы называют это диапазоном.1

Решение принимается не против конкретной руки, а против всего этого облака. Когда профи решает что делать, он не отвечает на вопрос «что у него?». Он отвечает на вопрос «что выгодно среднестатистически против всего набора рук с которыми он может тут оказаться?».

Это та же самая математика что в A/B тестах. Каждое решение оценивается не по одному исходу, а по матожиданию против всего распределения. Только нужно посчитать за полминуты, без бумаги, в шумном казино или с таймером в онлайне.

базовая школа

Прежде чем доберёмся до серьёзного, объясню три понятия которые любой профи держит в голове на автомате. Они простые — но без них дальше никуда.

Шансы банка. В банке 100 долларов. Противник поставил 50, теперь там 150, и тебе нужно доплатить 50 чтобы продолжить. То есть ты вкладываешь 50, чтобы выиграть 200. Соотношение 1 к 4. Чтобы такой колл окупался, твоя рука должна побеждать минимум в одной партии из пяти. 20% — это твой порог. Если шанс выиграть больше 20% — коллируй, меньше — фолди.

Эту арифметику профи делает за секунду. Любитель часто не делает вообще. Это первая граница между ними.

Шансы руки против диапазона. Сколько процентов раз твоя рука выиграет до конца раздачи против оценённого облака противника. Эту цифру считают через комбинаторику — перебор всех возможных оставшихся карт и подсчёт долей. До эпохи компьютеров это считалось приблизительно, по таблицам. Сейчас профи запоминают сотни типовых ситуаций наизусть: «туз-король против диапазона трибета с большого блайнда на флопе из трёх карт без туза — 38%». Это просто факт, который сидит в голове как таблица умножения.

Матожидание решения. То самое матожидание, которое Паскаль придумал в письмах Ферма в 1654 году.2 Каждое решение в раздаче — это сравнение матожиданий разных линий действий. Если коллирую — ожидаемая прибыль +3.2 доллара. Если рейзую — +5.1. Если фолжу — 0. Выбираю максимум.

И вот тут начинается главная мысль. Покер — это последовательность решений с матожиданием, а не игра в карты. Карты — это просто способ расставить вероятности по уравнению. Сама работа — это арифметика над распределениями.

Из этого следует жёсткое правило, которое в покерной культуре называется resulting3 — нельзя оценивать решение по его исходу. Можно сделать математически идеальный колл и проиграть. Можно сделать идиотский фолд и оказаться правым. Качество решения определяется тем, было ли матожидание положительным в момент когда решение принималось. Результат — это просто одна реализация случайной величины.

Этому посвящено целое поведенческое направление в аналитике. Энни Дьюк, профессиональная покеристка и психолог, написала про это книгу «Thinking in Bets» — её в Стэнфорде и Гарварде дают читать студентам MBA. Главная идея ровно эта: профи отличается от любителя не тем что лучше угадывает, а тем что не путает решение с исходом.

частота блефа

Дальше становится интереснее. Базовая школа выше — это арифметика. А вот частоты блефа — это уже настоящая теория игр.

Вопрос: как часто нужно блефовать? Любитель думает интуитивно: «иногда». Профи знает точный ответ, и этот ответ выводится математически.

Джон фон Нейман в 1928 году в статье «К теории общественных игр» разобрал упрощённую модель покера на двух игроков с одной картой каждый.4 И доказал замечательную вещь: оптимальная частота блефа должна равняться шансам банка, которые ты предлагаешь противнику.

Если ты поставил 100 долларов в банк 100, противник видит банк 200 и доплату 100. Соотношение 1 к 2, шансы 33%. Если ты блефуешь чаще 33% — он математически обязан коллировать всё подряд и тебя ловит. Если реже 33% — ему выгодно фолдить всё подряд, и ты теряешь возможность выжать стоимость из сильных рук.

Точка равновесия — ровно 33%. Не «примерно треть». Точно треть. При этой частоте противнику безразлично что делать — и это значит, что он не может тебя эксплуатировать, как бы хорошо ни читал твою игру.

То же самое в обратную сторону. Когда тебе ставят — есть минимальная частота защиты.5 Сколько процентов своего диапазона нужно коллировать или рейзить, чтобы противник не мог блефовать с прибылью. Если он ставит полбанка — нужно защищать 67% диапазона. Если меньше — он начинает блефовать любой мусорной рукой, и каждый такой блеф ему приносит деньги. Это математически принудительная защита.

Когда ты смотришь стрим и комментатор говорит «он защищает диапазон правильно» — он буквально говорит «он математически выводит частоту, которую нужно держать чтобы не давать оппоненту бесплатно блефовать».

смешанные стратегии

Самая контринтуитивная часть. Современный покерный профи на одной и той же ситуации с одной и той же рукой иногда коллирует, иногда рейзит, иногда фолдит — и это правильно.

Это называется смешанная стратегия. Она напрямую следует из теоремы Нэша о существовании равновесия в играх с двумя игроками.6 В очень многих покерных ситуациях не существует одного «лучшего» действия — есть набор действий, каждое из которых нужно делать с определённой частотой.

Решатель7 — программа, о которой ниже — может выдать такой совет: «с парой шестёрок на этой доске пуши 73% времени, коллируй 27%». Не «выбери что-то одно». А именно вот в такой пропорции.

Почему? Потому что если ты всегда будешь пушить — противник заметит и подстроится. Если всегда коллировать — тоже подстроится. Единственный способ остаться непредсказуемым и не дать тебя эксплуатировать — рандомизировать действия в правильной пропорции.

Как профи это реально делают? Используют что-то случайное и неочевидное в качестве источника рандома. Самые популярные способы: смотрят на стрелку секундной стрелки часов (если в верхней половине — действие А, в нижней — действие Б), используют последнюю цифру стека противника, или цвет масти конкретной карты в руке. Идея в том чтобы решение зависело от случайной величины, которую противник никак не может прочитать.

Это уже не «игра». Это буквально реализация равновесия Нэша в живом времени. Когда ты видишь как игрок смотрит на свои карты дольше обычного — он не «думает что у противника». Он считывает рандом и реализует смешанную стратегию.

революция 2015 года

До 2015 года всё это знание было полу-фольклорным. Лучшие профи понимали что есть «оптимальная игра», подходили к ней интуицией, накопленным опытом, экспериментами. Книги тех лет читаются сейчас как алхимия — куча правильных интуиций без точных формул.

В 2015 году вышла программа PioSolver.8 Она решает покерные ситуации до математически точного равновесия Нэша через алгоритм минимизации сожалений9 — тот самый, который позже использовался в системах Libratus и Pluribus, обыгравших профессионалов в 2017–2019.

Идея алгоритма: программа играет миллиарды раз сама с собой, и после каждой партии задаёт себе вопрос «что было бы, если бы я в этой точке поступил иначе?». Сожаление о неоптимальном решении становится сигналом обучения. Через много итераций стратегия сходится к равновесию.

PioSolver выдаёт точные численные ответы на вопросы «что делать здесь?». Не правила вида «обычно нужно рейзить» — а конкретные цифры: «бет 33% банка с частотой 64%, чек 36%, в случае бета вот этим набором рук, в случае чека — этим». До последнего знака. И мир покера разделился на до и после.

До: профи использовали эвристики. Опыт. Чтение оппонента. Чувство. После: профи знают точное оптимальное решение для большинства типовых ситуаций. Они не «играют». Они воспроизводят выученный солвером ответ.

Сейчас весь high-stakes покер — это битва между людьми, которые часами в день изучают результаты солверов. Стандартный рабочий день профессионального игрока: 4 часа за столом, 4 часа изучения солвера, 1 час разбора своих рук в групповом чате с другими профи. Это уже не спорт в обычном смысле. Это профессиональное обучение, как у пианиста или хирурга.

Стоимость инструментов: PioSolver Pro — 475 долларов разовый платёж, версия Edge с пре-флоп решателем — 1099 долларов. GTO Wizard — облачный сервис с миллионами пре-решённых ситуаций, подписка от 35 долларов в месяц. MonkerSolver — для покера Омаха, около 800 долларов. Это профессиональный софт уровня терминала Блумберга у трейдеров. И структурно — то же самое.

что солвер делает на самом деле

Объясню коротко что происходит внутри. Солвер берёт ситуацию: размеры стеков, ставки, доска, оцениваемые диапазоны обеих рук на этот момент. Это исходные данные. Дальше он строит дерево всех возможных действий. На каждом ходу — все варианты: чек, бет такой-то суммы, бет такой-то, рейз, фолд. Деревья получаются гигантские — миллионы листьев.

Потом солвер запускает игру против себя. И итеративно подстраивает стратегию: на каждом узле смотрит, какое действие приносило больше всего сожаления, и сдвигает частоту этого действия вверх. Сделав это много миллионов раз для каждой ветки — он сходится к стратегии, против которой никакое отклонение не приносит выгоды. Это и есть равновесие Нэша.

Это, в общем-то, тот же подход который использовался в AlphaGo и AlphaZero, только в более простой среде с понятной математикой. Покер с двумя игроками — формально решаемая задача в смысле существования равновесия. Го — нет. Это и делает покер удобным полигоном: тут можно реально вычислить оптимум, а не приближать его как в Го.

что профи делает за столом

Когда профи в реальной партии получает руку — он не запускает солвер в голове. Он распознаёт паттерн. Часы за солвером превращаются в библиотеку запомненных ситуаций. «Эта позиция похожа на ту что я разбирал во вторник — там нужно было бетить 33% с частотой две трети». Дальше остаётся подкрутить ответ под конкретные обстоятельства и сделать решение.

Это близко к тому как работает гроссмейстер в шахматах. Магнус Карлсен не считает миллион вариантов за ход. Он распознаёт что текущая позиция структурно похожа на сотни тысяч позиций, которые он видел в подготовке. Разница между профи и любителем за одним столом — это не разница в IQ. Это разница в накопленной библиотеке решённых ситуаций и в скорости их извлечения.

побочный продукт: новое поколение мышления

И тут самое интересное. В покер с 2003 года (после победы Криса Манимейкера на Мировой серии) пришло целое поколение молодых людей. Тысячи человек по всему миру с 18 лет тренировались думать через диапазоны, матожидание, частоты, рандомизацию.

К 2015 году многие из них устали от покера или столкнулись с тем что игра стала менее прибыльной. И они начали уходить. Куда? В трейдинг, в венчур, в data science, в продуктовую аналитику. Их способ мышления — буквально один в один тот, что нужен в этих профессиях.

Билл Перкинс — бывший high-stakes покерист, теперь хедж-фонд-менеджер. Джефф Ясс — основатель Susquehanna International Group, миллиардер; пришёл из покера и до сих пор считает покер главной школой принятия решений. Даг Полк, Фил Гэлфонд — известные игроки которые параллельно строят финансовые и образовательные продукты.

Покер оказался лучшей школой вероятностного мышления для рынка. Не потому что игра — а потому что инфраструктура подготовки заставляет тебя за пять лет полностью переписать интуицию. Ты перестаёшь видеть мир в категориях «правильно/неправильно» и начинаешь видеть его в категориях «положительное матожидание/отрицательное на дистанции». Это самая ценная штука которую можно вынести из любой игры. Не навык. Способ думать.

зачем это аналитику

В аналитике мы говорим про A/B тесты, p-value, доверительные интервалы, матожидание, размеры эффекта. Это всё абстрактные концепции, которые большинство людей знает теоретически, но не чувствует.

Покерный профи чувствует матожидание. Он чувствует разницу между плюсовым решением с плохим исходом и минусовым решением с хорошим исходом, потому что на дистанции его счёт в банке зависит от того распознаёт ли он эту разницу. Любитель не чувствует — потому что играет мало, дисперсия его наказать не успевает.

Игры — это лаборатория для калибровки интуиции. В обычной жизни обратная связь медленная и шумная: ты принял решение в карьере, через пять лет узнал чем оно кончилось, и даже тогда не можешь отделить решение от удачи. В покере обратная связь приходит за минуты, и за тысячу раздач твоя интуиция учится отделять качество решений от качества исходов.

Это та же мысль, что я разбирал в эссе про игры построившие математику — игра упрощает мир. Только теперь она упрощает не мир внешний, а мир внутренний — твою интуицию о вероятностях. Игра становится тренажёром не для математики, а для головы аналитика.

Когда я в следующий раз буду смотреть стрим и увижу как профи делает странный фолд с парой королей — я буду понимать что он делает. Он не угадывает что у противника. Он считает матожидание против диапазона. Он применяет частоту защиты. Он реализует смешанную стратегию из выученного солвера. Это не магия и не интуиция. Это математика, отполированная тысячами часов до автоматизма.

[1]Диапазон, range · базовое понятие современной покерной теории · обычно представляется в виде матрицы 13×13 где каждая клетка — сочетание двух карт по достоинству · доли в клетках — вероятности с которыми соответствующая рука входит в диапазон.

[2]Пять писем Паскаля и Ферма · 1654 · задача о разделе ставок при прерванной партии · подробнее в эссе «Пять писем 1654 года».

[3]Resulting · ошибка оценивать качество решения по качеству исхода · Энни Дьюк · «Thinking in Bets» · Portfolio/Penguin · 2018 · подробнее в эссе «Хорошие решения с плохими исходами».

[4]John von Neumann · «Zur Theorie der Gesellschaftsspiele» · Mathematische Annalen · 1928 · упрощённая модель покера с непрерывными значениями карт · впервые формально выведена оптимальная частота блефа.

[5]Минимальная частота защиты, MDF · от Minimum Defense Frequency · доля диапазона которую нужно продолжать против ставки противника чтобы блеф любой картой не был для него прибыльным.

[6]John Nash · «Equilibrium Points in N-Person Games» · Proceedings of the National Academy of Sciences · 1950 · доказано существование равновесия в смешанных стратегиях для любой конечной игры · Нобелевская премия по экономике 1994.

[7]Solver, решатель · программа вычисляющая равновесие Нэша для конкретной покерной ситуации.

[8]PioSolver · разработчик Piotr Lopusiewicz · выпущен в 2015 · до сих пор стандарт high-stakes аналитики.

[9]Counterfactual Regret Minimization, CFR · Martin Zinkevich, Michael Bowling et al · «Regret Minimization in Games with Incomplete Information» · NIPS · 2007 · через него позже построены Libratus (2017) и Pluribus (2019).

«покер — это не игра в карты с использованием людей. это игра в людей с использованием карт.»
— Дойл Брансон

серия · покер как способ думать

—— итог обеих серий: решения на дистанции →