Байес за столом. Как читают оппонента.
когда комментатор на стриме говорит «он его читает», а потом профи коллирует с слабой парой и оказывается прав — это выглядит как магия.
| тема | вероятность · байес · теория информации |
| читать | ~12 минут |
| связано | покер · как обновлять убеждения · ошибка базовой частоты · игры тренируют машины |
Как будто игрок заглянул сопернику в душу, поймал микродвижение брови, считал ложь. Кино приучило нас именно к такому образу: гениальный игрок видит людей насквозь.
Реальность скучнее и красивее одновременно. Никакого чтения души нет. Есть теорема Байеса, применяемая в голове в реальном времени. «Чтение оппонента» — это поэтическое название для арифметики обновления вероятностей. И я хочу разобрать, как именно она работает, потому что это, возможно, самый чистый пример байесовского мышления, который существует в практической жизни.
Вернёмся к понятию диапазона из первого эссе серии. Профи думает не «какая у него рука», а «какое распределение вероятностей по всем возможным рукам». Чтение оппонента — это процесс постепенного сужения этого распределения по мере поступления информации.
Механика ровно байесовская.1 У тебя есть начальное представление о диапазоне противника — априорное, до всяких действий. Потом противник что-то делает: ставит, пасует, повышает, думает три секунды или думает тридцать. Каждое такое действие — новая улика. Ты обновляешь своё представление с учётом улики и получаешь уточнённое, апостериорное распределение. Потом приходит следующее действие — и ты обновляешься снова, уже от нового стартового состояния.
Это в точности структура теоремы Байеса:
Читается так: вероятность того, что у него такая-то рука, при условии что он совершил такое-то действие, равна — вероятности такого действия при такой руке, умноженной на исходную вероятность этой руки, делённой на общую вероятность такого действия. Каждый элемент тут имеет покерный смысл, сейчас пройдусь по ним.
P(рука) — априорная вероятность, стартовый диапазон. Откуда профи берёт его ещё до единого действия на столе? Из двух источников. Первый — позиция за столом. Игрок, заходящий в раздачу с ранней позиции, статистически имеет более сильный диапазон, чем игрок с поздней — это математика, встроенная в структуру игры. Второй — тип игрока. Если за сто рук ты видел, что человек играет туго и осторожно, его априорный диапазон узкий и сильный. Если он лезет в каждую раздачу — широкий и мусорный.
Это начальное распределение и есть prior. Хороший игрок входит в каждую руку уже с откалиброванным prior на каждого за столом. Любитель входит без него — для него все игроки одинаковы, и это первая большая утечка.
Дальше начинается то, ради чего всё. Каждая новая карта на столе и каждое действие противника запускают новую итерацию обновления. Диапазон сужается как воронка.
Допустим, противник повысил до флопа. Это первое сужение — пасовые руки отвалились, остался диапазон повышения. Выходит флоп из трёх карт, противник ставит. Второе сужение — из диапазона повышения остаются те руки, с которыми он стал бы ставить именно на этой доске. Приходит четвёртая карта, он ставит снова и крупно. Третье сужение. К последней карте от широкого облака возможных рук остаётся узкий пучок, и часто этого достаточно, чтобы принять уверенное решение.
Каждая улица — отдельный байесовский шаг, где апостериорное распределение прошлого шага становится априорным для следующего. Именно поэтому профи так важна вся история раздачи, а не только текущий момент: он не читает последнее действие изолированно, он несёт через всю раздачу постепенно уточняемое распределение. Любитель часто «забывает» предыдущие улицы и реагирует только на последнюю ставку — это значит выкинуть всю накопленную информацию и обнулить воронку.
Самый тонкий элемент формулы — P(действие | рука). Насколько вероятно, что игрок совершит именно это действие, если у него именно эта рука. На сухом языке статистики — правдоподобие.2 Тут и живут все знаменитые «теллы», только в строгом смысле.
Размер ставки — сигнал. Очень крупная ставка на последней карте часто означает поляризованный диапазон: либо очень сильная рука, либо чистый блеф, и почти ничего посередине. Маленькая ставка чаще означает желание дёшево дойти до вскрытия с рукой средней силы. Зная, какие ставки человек делает с какими руками, ты оцениваешь правдоподобие — и обновляешь диапазон.
Тайминг — тоже сигнал. У многих игроков есть устойчивая связь между скоростью решения и силой руки: кто-то мгновенно ставит с блефом и долго думает с сильной рукой, у кого-то наоборот. На большой дистанции эти паттерны проявляются и становятся читаемыми.
Чтобы прочитать отклонение, нужно знать норму. Сама по себе крупная ставка не значит ничего — значит только крупная ставка от человека, который обычно ставит мелко. Сигнал — это всегда отклонение от собственного типичного поведения игрока.
Поэтому профи первые десятки рук против нового оппонента в основном собирает базовую линию, почти не пытаясь эксплуатировать. Без baseline нет likelihood, без likelihood нет обновления, без обновления нет чтения.
Тут покер натыкается на классическую ошибку, которой у меня посвящено отдельное эссе3 — пренебрежение базовой частотой. Новичок видит на доске возможность флеша и пугается: «а вдруг у него флеш?». И переоценивает эту вероятность, потому что флеш яркий и страшный. Но он забывает посчитать, сколько вообще рук с флешем есть в диапазоне противника на этой линии. Если префлоп-действия делают флеш почти невозможным — то «а вдруг флеш» имеет априорную вероятность три процента, и бояться его иррационально.
Это ровно prosecutor's fallacy из судебной статистики: фокусироваться на вероятности улики при гипотезе и забывать, насколько редка сама гипотеза. Профи держит в голове базовые частоты всех типов рук в диапазоне и не даёт одной страшной возможности перевесить арифметику.
До сих пор я говорил про то, как извлекать информацию из противника. Но покер симметричен: пока ты читаешь его, он читает тебя. И тут вступает вторая, более глубокая математика — теория информации Клода Шеннона.
Шеннон в Bell Labs в 1948-м придумал, как измерять информацию, и ввёл понятие энтропии — меры неопределённости сигнала.4 Чем предсказуемее сигнал, тем меньше в нём информации; чем более он случаен, тем выше энтропия. Это та же фигура, что уже всплывала в моих эссе про игры — и это не совпадение, потому что покер буквально и есть прикладная теория информации.
Смотри, как это работает. Если ты ставишь крупно только с сильными руками, то твоя крупная ставка несёт максимум информации противнику — он мгновенно обновляет свой диапазон на тебя и точно знает, что у тебя. Твой сигнал прозрачен, его энтропия низкая. Ты сам отдаёшь биты бесплатно.
А вот балансировка диапазона — то, чем профи занимается постоянно — это намеренное повышение энтропии собственного сигнала. Когда ты ставишь крупно и с сильными руками, и с блефами в правильной пропорции, твоя ставка перестаёт нести информацию: противник не может по ней обновить свой prior, потому что она одинаково вероятна и при сильной руке, и при блефе. Ты максимизировал энтропию своего действия — сделал себя нечитаемым.
Вот что такое блеф на самом глубоком уровне. Не «обман» в бытовом смысле. Это инъекция шума в собственный сигнал, чтобы противник не мог провести своё байесовское обновление. Фон неймановская оптимальная частота блефа из первого эссе серии — это, с точки зрения Шеннона, ровно та частота, при которой твой сигнал достигает максимальной энтропии и перестаёт быть информативным.
Сложим обе половины. За столом одновременно идут два процесса: ты пытаешься извлечь информацию из действий противника — байесовски сужаешь его диапазон с каждой уликой. И ты пытаешься скрыть собственную информацию — балансируешь свои действия так, чтобы они несли минимум информации о твоей руке.
Это буквально информационная война в строгом шенноновском смысле. Один игрок — это зашумлённый канал связи, по которому против его воли утекает информация о его картах. Мастерство — в том, чтобы быть каналом с высокой пропускной способностью на приём (хорошо читать чужие сигналы) и каналом с низкой пропускной способностью на передачу. Извлекай биты, не отдавай биты.
И тут видна вся глубина того, почему покер так сложен. Шахматы — игра с полной информацией, там скрывать нечего. Покер — игра, построенная вокруг информационной асимметрии. Вся игра целиком про то, кто лучше управляет потоком информации в обе стороны. Карты — просто способ задать начальную асимметрию.
Эта двойная структура — извлекай, скрывай — есть в любой ситуации с неполной информацией и противником.
В переговорах. Ты читаешь сигналы другой стороны: что выдаёт их нетерпение, на что они слишком быстро согласились, где запнулись. И одновременно контролируешь собственные сигналы — не выдаёшь, насколько сделка тебе нужна, держишь покерфейс на цене.
В инвестициях. Рынок — поток сигналов, и ты байесовски обновляешь свои представления по каждой новости. А крупные игроки одновременно скрывают свои намерения — дробят большие заявки на мелкие, чтобы не выдать движение. Это та же балансировка диапазона.
В продукте и конкуренции. Что твои метрики говорят тебе о пользователях — это извлечение. Что ты раскрываешь конкурентам своими публичными запусками — это передача, которую стоит контролировать.
«Чтение людей» в покере — не интуиция и не мистика. Это арифметика неопределённости: начни с обоснованного prior, обновляй его честно по каждой улике, не забывай базовые частоты, и помни, что одновременно ты сам — источник сигнала, который надо зашумлять.
Та же теорема Байеса, по которой мы обновляем гипотезы в A/B тестах и медицинской диагностике, и та же теория информации Шеннона, по которой работает весь интернет — встречаются за покерным столом в живом времени, в голове игрока, у которого тридцать секунд на решение. Это не метафора. Это буквально те же формулы, просто исполняемые мозгом под давлением.
Шеннон, кажется, и не думал про покер, когда измерял информацию в телефонных проводах. Но он описал самую суть игры точнее, чем любой её теоретик: покер — это управление потоком информации между двумя зашумлёнными каналами, которые очень не хотят, чтобы их прочитали.
«информация — это разрешённая неопределённость.»
— переложение идеи Шеннона: каждый бит сужает пространство возможного вдвое
- Покер. Как профи считают в голове.
- Критерий Келли. Сколько ставить.
- Байес за столом. Как читают оппонента.
- Эксплойт против равновесия.
- До солверов. Что мы потеряли.
- — глоссарий терминов и математики