Решения на дистанции.

мы оцениваем решение по одному исходу. но жизнь — не одно решение, а длинная цепь, где сегодняшний выбор меняет завтрашнее меню выборов. и то, что оптимально для одного шага, на дистанции иногда убивает. это эссе — карта того, как думать о решениях, которые длятся.

тема	принятие решений · обратимость · опциональность · дистанция
читать	~14 минут
связано	эргодичность · критерий Келли · антихрупкость · покер

За покерной серией и серией про неопределённость стоит одна линия, которую я до сих пор не называл целиком. Она проходит сквозь всё: матожидание, Байес, Марков, Талеб — и упирается в вопрос, который старше любой математики: как прожить под неопределённостью, когда решений много, они связаны, а будущего ты не знаешь.

Это не пять разных тем. Это лестница — пять уровней, на каждом из которых картина решения становится реалистичнее. И есть один стержень, который держит всю лестницу и отвечает на главный практический вопрос: когда какой уровень включать. Начну с лестницы, потом дам стержень.

лестница: пять уровней реализма

Уровень первый — матожидание. Самый базовый вопрос решения: что лучше в среднем за один шаг? Взвесь исходы на вероятности, выбери максимум. EV — фундамент, и для одиночного, обратимого выбора он часто и есть весь ответ. Но он молчит о трёх вещах: откуда ты знаешь вероятности, доживёшь ли до среднего и что насчёт того, чего нет в твоей модели. Каждый следующий уровень закрывает одно из этих умолчаний.

Уровень второй — Байес. EV требует вероятностей, а они не выданы свыше — ты их оцениваешь и уточняешь по мере поступления данных. Байес — это про знание: был prior, пришла улика, стал posterior. Решение на дистанции живо, потому что ты не считаешь EV один раз и навсегда — ты пересчитываешь его на каждом шаге под новые данные. Это превращает решение из акта в процесс: не «выбрал и забыл», а «выбирай, смотри, обновляйся, выбирай снова».

Уровень третий — Марков и эргодичность. Тут впервые появляется время как игрок. Решения связаны: исход сегодня — это почва для завтра. И появляется поглощающее состояние — разорение, из которого нет хода назад. EV усредняет по тысяче параллельных тебя; ты живёшь одну траекторию, и на ней один ноль кончает игру навсегда. Поэтому на дистанции выживание перестаёт быть одной из целей и становится условием всех остальных: до среднего надо дожить. Это сдвиг от «что выгодно за шаг» к «что сохранит меня в игре».

Уровень четвёртый — Талеб. Предыдущие три работают с тем, что есть в твоей модели мира. Талеб добавляет защиту от того, чего в модели нет, — от редкого, непредсказуемого, не бывшего в данных. На дистанции достаточно длинной встречается то, чего ты не закладывал, и если твоя позиция к этому хрупка, один чёрный лебедь обнуляет все накопленные правильные шаги. Поэтому к выживанию добавляется устойчивость к невиданному: строй так, чтобы пережить даже то, что не смог предусмотреть.

Уровень пятый — фланёр. И наконец — кто всё это проживает? Первые четыре уровня про математику решения. Пятый про субъекта, идущего сквозь время. Талебовский фланёр — человек, который не строит жёсткий план на непознаваемое будущее, а движется оппортунистически, сохраняя свободу манёвра, корректируя курс по обстоятельствам, держа двери открытыми. Это антихрупкость, ставшая не стратегией портфеля, а образом жизни. Фланёр — естественный житель дистанции: он знает, что не знает будущего, и потому не привязывает себя к одной его версии.

Лестница не отменяет нижние ступени верхними. EV остаётся верным — в своих границах. Байес остаётся способом обновляться. Просто каждый уровень показывает, где предыдущий молчит, и достраивает недостающее. Вопрос лишь — какой уровень включать сейчас. И вот тут нужен стержень.

стержень: обратимо или нет

Самый практичный вопрос, который можно задать о любом решении, и который сразу говорит, по какому уровню лестницы играть: могу ли я это отыграть назад?

Джефф Безос делил решения на двери в две стороны и двери в одну сторону1. Дверь в две стороны: прошёл, не понравилось — вернулся, потерял немного. Дверь в одну сторону: прошёл — назад хода нет. Это и есть водораздел, организующий всю лестницу.

Обратимое решение — это дверь в две стороны, и для него правит первый уровень. Оптимизируй EV, действуй быстро, ошибся — откатись и попробуй иначе. Тут Байес во всей красе: каждая проба — улика, обновляйся и иди дальше. Скорость важнее точности, потому что цена ошибки мала, а итерация дешева. На обратимых решениях думать долго — это само по себе ошибка: ты платишь параличом за защиту, которая не нужна.

Необратимое решение — дверь в одну сторону, и для него правят верхние уровни. Необратимое — это и есть поглощающее состояние из марковской цепи: войдёшь — не выйдешь. Здесь EV обманчив, потому что усредняет в том числе вселенную, где ты застрял навсегда. Здесь царят Марков (выживешь ли), Талеб (а если придёт невиданное) и осторожность к хвостам. Замедлись, защити downside, заплати за опциональность, не ставь то, без чего игра кончится. На необратимых решениях скорость — враг, а паранойя — добродетель.

Большинство дорогих ошибок — это путаница типа двери.

И вот главное наблюдение: большинство дорогих ошибок — это путаница типа двери. Люди мучительно, неделями выбирают обратимое (какой инструмент взять, куда сходить, что попробовать) — паралич там, где надо было просто пробовать и откатывать. И гонят, не думая, через необратимое (большой невозвратный долг, сжигание репутации, ставка ва-банк) — потому что в моменте оно по EV выглядело плюсовым, а что это дверь в одну сторону, не заметили. Перепутал двери в обе стороны — и получил худшее из двух миров: медлительность на дешёвом и безрассудство на смертельном.

Поэтому первый вопрос перед любым решением — не «каково матожидание», а «это дверь в одну сторону или в две». Ответ говорит, по какому уровню лестницы играть. Обратимо → вниз, к EV и скорости. Необратимо → вверх, к выживанию и осторожности.

время превращает игру в другую игру

Между Байесом и Марковым прячется звено, которое стоит назвать отдельно: само число повторений меняет, какое решение правильно.

Разовая игра и повторяющаяся — это разные игры, даже если ставка одинаковая. В разовой важен только этот исход. В повторяющейся важно, что ставка вернётся, и значит, твоё поведение сегодня создаёт реальность завтра — и через репутацию, и через то, в каком состоянии ты войдёшь в следующий ход.

Дилемма заключённого показывает это в чистом виде2. В разовой игре рационально предать — это доминирующая стратегия. В повторяющейся, где вы встретитесь снова, рационально сотрудничать, потому что предательство сегодня аукнется местью завтра. Ничего не изменилось в одной партии — изменилось их число. «Тень будущего» переписала, что значит «разумно».

Практический вывод: прежде чем оптимизировать решение, спроси, разовое оно или повторяющееся. С разовым незнакомцем и в многолетних отношениях с одним человеком одна и та же ситуация требует противоположного поведения. Большая часть житейской мудрости — это, по сути, инстинкт играть повторяющуюся игру там, где близорукий ум видит разовую.

ценность состояния, а не хода

Ещё одно звено, между Марковым и Талебом: на дистанции выбирают не лучший ход, а лучшее положение.

Близорукое решение спрашивает «что я выиграю прямо сейчас». Дальновидное спрашивает «в какое состояние этот ход меня поставит — и какие ходы мне будут доступны оттуда». Ценность хода — это не его немедленная награда, а награда плюс ценность всего, что он открывает дальше. Иногда лучший ход тот, что приносит меньше сейчас, но оставляет тебя в позиции с лучшими продолжениями.

Это ровно то, как научились думать машины, играющие в игры: не жадная награда шага, а ценность позиции с учётом всех будущих3. И это же — определение опциональности: ценить состояния, из которых открыто много дверей, выше состояний с большей сиюминутной наградой, но меньшим простором. Держать пути открытыми — значит максимизировать ценность состояния, а не хода. Фланёр инстинктивно так и живёт: предпочитает положения, из которых можно пойти куда угодно, положениям, которые чуть выгоднее, но запирают.

шкура на кону

Есть слой, без которого вся лестница повисает в воздухе: кто несёт последствия решения.

Талеб настаивает: решение, последствия которого несёт не тот, кто его принял, системно искажено4. Советчик без риска, управленец, играющий чужими деньгами, прогнозист, не отвечающий за прогноз, — все они оптимизируют не то, что человек со шкурой на кону. Skin in the game — это не про справедливость, а про знание: по-настоящему калибрует решения только тот, кто почувствует их исход на себе. И на дистанции работает отбор — те, кто принимал необратимые решения без шкуры на кону, рано или поздно встречают свой чёрный лебедь; остаются те, чьи решения и последствия сходились в одном лице.

Для тебя это значит две вещи. Доверяй советам тех, у кого есть шкура на кону, и не очень — тем, у кого нет. И сам, принимая решение, спрашивай: а я-то понесу последствия — или перекладываю их на будущего себя, на других, на «потом»? Решение, последствия которого ты не почувствуешь, ты и не продумаешь честно.

via negativa: дистанцию выигрывают вычитанием

Заметь, что почти вся лестница говорит, чего НЕ делать. Не разорись. Не усредняй то, что течёт во времени. Не предсказывай непредсказуемое. Не запирай себя. Не неси необратимое без нужды. Не принимай решений без шкуры на кону.

Это не случайность. Под неопределённость надёжнее работает вычитание, чем добавление5. Мы плохо знаем, что сработает, — но довольно точно видим, что выбьет нас с дистанции. Убери то, что может закончить игру, — и ты уже выиграл больше, чем любым гениальным ходом, потому что на дистанции выживание капитализируется, а одна катастрофа обнуляет всё. Лучшее решение часто — это не блестящий выбор, а не-совершение глупости, которая кончает партию.

синтез: как решать на дистанции

Сложим всё в один рабочий порядок.

Первое — спроси, обратимо ли решение. Дверь в две стороны или в одну. Это сортирует всё остальное.

Если обратимо: оптимизируй EV, действуй быстро, обновляйся по Байесу с каждой пробой, не трать на это лишнего раздумья. Цена ошибки мала, итерация дешева, паралич дороже ошибки. Большинство решений в жизни — обратимые, и их надо проходить легко.

Если необратимо: поднимись по лестнице. Спроси, выживешь ли при худшем повороте (Марков); спроси, что будет, если придёт то, чего нет в твоей модели (Талеб); замедлись, защити downside, заплати за опциональность, не ставь того, без чего игра кончается. Тут паранойя уместна, потому что отыграть нельзя.

Поверх всего — проживай это как фланёр. Делай мало необратимых ставок и много обратимых проб. Держи двери открытыми — цени положение с простором выше положения с чуть большей сиюминутной выгодой. Имей шкуру на кону в своих решениях и слушай тех, у кого она есть. И чаще убирай хрупкое, чем добавляй умное.

Если совсем сжать в одну мысль: дистанцию выигрывают не лучшими решениями, а отсутствием решений, которые заканчивают игру. Матожидание скажет, что выгодно за шаг. Но прожить длинную игру — значит на каждом шаге сначала убедиться, что шаг этот не последний, и лишь потом думать, насколько он хорош. Сначала остаться в игре. Потом играть хорошо. Именно в таком порядке — и никогда наоборот.

[1]Jeff Bezos · письма акционерам Amazon (1997, 2015) · «двери в одну сторону» (необратимые, type 1) и «двери в две стороны» (обратимые, type 2). Необратимые требуют медленных, осторожных решений; обратимые — быстрых.

[2]Дилемма заключённого, повторённая игра, турнир Аксельрода — см. объект «дилемма заключённого» и эссе «Эксплойт против равновесия».

[3]Ценность состояния через ожидаемую сумму будущих наград — уравнение Беллмана, основа reinforcement learning. См. эссе «Игры которые тренируют машины».

[4]Nassim Taleb · «Skin in the Game», 2018. Асимметрия: решения тех, кто не несёт последствий, системно искажены; отбор на дистанции устраняет тех, кто рисковал без шкуры на кону.

[5]Via negativa — устойчивость через удаление хрупкого, а не добавление улучшений. См. эссе «Антихрупкость».

«чтобы добиться успеха, сначала нужно выжить.»
— Нассим Талеб