null
V
принцип · №002
ценность состояния
опциональность · уравнение Беллмана
обозначениеV(s) — ценность состояния s
формулаV(s) = maxₐ [ r(s,a) + γ · Σ p(s′|s,a) · V(s′) ] · Беллман, 1957
идеяценность состояния = лучшее, что из него достижимо. держать опции открытыми = держать V высоким
мостфинансовые опционы → реальные опционы → обучение с подкреплением
связанообратимость · опциональность · игры тренируют машины · решения на дистанции

эссе · ~490 слов · 5 мин

Чего стоит выбор.

иметь выбор ценно само по себе — даже не пользуясь им. у этого банального наблюдения есть точная математическая форма. её зовут уравнением Беллмана.

Опцион в финансах — право, но не обязанность купить или продать по заранее известной цене. Платишь премию за право; не сложилось — просто не пользуешься. Выплата опциона выпукла1: убыток ограничен премией, прибыль — нет. Из-за этой выпуклости опцион ценен даже без всякого прогноза: чем больше неопределённости, тем дороже право выбрать потом.

Реальная жизнь полна таких прав. Навык, который может пригодиться. Знакомство, которое однажды откроет дверь. Сбережения, дающие свободу уйти. Каждое — опцион: стоит чего-то держать его открытым, даже если воспользуешься редко.

Ричард Беллман в 1957 году придал этому точную форму2. Ценность состояния V(s) — это не то, что ты получаешь здесь и сейчас, а лучшее, что из этого состояния вообще достижимо в будущем. Состояние, из которого открыто много хороших ходов, ценно само по себе — даже если ты сделаешь лишь один. Уравнение Беллмана считает эту ценность рекурсивно: ценность сейчас = лучшая немедленная награда плюс ценность того состояния, куда ты попадёшь.

Это и есть опциональность, записанная формулой. «Держи двери открытыми» на языке Беллмана звучит как «выбирай действия, ведущие в состояния с высоким V». Открытые двери — это и есть высокая ценность состояния.

И отсюда тянется мост, которого не ждёшь. На уравнении Беллмана стоит всё обучение с подкреплением3. Когда AlphaGo оценивает позицию, она оценивает V — ценность состояния доски: не сиюминутный счёт, а то, что из позиции достижимо при наилучшей игре. Машина, обыгравшая человека в го, делает ровно то, что Талеб советует человеку под неопределённостью: ценит не ход, а позицию; держит опции; идёт туда, откуда открыто больше хорошего.

ценность состояния — это не то, что в нём есть, а то, что из него достижимо.

Свести: выбор стоит чего-то даже неиспользованный. Опциональность — это высокая V. Беги от состояний, которые её обнуляют — необратимое, разорение, — и плати за те, что её держат. Так считает Беллман, так играет AlphaGo, так живёт фланёр.