эссе · вероятность · мышление · ~14 мин

прав ли прогноз?

За три эссе мы научились находить перевес и считать размер ставки по Келли. Но всё это держалось на одном — на том, что твоя вероятность верна. И тут засада: как вообще понять, хорош ли прогноз? Ты сказал «Бразилия победит на 70%», Бразилия проиграла — ты ошибся? Совсем не обязательно. Один исход вероятность не судит. Чтобы проверить прогноз, нужен счёт — и для него есть калибровка и шкала Бриера.

Сказать «70%» и посмотреть один матч — всё равно что судить о кубике по одному броску. Выпала тройка — кубик «соврал»? Нет, просто так выпало. С прогнозом то же самое: единичный исход почти ничего не говорит о том, была ли вероятность честной. Оценивать прогноз — или решение — по одному результату называется resulting, и это кардинальный грех вероятностного мышления: хорошее решение с плохим исходом остаётся хорошим. Проверить вероятностное суждение можно только на многих прогнозах. Оттого телевизионного эксперта, который ни разу не записал свою вероятность числом, нельзя ни поймать на ошибке, ни похвалить, — его просто никто не считает.

калибровка · сбываются ли твои семьдесят процентов

Первый инструмент — калибровка. Прогнозист откалиброван, если из всех случаев, когда он сказал «70%», событие случилось примерно в 70% из них. Собери свои прогнозы, разложи по кучкам и сверь: по горизонтали — что ты обещал, по вертикали — как часто сбывалось. Идеал — диагональ. Если твои «90%» сбываются лишь в семидесяти случаях из ста, ты самоуверен, и кривая проседает под диагональ.^[1]

график калибровки: идеал — диагональ, кривая под ней — систематическая самоуверенность

Это, кстати, ровно та же ценность закрывающей линии из эссе про рынок: закрывающая цена прекрасно откалибрована, и обыграть её — значит быть откалиброванным ещё точнее, чем вся толпа.

шкала Бриера · одно честное число

Но калибровки мало. Всегда называть базовую частоту — «дождь в среднем в 30% дней» — идеально откалибровано и совершенно бесполезно: ты ни разу не сказал ничего конкретного. Нужно одно число, которое награждает и за калибровку, и за решительность. Это шкала Бриера, придуманная Гленном Бриером в 1950 году: средний квадрат ошибки между твоей вероятностью и исходом (1 — случилось, 0 — нет).^[2]

BS = (1/N) · Σ (p − y)²

три прогноза: 0.8 (сбылось) · 0.6 (нет) · 0.9 (сбылось)

BS = ⅓·[(0.8−1)² + (0.6−0)² + (0.9−1)²] = ⅓·[0.04 + 0.36 + 0.01] = 0.137

ниже — лучше. больнее всего ударил средний прогноз: сказал «60%» тому, что не случилось (0.36). уверенная ошибка штрафуется квадратом.

шкала Бриера: 0 — идеал, 0.25 — вечное «пятьдесят на пятьдесят», 1 — уверенная ошибка

Чем меньше — тем лучше: ноль это идеал, 0.25 — если всегда говоришь «50%» (то есть наугад), единица — уверенно и мимо. И главная тонкость: шкала честная — обмануть её нельзя. Лучший балл получаешь, называя ровно своё настоящее мнение; занижать или завышать ради красивой цифры математически невыгодно.^[3] Врать самому себе тут не окупается.

суперпрогнозисты · дисциплина, а не гений

Психолог Филип Тетлок устроил многолетние турниры прогнозов и нашёл «суперпрогнозистов» — верхние пару процентов, у кого Бриер около 0.15–0.20 против примерно 0.26 у обычных участников.^[4] Сюрприз в том, что это не гении и не математики. Их отличает дисциплина: прогнозировать числом, а не «скорее да»; часто и понемногу обновляться на новых данных; и — главное — вести счёт своим прошлым прогнозам. А ещё, как и на рынке ставок, агрегат бьёт одиночку: усреднение прогнозов точнее лучшего из них — та же мудрость толпы, что назначает закрывающую линию.

зачем это вне ставок

Так замыкается серия. Рынок из эссе про коэффициент — это эталонно откалиброванный прогноз, который ведёт счёт сам, деньгами. Перевес из прошлого эссе есть только тогда, когда твоя вероятность калиброванее рыночной. А узнать это можно единственным способом — держа свой счёт по Бриеру. Но самое важное здесь уже не про ставки. Почти никто не записывает свои предсказания числом, поэтому никто не улучшается и не замечает, что водит себя за нос. Эксперт в телевизоре никогда не ведёт счёт — оттого он всегда задним числом «прав».

Вероятность — это обещание, которое реальность проверит. Но проверит на многих попытках, а не на одной.

Игрок, прогнозист и просто честно думающий человек делят одну дисциплину: назови число, запиши его и веди счёт. Вопрос не «угадал ли я в этот раз», а «сбываются ли мои семьдесят процентов в семидесяти случаях из ста». В этом вся разница между знанием и ощущением уверенности. Рынок ведёт счёт автоматически — линия закрывается, деньги перетекают. За свою собственную голову счёт придётся вести самому. И, пожалуй, это самый честный способ думать о будущем: не пророчествовать, а ставить числа и потом смотреть, насколько ты в них был прав.

на полях

[1]Калибровка: π(p) = P(событие | ты сказал p). Откалиброван, если π(p) ≈ p — то, чему ты дал 70%, сбывается в ~70%. График калибровки (reliability diagram): идеал — диагональ; кривая под ней — систематическая самоуверенность.

[2]Шкала Бриера (Glenn W. Brier, 1950): BS = (1/N)·Σ(pᵢ − yᵢ)², где p — прогноз, y ∈ {0,1} — исход. Ниже лучше: 0 — идеал, 0.25 — постоянное «50%» (наугад на симметричном бинарном исходе), 1 — максимально уверенная ошибка.

[3]Бриер — строго честное (strictly proper) правило: ожидаемый балл нельзя улучшить, называя что-либо, кроме своей настоящей оценки вероятности. Шкала также раскладывается на калибровку (reliability) и решительность (resolution): полезный прогноз бьёт базовую частоту.

[4]Турниры Тетлока (Good Judgment Project): суперпрогнозисты (~верхние 2%) дают Бриер ~0.15–0.20 (индивидуально ~0.166) против ~0.26 у обычных; агрегирование прогнозов улучшает результат (~0.146) — мудрость толпы. Отличие — дисциплина (числовые прогнозы, частые обновления, ведение счёта), не интеллект.