Как обновлять убеждения.
в 1763 году Томас Байес написал статью. опубликовали её посмертно. она изменила то, как мы думаем о вероятности. и до сих пор вызывает споры.
| тема | байесовская статистика · вывод · принятие решений |
| читать | ~8 минут |
| связано | A/B тестирование · цепи Маркова · вероятность |
В 1763 году Томас Байес написал статью «An Essay towards solving a Problem in the Doctrine of Chances». Опубликовали посмертно. Друг Ричард Прайс нашёл рукопись и отправил её в Royal Society1.
Теорема Байеса:
Вероятность гипотезы A при наблюдении B = вероятность наблюдения B при верной A, умноженная на prior-вероятность A, делённая на общую вероятность B. Это арифметика. Теорема верна в обоих лагерях. Спор не о формуле — о том, что такое P(A).
Вероятность — предел частоты при бесконечном числе испытаний. P(орёл) = 0.5 потому, что в длинной серии бросков орёл падает в половине. Проблема: как говорить о вероятности единичных событий? «Вероятность того, что Байден выиграет выборы» — бессмысленна в частотной интерпретации. Выборы не повторяются бесконечно.
Вероятность — степень уверенности рационального агента. P(A) = 0.7 означает: «я готов поставить 7 против 3, что A верно». Это субъективно. Но обновляется по правилам. Prior → данные → posterior. Новые данные → снова posterior.
Байесовская статистика — это просто здравый смысл, записанный математически. — Эдвин Джейнс, «Probability Theory: The Logic of Science», 2003
Болезнь встречается у 1% популяции. Тест чувствительностью 99% (верно находит больных) и специфичностью 99% (верно отрицает здоровых). Тест положительный. Какова вероятность того, что вы больны?
Интуиция говорит: 99%. Байес говорит: считаем2.
50%. Не 99%. Потому что болезнь редкая — ложноположительных почти столько же, сколько настоящих больных. Это важно для медицинской диагностики, детекторов мошенничества, спам-фильтров.
Частотный подход: p-value. Бинарное решение. Нет prior. Байесовский подход: prior на размер эффекта из исторических данных. Например, из 100 прошлых экспериментов: средний эффект +2%, σ = 1.5%. Это prior. Запускаем тест. Получаем данные. Posterior: «эффект с вероятностью 95% между +1.2% и +3.8%».
Это богаче, чем «p = 0.03». Можно принимать решения с учётом неопределённости. Можно останавливать тест досрочно без накручивания ошибок. Можно обновлять posterior по мере поступления данных.
Байесовский A/B используют VWO, Dynamic Yield, часть Optimizely. В основе — сопряжённые prior (beta-binomial для конверсии, normal-normal для средних) и MCMC для сложных моделей3.
Главная претензия — субъективность prior. Два аналитика с разными prior получат разные posterior. Ответ байесианцев: это честно — мы всегда имеем prior, частотный подход просто прячет его за «плоским» prior4.
При больших данных prior не важен. Posterior определяется данными. Prior «вымывается». При малых данных prior критичен. Именно здесь байесовский подход выигрывает — когда данных мало и нужно принимать решения.
Для маркетплейсов и аукционов это ключевое: новый продавец, новый лот, холодный старт. Исторических данных нет. Prior из похожих объектов. Posterior обновляется по первым транзакциям. Это и есть байесовский вывод в продакшне — когда «не знаем, но действовать надо» превращается в формулу.