null
эссе · ~800 слов · 8 мин · 2026.05

Как обновлять убеждения.

в 1763 году Томас Байес написал статью. опубликовали её посмертно. она изменила то, как мы думаем о вероятности. и до сих пор вызывает споры.

темабайесовская статистика · вывод · принятие решений
читать~8 минут
связаноA/B тестирование · цепи Маркова · вероятность

В 1763 году Томас Байес написал статью «An Essay towards solving a Problem in the Doctrine of Chances». Опубликовали посмертно. Друг Ричард Прайс нашёл рукопись и отправил её в Royal Society1.

Теорема Байеса:

P(A | B) = P(B | A) × P(A) / P(B)

Вероятность гипотезы A при наблюдении B = вероятность наблюдения B при верной A, умноженная на prior-вероятность A, делённая на общую вероятность B. Это арифметика. Теорема верна в обоих лагерях. Спор не о формуле — о том, что такое P(A).

частотная интерпретация

Вероятность — предел частоты при бесконечном числе испытаний. P(орёл) = 0.5 потому, что в длинной серии бросков орёл падает в половине. Проблема: как говорить о вероятности единичных событий? «Вероятность того, что Байден выиграет выборы» — бессмысленна в частотной интерпретации. Выборы не повторяются бесконечно.

байесовская интерпретация

Вероятность — степень уверенности рационального агента. P(A) = 0.7 означает: «я готов поставить 7 против 3, что A верно». Это субъективно. Но обновляется по правилам. Prior → данные → posterior. Новые данные → снова posterior.

Байесовская статистика — это просто здравый смысл, записанный математически. — Эдвин Джейнс, «Probability Theory: The Logic of Science», 2003
пример с тестом на болезнь

Болезнь встречается у 1% популяции. Тест чувствительностью 99% (верно находит больных) и специфичностью 99% (верно отрицает здоровых). Тест положительный. Какова вероятность того, что вы больны?

Интуиция говорит: 99%. Байес говорит: считаем2.

P(болен | +) = P(+ | болен) × P(болен) / P(+) P(+ | болен) = 0.99 P(болен) = 0.01 P(+) = 0.99 × 0.01 + 0.01 × 0.99 = 0.0198 P(болен | +) = 0.99 × 0.01 / 0.0198 = 0.5

50%. Не 99%. Потому что болезнь редкая — ложноположительных почти столько же, сколько настоящих больных. Это важно для медицинской диагностики, детекторов мошенничества, спам-фильтров.

применение в A/B тестировании

Частотный подход: p-value. Бинарное решение. Нет prior. Байесовский подход: prior на размер эффекта из исторических данных. Например, из 100 прошлых экспериментов: средний эффект +2%, σ = 1.5%. Это prior. Запускаем тест. Получаем данные. Posterior: «эффект с вероятностью 95% между +1.2% и +3.8%».

Это богаче, чем «p = 0.03». Можно принимать решения с учётом неопределённости. Можно останавливать тест досрочно без накручивания ошибок. Можно обновлять posterior по мере поступления данных.

Байесовский A/B используют VWO, Dynamic Yield, часть Optimizely. В основе — сопряжённые prior (beta-binomial для конверсии, normal-normal для средних) и MCMC для сложных моделей3.

критика и ответ

Главная претензия — субъективность prior. Два аналитика с разными prior получат разные posterior. Ответ байесианцев: это честно — мы всегда имеем prior, частотный подход просто прячет его за «плоским» prior4.

При больших данных prior не важен. Posterior определяется данными. Prior «вымывается». При малых данных prior критичен. Именно здесь байесовский подход выигрывает — когда данных мало и нужно принимать решения.

холодный старт

Для маркетплейсов и аукционов это ключевое: новый продавец, новый лот, холодный старт. Исторических данных нет. Prior из похожих объектов. Posterior обновляется по первым транзакциям. Это и есть байесовский вывод в продакшне — когда «не знаем, но действовать надо» превращается в формулу.