null
эссе · вероятность · ~8 мин

четыре лица теоремы Байеса.

Формула пугает с виду: дробь, условные вероятности, P чего-то при чём-то. А внутри — простая и очень человеческая мысль: как менять мнение, когда пришли новые данные, не упираясь рогом и не шарахаясь от каждой новости. Смотреть на неё можно с четырёх сторон. Каждая — отдельный язык, и на каждом удобно своё.

Сначала познакомимся с формулой — без испуга. Есть гипотеза (H): то, во что мы прикидываем, верить или нет. И есть улика (E): то, что мы только что узнали. Байес говорит, как пересчитать одно через другое.

P(H | E) = P(E | H) · P(H) / P(E)
во что верю теперь = насколько данные ждались × во что верил раньше / насколько данные вероятны вообще

Четыре кусочка, и каждый честно про своё:

P(H) · априор
prior
во что ты верил раньше. насколько гипотеза правдоподобна сама по себе.
P(E|H) · правдоподобие
likelihood
если гипотеза верна — насколько ожидаемо то, что ты увидел.
P(E) · нормировка
evidence · marginal
насколько увиденное вероятно вообще, само по себе. сюда прячется подвох.
P(H|E) · апостериор
posterior
во что веришь теперь. а завтра это станет твоим «раньше».

А дальше — четыре способа всё это прочитать. Один и тот же фокус, разные ракурсы.

i · людьми, а не процентами

Проще всего не запутаться, если бросить жонглировать процентами и пересчитать живых людей. Болезнь редкая — один на тысячу. Возьмём тысячу человек. Болен один, тест его поймает. Но среди 999 здоровых прибор тоже изредка ошибётся — и наберётся полсотни ложных тревог. И вот тест звякнул «плюс» у пятидесяти одного, а болен из них один. Около двух процентов, а не девяноста девяти. Проценты это прятали — люди показали.

из 1000 человек тест «+» получил 51: █ болен — 1 █ ложная тревога — 50 1 из 51 ≈ 2%
среди «плюсов» настоящий — один: его топит толпа ложных срабатываний
когда удобно: медтест, классификация, объяснять на пальцах. это та же матрица ошибок 2×2, только посчитанная штуками.

ii · шансы: улики просто складываются

Тут начинается самое рабочее. Переведём вероятность в шансы — как у букмекера, «один к девяти». Формула превращается в умножение: берёшь шансы до, домножаешь на силу улики — получаешь шансы после. Сила улики — это во сколько раз увиденное вероятнее, если гипотеза верна, чем если нет.

Красота в том, что весь «фон» сокращается: не нужно считать вселенную, нужно лишь сравнить две версии. А улики идут одна за другой и просто перемножаются — ровно так живёт спам-фильтр: каждое подозрительное слово домножает шансы, что письмо мусорное. А если взять логарифм, умножение станет сложением — и улики можно складывать в столбик.

шансы · умножение 1 : 9 до × 6 сила улики ≈ 2 : 3 после в логарифме — то же сложением вера до + улика 1 + улика 2 = вера после каждая улика добавляет свой вес — копи, пока не перевесит
шансы умножаются · в логарифме просто складываются (так ломали «Энигму»)
когда удобно: копить улики, сравнивать две версии, спам-фильтр, покер — и футбол: шансы Бразилии × насколько ничья обычна для сильных против слабых.

iii · облако вместо точки

Иногда вопрос не «да или нет», а «насколько». Насколько сильна команда. Какая на самом деле конверсия у фичи. Тогда вера — не одно число, а целое облако: где-то гуще, где-то реже. Приходят данные — облако сжимается и сдвигается. Ты не просто меняешь оценку — ты становишься в ней увереннее: широкое «да кто ж знает» превращается в узкое «почти наверняка вот столько». Когда посчитать руками нельзя, это облако набрасывают тысячами случайных проб — это MCMC.

до данных: широкое незнание после: уже и увереннее слабее сильнее →
данные сжимают «облако веры» о неизвестной величине — и сдвигают его к правде
когда удобно: оценить величину с честной погрешностью — конверсию в A/B, силу команды, размер эффекта. облако вместо точки и есть мера неопределённости.

iv · насколько это вообще новость

Последний угол — про вес новостей. Скучное, ожидаемое событие почти ничего не сообщает и веру двигать не должно. Сенсация — наоборот: несёт много информации (её и меряют в битах) и потому разворачивает мнение сильно. Бразилия обыграла аутсайдера — так и должно быть, веришь как верил. Бразилия влетела 0:4 — вот это новость, вот это меняет картину. Чем невероятнее случившееся, тем сильнее оно обязано тебя двигать. Удивление и есть мера обновления.

обыграли аутсайдера 0.3 бит → вера почти не дрогнула влетели 0:4 4 бит → вот это разворачивает мнение
чем невероятнее улика, тем больше в ней бит — и тем сильнее сдвиг веры
когда удобно: прикинуть, должна ли новость вообще тебя трогать. прямой мост к энтропии и к «битам на матч» в симуляции турнира: сенсация = много бит = прыжок вероятности.

· один фокус, четыре ракурса

Всё это — не четыре теоремы, а одна, рассказанная на четырёх языках: людьми, шансами, облаками, битами. Какой выбрать — зависит от задачи. Медтест удобнее считать людьми. Копить улики и болеть за футбол — шансами. Оценивать величину — облаками. Прикидывать вес новости — битами.

В шансах вера складывается: прибавляй вес каждой улики, пока сумма не перевесит.

Так, между прочим, помогли выиграть войну. В Блетчли-Парке Тьюринг и Джек Гуд взламывали «Энигму» не магией, а ровно этим сложением: каждая зацепка добавляла свои децибаны — единички веса улики, — и когда столбик дорастал до нужного, шифр считался разгаданным.[2] Один децибан они отмерили как самую малую крупицу довода, которую ещё чует человеческое чутьё. Выходит, Байес, шансы и информация — одна монета, просто повёрнутая разными гранями. А весь навык — менять мнение ровно на вес того, что узнал. Ни упрямее, ни легковернее.

на полях
[1]«Считать людьми» — это естественные частоты (Гигеренцер): перевод условных вероятностей в счёт «из N человек» резко облегчает байесовские задачи и гасит ошибку базовой ставки. По сути — матрица ошибок 2×2 в штуках.
[2]Шансовая форма: шансы после = шансы до × отношение правдоподобий; «фон» сокращается, улики перемножаются. Тьюринг и И. Дж. Гуд (1940, Блетчли-Парк) ввели «бан» и «децибан» — единицы веса улики в лог-шансах — для взлома военно-морской «Энигмы» процедурой банбуризмус; в логарифме умножение становится сложением.
[3]Непрерывный Байес: вера — это распределение, которое данные сдвигают и сужают; с удобными парами (Beta + биномиальные данные) считается аналитически, иначе сэмплирует MCMC.
[4]Удивительность улики −log₂P(E) меряется в битах; вес улики — информация, аддитивная по независимым уликам. Так Байес смыкается с энтропией и теорией информации.