P(H) — null/objects/statistics

P(H)

искажение · №004

ошибка базовой частоты

base rate neglect · мы цепляемся за яркую улику и забываем спросить, насколько редка сама гипотеза

обозначение	P(H) — априорная вероятность гипотезы (база)
определение	систематическая недооценка базовой частоты события при оценке его вероятности по конкретной улике
ввёл	Канеман и Тверски · 1973
свойства	усиливается яркостью улики · родственна transpose fallacy · лечится теоремой Байеса
связано	условная вероятность · теорема Байеса · availability · размер эффекта

// развёрнуто в эссеОшибка базовой частоты · prosecutor’s fallacy→

эссе · ~470 слов · 4 мин

Тест точен на 99%. Ты, скорее всего, здоров.

самая дорогая ошибка в медицине, найме и аналитике: оценивать улику и забывать, насколько редко то, что она якобы доказывает.

Классическая задача. Болезнь есть у одного человека из тысячи. Тест на неё точен на 99%: почти не ошибается. У тебя тест положительный. Какова вероятность, что ты действительно болен?

Интуиция кричит: 99%. Правильный ответ: около 9%.

Посчитаем на тысяче человек. Болен — один, тест его, скорее всего, поймает: одно верное срабатывание. Здоровы — 999, и тест ошибается на 1% из них: примерно десять ложных срабатываний. Итого положительных тестов одиннадцать, а болен из них один. Один из одиннадцати — это ~9%1.

Что произошло с интуицией? Она вцепилась в точность теста — 99% — и полностью проигнорировала базу: болезнь редкая, один на тысячу. Когда событие очень редкое, даже отличный тест даёт больше ложных тревог, чем настоящих находок, просто потому что здоровых несопоставимо больше. База решает исход — а её-то мозг и выбрасывает.

Яркая деталь убедительна. Редкость — решает.

Канеман и Тверски показали это в 1973-м на другой задаче2. Людям давали описание: «Том — аккуратный, любит порядок, интересуется системами». Кто он вероятнее — библиотекарь или фермер? Почти все говорили «библиотекарь»: описание похоже на стереотип. Но фермеров в выборке было в разы больше — и это перевешивало похожесть. Описание (яркая улика) забивало базу (сколько вообще таких людей). Чем живее портрет, тем сильнее игнорируется частота.

Формально правильный ответ даёт теорема Байеса: чтобы получить вероятность гипотезы при улике, надо домножить правдоподобие улики на априорную вероятность гипотезы — на ту самую базу. Игнорировать базу — значит выкинуть из формулы Байеса целый множитель. Это родственник другой ошибки, transpose fallacy: путать «вероятность улики при болезни» с «вероятностью болезни при улике». Это разные числа, и разводит их именно база3.

Почему мозг так делает? Конкретная яркая улика ощутима — её видно, она цепляет. Абстрактная частота «один на тысячу» — бесцветная и легко вылетает из головы. Тот же механизм, что в эвристике доступности: что ярче, то и кажется вероятнее.

Цена ошибки реальна. Скрининг редких болезней даёт лавину ложных диагнозов — поэтому массово тестировать здоровых опасно. Профайлинг по приметам ловит в основном невиновных, потому что их подавляюще больше. В найме «он же вылитый наш человек» перевешивает статистику успеха. В покере новичок боится редкой сильной руки соперника, забыв, что в его диапазоне она почти невозможна.

Что делать. Прежде чем поверить яркой улике, спроси: насколько часто встречается то, что она доказывает? Если событие редкое — даже сильное свидетельство оставляет его маловероятным. Всегда начинай с базы, и только потом двигай её уликами. Это и есть мышление по Байесу.