Ошибка базовой частоты.
тест на рак положительный. вероятность что ты болен — не 95%. большинство врачей дают неверный ответ. потому что игнорируют базовую частоту.
| тема | вероятность · байесовский вывод · когнитивные ошибки |
| читать | ~7 минут |
| связано | байесовский вывод · условная вероятность · искажения · A/B |
Тест на редкую болезнь. Точность теста — 95%: если болен, тест положительный в 95% случаев. Ложноположительных — 5%: если здоров, тест всё равно положительный в 5% случаев. Болезнь встречается у 1 человека из 1000.
Тест положительный. Какова вероятность что ты болен? Большинство людей говорят: около 95%. Правильный ответ: около 1.9%1.
у больных: 95 положительных (верно), 5 пропущено.
у здоровых: 4 995 положительных (ложно), 94 905 верно.
всего положительных: 95 + 4 995 = 5 090. реально больных: 95.
P(болен | тест +) = 95 / 5 090 ≈ 1.9%.
Тест с точностью 95% даёт правильный диагноз лишь в 2 случаях из 100 при редкой болезни. Это не баг теста. Это математика.
Мозг фокусируется на точности теста — 95%. И игнорирует базовую частоту — 0.1%. Это называется base rate neglect2. Мы видим конкретный случай (положительный тест) и забываем про популяцию (насколько редка болезнь).
Теорема Байеса говорит что нельзя: P(болен | тест+) = P(тест+ | болен) × P(болен) / P(тест+). Prior — базовая частота болезни — входит в формулу обязательно. Без него ответ неверен.
Канеман и Тверски показали в 1970-х: даже когда людям явно дают базовую частоту — они её недооценивают. Конкретная история всегда перевешивает статистику. Это availability heuristic + base rate neglect вместе.
В суде: ДНК обвиняемого совпало с уликой. Вероятность случайного совпадения — 1 из миллиона. Прокурор говорит: вероятность невиновности — 1 из миллиона. Это ошибка3.
P(совпадение ДНК | невиновен) = 1/1 000 000. Но нас интересует P(невиновен | совпадение ДНК). Это разные вещи. Если в городе миллион людей — ожидаемо одно случайное совпадение ДНК среди невиновных. Вероятность что обвиняемый виновен зависит от всех остальных улик — prior до теста ДНК.
Люди сидят в тюрьме из-за этой ошибки. Суды её совершают регулярно.
Метрика выросла на 15% после запуска фичи. p-value = 0.03. Статистически значимо. Запускаем? Подожди. Какова базовая частота того что наши гипотезы вообще верны? Если мы тестируем случайные идеи — может 10%. Тогда даже при p < 0.05 большинство значимых результатов — ложноположительные4.
Это та же логика что с тестом на болезнь. P(гипотеза верна | p < 0.05) зависит от prior — насколько обоснована гипотеза до теста. Именно поэтому важно: формулировать гипотезу до теста — не после. Оценивать prior обоснованность идеи. Реплицировать важные результаты. Не запускать 20 тестов и брать лучший. Иначе ты лечишь здоровых людей.
1. Найди референсный класс. К какой группе относится этот случай? Какова базовая частота события в этой группе? 2. Обнови prior на конкретные данные. Теорема Байеса: prior × likelihood = posterior. Конкретные данные меняют оценку — но не заменяют базовую частоту. 3. Не давай конкретной истории перевесить статистику популяции. Один яркий кейс — не доказательство. Он обновляет prior. Немного.
Тест на редкую болезнь положительный — это повод для дополнительного обследования. Не повод для паники. Вероятность болезни выросла с 0.1% до 1.9%. Всё ещё маловероятно. Base rate — это якорь. Конкретные данные его двигают. Но не отменяют.
«если вы не знаете базовую частоту — вы не знаете ничего.»
— Даниэль Канеман · адаптация