кризис воспроизводимости.
Начнём с цифры, от которой холодеет. В 2012 году биотех Amgen взялся перепроверить 53 знаковых доклинических исследования рака — те самые, на которые все ссылаются и от которых отталкиваются. Подтвердились шесть.[1] Не подделки, не подлог — просто результаты, которые отказались повторяться. И это не локальный позор онкологии: в психологии воспроизводится меньше трети социальных работ и около половины когнитивных; по наукам о жизни оценки сходятся к 10–25% надёжно повторяемого, а свежий репликационный смотр Nature 2026 года вывел всё ту же безрадостную половину.[2]
откуда взялся диагноз
Имя кризису дала статья 2005 года с программным заголовком: Джон Иоаннидис, «Почему большинство опубликованных результатов ложны».[3] Её аргумент — не обличение, а арифметика. При типичных для науки слабой статистической мощности, обилии проверяемых гипотез и повсеместной гонке за значимостью доля ложных срабатываний в литературе попросту обязана быть высокой. Десятилетием позже тот же Иоаннидис оценил, что около 85% исследовательских денег уходит впустую. Цифра звучит как приговор, но за ней нет ничьего злого умысла — только математика, к которой мы сейчас и подойдём.
почему честный порог всё равно врёт
Вот сердцевина всей истории. Порог p<0.05 сторожит одну-единственную ошибку: ложную тревогу при отсутствии эффекта. Но учёного — и тебя — волнует вопрос ровно обратный: если результат значим, какова вероятность, что эффект настоящий? А это уже территория Байеса, и ответ здесь держит базовая частота — доля настоящих эффектов среди всех гипотез, которые вообще берутся проверять.[4]
Посчитаем на пальцах, как в матрице ошибок. Пусть в поле живёт лишь 10% настоящих эффектов, а остальные гипотезы — пустышки; мощность теста 80%, порог 5%. Прогоним через них тысячу гипотез и посмотрим, кто пройдёт сито значимости.
Теперь видно, почему всё ломается не по чьей-то вине, а системно. Наука по самой своей природе охотится за смелыми, заведомо маловероятными гипотезами — то есть работает при низкой базовой частоте, ровно там, где ложных тревог особенно много. Наложи на это три приёма из сада расходящихся троп — перебор метрик, подглядывание, развилки, — и доля пустышек среди «находок» только растёт. А последним слоем ложится публикационное смещение: журналы охотно печатают яркое и значимое, а отрицательные результаты тихо оседают в столе.
эффект ящика стола
У этого оседания есть имя — file-drawer effect. Представь: двадцать лабораторий независимо проверили одну и ту же пустую гипотезу. Девятнадцать получили «незначимо» и убрали черновик в ящик стола, а одна по чистой случайности поймала p<0.05 — и опубликовалась. В литературе остаётся ровно одна статья, бодро заявляющая «эффект есть!», тогда как девятнадцать её молчаливых опровержений миру не видны. Так в науку просачивается шум, уцелевший по чистому везению, — и выглядит он неотличимо от открытия.[5]
Значимость отвечает на вопрос «бывают ли такие данные без эффекта». А наука хочет знать обратное — «есть ли эффект при таких данных». Между ними стоит базовая частота.
что с этим делают
Лекарства давно известны и на вид скучны — тем и хороши. Предрегистрация и регистрируемые отчёты: журнал решает взять работу по плану ещё до того, как получены результаты, — и тогда отрицательный итог тоже выходит на свет, а не в ящик. Репликация становится нормой, а не подвигом. Данные и код выкладывают открыто. Сюда же — спорное, но честное предложение 2017 года: семьдесят с лишним статистиков призвали ужесточить порог с 0.05 до 0.005, с «одного из двадцати» до «одного из двухсот», что примерно вдвое поднимает шанс на воспроизводимость.[6] Но даже эта мера лечит симптом, а не корень: спасает не цифра порога, а дисциплина мышления за ним.
Кризис воспроизводимости — это не сюжет про злодеев, а про метод, который отвечает не на тот вопрос. Значимость меряет, насколько странны данные, если эффекта нет; а нам нужно ровно обратное — насколько правдоподобен эффект, если данные такие. Перекинуть мост между этими двумя вопросами может лишь то, что красной нитью прошило всю ветку, — базовая частота. Держи её в уме, и «p<0.05» перестанет звучать как «доказано», а станет тем, чем является на самом деле: слабой уликой, которую ещё предстоит взвесить.