null
эссе · статистика · наука · ~13 мин

кризис воспроизводимости.

Тысячи статей прошли рецензирование, получили p<0.05 и легли в учебники. А когда их попытались повторить, половина рассыпалась. И дело не в горстке мошенников: система, набитая честными людьми и вооружённая «правильным» порогом, всё равно исправно производит ложные открытия. Почему — объясняет одна вещь, которую ты уже знаешь: базовая частота.

Начнём с цифры, от которой холодеет. В 2012 году биотех Amgen взялся перепроверить 53 знаковых доклинических исследования рака — те самые, на которые все ссылаются и от которых отталкиваются. Подтвердились шесть.[1] Не подделки, не подлог — просто результаты, которые отказались повторяться. И это не локальный позор онкологии: в психологии воспроизводится меньше трети социальных работ и около половины когнитивных; по наукам о жизни оценки сходятся к 10–25% надёжно повторяемого, а свежий репликационный смотр Nature 2026 года вывел всё ту же безрадостную половину.[2]

откуда взялся диагноз

Имя кризису дала статья 2005 года с программным заголовком: Джон Иоаннидис, «Почему большинство опубликованных результатов ложны».[3] Её аргумент — не обличение, а арифметика. При типичных для науки слабой статистической мощности, обилии проверяемых гипотез и повсеместной гонке за значимостью доля ложных срабатываний в литературе попросту обязана быть высокой. Десятилетием позже тот же Иоаннидис оценил, что около 85% исследовательских денег уходит впустую. Цифра звучит как приговор, но за ней нет ничьего злого умысла — только математика, к которой мы сейчас и подойдём.

почему честный порог всё равно врёт

Вот сердцевина всей истории. Порог p<0.05 сторожит одну-единственную ошибку: ложную тревогу при отсутствии эффекта. Но учёного — и тебя — волнует вопрос ровно обратный: если результат значим, какова вероятность, что эффект настоящий? А это уже территория Байеса, и ответ здесь держит базовая частота — доля настоящих эффектов среди всех гипотез, которые вообще берутся проверять.[4]

Посчитаем на пальцах, как в матрице ошибок. Пусть в поле живёт лишь 10% настоящих эффектов, а остальные гипотезы — пустышки; мощность теста 80%, порог 5%. Прогоним через них тысячу гипотез и посмотрим, кто пройдёт сито значимости.

истинные: 100 → поймали 80  ·  пустые: 900 → ложно «значимы» 45
P(эффект реален | значимо) = 80 / (80 + 45) ≈ 64%
то есть каждое третье «открытие» — ложное, при идеально соблюдённом пороге 0.05. урони базовую частоту до 1% — и уже большинство значимых результатов окажутся пустышками.
1000 гипотез правда тест «значимо» 1000 100 эффект есть 900 пустышки 80 верных находок 45 ложных тревог из 125 «значимых» 45 — пустышки → каждая третья «находка» ложна
при базовой частоте 10% даже честный порог 0.05 даёт треть ложных «открытий»

Теперь видно, почему всё ломается не по чьей-то вине, а системно. Наука по самой своей природе охотится за смелыми, заведомо маловероятными гипотезами — то есть работает при низкой базовой частоте, ровно там, где ложных тревог особенно много. Наложи на это три приёма из сада расходящихся троп — перебор метрик, подглядывание, развилки, — и доля пустышек среди «находок» только растёт. А последним слоем ложится публикационное смещение: журналы охотно печатают яркое и значимое, а отрицательные результаты тихо оседают в столе.

эффект ящика стола

У этого оседания есть имя — file-drawer effect. Представь: двадцать лабораторий независимо проверили одну и ту же пустую гипотезу. Девятнадцать получили «незначимо» и убрали черновик в ящик стола, а одна по чистой случайности поймала p<0.05 — и опубликовалась. В литературе остаётся ровно одна статья, бодро заявляющая «эффект есть!», тогда как девятнадцать её молчаливых опровержений миру не видны. Так в науку просачивается шум, уцелевший по чистому везению, — и выглядит он неотличимо от открытия.[5]

Значимость отвечает на вопрос «бывают ли такие данные без эффекта». А наука хочет знать обратное — «есть ли эффект при таких данных». Между ними стоит базовая частота.

что с этим делают

Лекарства давно известны и на вид скучны — тем и хороши. Предрегистрация и регистрируемые отчёты: журнал решает взять работу по плану ещё до того, как получены результаты, — и тогда отрицательный итог тоже выходит на свет, а не в ящик. Репликация становится нормой, а не подвигом. Данные и код выкладывают открыто. Сюда же — спорное, но честное предложение 2017 года: семьдесят с лишним статистиков призвали ужесточить порог с 0.05 до 0.005, с «одного из двадцати» до «одного из двухсот», что примерно вдвое поднимает шанс на воспроизводимость.[6] Но даже эта мера лечит симптом, а не корень: спасает не цифра порога, а дисциплина мышления за ним.

рядом по теме
Арифметика «значимо ≠ правда» — это ошибка базовой частоты и матрица ошибок; вопрос «во что верить после данных» — четыре лица теоремы Байеса. Как именно жульничают со значимостью — в саду расходящихся троп и песочнице p-hacking.

Кризис воспроизводимости — это не сюжет про злодеев, а про метод, который отвечает не на тот вопрос. Значимость меряет, насколько странны данные, если эффекта нет; а нам нужно ровно обратное — насколько правдоподобен эффект, если данные такие. Перекинуть мост между этими двумя вопросами может лишь то, что красной нитью прошило всю ветку, — базовая частота. Держи её в уме, и «p<0.05» перестанет звучать как «доказано», а станет тем, чем является на самом деле: слабой уликой, которую ещё предстоит взвесить.

на полях
[1]Amgen (Begley & Ellis, 2012) подтвердили лишь 6 из 53 знаковых доклинических онкоисследований. Похожий результат у Bayer (Prinz et al., 2011).
[2]Open Science Collaboration (2015): воспроизводимо <30% социальной и ~50% когнитивной психологии. По наукам о жизни оценки ~10–25%. Camerer et al. (2018): ~62% для отобранных работ в Nature/Science. Спецвыпуск Nature по воспроизводимости (2026): около половины заявлений реплицируются. Tyner et al., Nature 652, 143–150 (2026): 55% из 274 заявлений реплицируются.
[3]John P. A. Ioannidis, «Why Most Published Research Findings Are False» (PLoS Medicine, 2005) — одна из самых цитируемых статей в медицине; формальный байесовский аргумент о доле ложных открытий. Он же (2015): ~85% исследовательских средств расходуется впустую.
[4]p даёт P(данные | нет эффекта), а нужен P(эффект | данные) — их связывает теорема Байеса через базовую частоту (prior). Низкая базовая частота настоящих эффектов → высокая доля ложных срабатываний среди значимых. Оценки базовой частоты для социальной психологии ~0.09.
[5]Публикационное смещение и file-drawer effect: значимые результаты публикуются охотнее, отрицательные оседают «в столе»; это ломает самокоррекцию науки (классический пример — невозможность опубликовать репликации Бема, 2011).
[6]Benjamin et al. «Redefine Statistical Significance» (Nature Human Behaviour, 2017; 70+ авторов): порог 0.005 вместо 0.05 для новых открытий — оценочно ~вдвое выше воспроизводимость, но p-hacking и базовую частоту это не решает. Дополняют: предрегистрация, регистрируемые отчёты, обязательные репликации, открытые данные.