визуал · статистика · интерактив

песочница p-hacking.

Две кнопки — синяя и зелёная. Игроки кликают одинаково: разницы между ними нет вообще. Внизу — данные двух групп: точки вперемешку, никакого эффекта. Задача-провокация: всё равно «доказать», что одна кнопка лучше. Крути ручки и следи за двумя числами — p-value и счётчиком попыток.

данные экспериментасредние почти совпадают

группа A · плацебо группа B · «новая кнопка»

0.50

не значимо — разницы не видно

0← порог 0.051.0

подсмотреть и добрать данных50 / группа

«ещё не значимо? доберу наблюдений и проверю снова» — подглядывание (peeking).

перебрать метрикиметрика 1 из 20

меряешь 20 разных «успехов» (клики, время, возвраты…) и берёшь ту, где повезло.

отбросить «выбросы»0%

убираешь неудобные хвосты под предлогом «аномалии», пока картина не улучшится.

разрезать на подгруппы

«а у женщин 25–34 из Москвы по вторникам — сработало!» срезы плодят ложные находки.

попыток «найти» эффект: 1

в этом и обман. Данные A и B приходят из одного распределения — настоящей разницы нет ни на одной ручке. Каждое движение — это просто новая попытка поймать эффект в шуме. Сделай 20 попыток — и одна случайно даст p<0.05 (это и есть смысл «5%»). Значимость, выловленная перебором, — артефакт поиска, а не открытие.

p < 0.05 ≠ «я прав». это «при отсутствии эффекта так редко»null