null
визуал · статистика · интерактив

песочница p-hacking.

Две кнопки — синяя и зелёная. Игроки кликают одинаково: разницы между ними нет вообще. Внизу — данные двух групп: точки вперемешку, никакого эффекта. Задача-провокация: всё равно «доказать», что одна кнопка лучше. Крути ручки и следи за двумя числами — p-value и счётчиком попыток.
данные экспериментасредние почти совпадают
группа A · плацебо группа B · «новая кнопка»
0.50
не значимо — разницы не видно
0← порог 0.051.0
подсмотреть и добрать данных50 / группа
«ещё не значимо? доберу наблюдений и проверю снова» — подглядывание (peeking).
перебрать метрикиметрика 1 из 20
меряешь 20 разных «успехов» (клики, время, возвраты…) и берёшь ту, где повезло.
отбросить «выбросы»0%
убираешь неудобные хвосты под предлогом «аномалии», пока картина не улучшится.
«а у женщин 25–34 из Москвы по вторникам — сработало!» срезы плодят ложные находки.
попыток «найти» эффект: 1
в этом и обман. Данные A и B приходят из одного распределения — настоящей разницы нет ни на одной ручке. Каждое движение — это просто новая попытка поймать эффект в шуме. Сделай 20 попыток — и одна случайно даст p<0.05 (это и есть смысл «5%»). Значимость, выловленная перебором, — артефакт поиска, а не открытие.
p < 0.05 ≠ «я прав». это «при отсутствии эффекта так редко»null