p-value — null/objects/statistics

вывод · №001

p-value

вероятность данных при верной нулевой гипотезе · не вероятность гипотезы

обозначение	p · от probability
определение	P(данные \| H₀) — вероятность данных при верной H₀
ввёл	Карл Пирсон · 1900 · термин закрепил Фишер · 1925
порог	α = 0.05 — условный стандарт, не закон природы
НЕ является	вероятностью того, что H₀ верна
НЕ является	вероятностью ошибки
связано	A/B тестирование · ошибка I рода · мощность теста

эссе · ~400 слов · 3 мин

Что p-value значит на самом деле.

одна из самых используемых и неправильно понимаемых статистических концепций.

Формально: p-value — вероятность получить результат не менее экстремальный, чем наблюдаемый, если нулевая гипотеза верна. P(T ≥ t_obs | H₀).

Что это не означает:

вероятность, что H₀ верна: P(H₀ | данные) ≠ p-value;
вероятность ошибки: «мы ошиблись с вероятностью 5%»;
размер эффекта: маленький p не значит большой эффект;
практическую значимость.

Что это означает: если нулевая гипотеза верна (эффекта нет), как вероятно получить такие данные или более экстремальные? Малый p-value говорит: данные маловероятны при H₀. Это основание отвергнуть H₀ — но не доказательство, что H₁ верна.

«Статистически значимо» — не синоним «правда».

Порог 0.05 — исторически случаен. Фишер предложил его как «удобный» в 1925 году1. Для физики используют 5σ (p ≈ 0.0000003). Для медицины иногда 0.01. Контекст определяет порог — не наоборот.

Два p-value, которые обманывают:

p = 0.049 и p = 0.051 — статистически «разные». Реально — практически одинаковые.
p < 0.001 при n = 1 000 000 — статистически значимо при минимальном эффекте. Большая выборка делает любой эффект «значимым»2.