| обозначение | CI (confidence interval) · [L, U] |
| определение | интервал, построенный по процедуре, которая в 95% случаев содержит истинный параметр |
| ввёл | Jerzy Neyman · 1937 |
| формула | x̄ ± zα/2 · σ/√n |
| стандарт | 95% CI → z = 1.96 · 99% CI → z = 2.576 |
| НЕ является | интервалом, где параметр находится с вероятностью 95% |
| связано | p-value · размер эффекта · A/B тестирование |
Что доверительный интервал не означает.
самое распространённое заблуждение в статистике.
95% доверительный интервал — это НЕ интервал, в котором истинный параметр находится с вероятностью 95%. Самое распространённое заблуждение в статистике.
Формально: 95% CI — это процедура. Если повторить эксперимент много раз и каждый раз строить CI по той же процедуре — 95% таких интервалов будут содержать истинный параметр1.
Истинный параметр θ — фиксированное число. Не случайная величина. Конкретный построенный интервал [L, U] либо содержит θ, либо нет. Вероятность 95% — свойство процедуры, не конкретного интервала.
«95% интервалов из 100 экспериментов содержат истинное значение» — это правильная интерпретация. «Параметр в этом интервале с вероятностью 95%» — неправильная.
Практически: чем уже CI, тем точнее оценка. Ширина CI зависит от размера выборки (√n в знаменателе), дисперсии данных и уровня доверия.
Байесовский аналог — credible interval. «Параметр с вероятностью 95% находится в [L, U]» — это credible interval, не confidence interval2. Требует prior. Зато интерпретируется так, как хочется.