Центральная предельная теорема.
сложи достаточно случайных величин — и получишь нормальное распределение. неважно какое у них исходное распределение. это самый удивительный факт в статистике.
| тема | статистика · вероятность · распределения |
| читать | ~7 минут |
| связано | нормальное распределение · ЗБЧ · A/B · де Муавр |
Брось один кубик. Распределение равномерное — каждое значение от 1 до 6 с вероятностью 1/6. Никакого колокола.
Брось два кубика. Сложи. Уже не равномерное — семёрка выпадает чаще единицы. Треугольное распределение. Брось десять кубиков, сложи — почти идеальный колокол. Сто кубиков — уже неотличимо от нормального распределения.
Исходные кубики не изменились — по-прежнему равномерные от 1 до 6. Но их сумма стремится к нормальному распределению. Это и есть центральная предельная теорема.
Пусть X₁, X₂, …, Xₙ — независимые одинаково распределённые случайные величины с конечным математическим ожиданием μ и дисперсией σ².
(X₁ + X₂ + … + Xₙ − nμ) / (σ√n) → N(0, 1)
Стандартизованная сумма сходится к стандартному нормальному распределению. Независимо от исходного распределения X. Три условия: независимость, одинаковое распределение, конечная дисперсия. При их выполнении — колокол неизбежен.
Первый намёк — де Муавр в 1733 году1. Он заметил что биномиальное распределение при большом n приближается к колоколу. Считал шансы для игроков. Нашёл нормальное распределение.
Лаплас в 1812 году обобщил результат2. Гаусс применил к ошибкам измерений в астрономии. Строгое доказательство — Ляпунов в 1901 году3. Окончательная общая форма — Линдеберг в 1922-м4. Почти 200 лет от первого наблюдения до строгого доказательства.
Рост человека — сумма тысяч генетических и средовых факторов. Каждый малый и независимый. ЦПТ предсказывает: нормальное распределение. Так и есть. Ошибки измерений — сумма множества мелких независимых источников погрешности. Нормальное распределение.
IQ тесты, давление крови, урожайность, размер листьев, время реакции — всё, что складывается из многих малых независимых факторов, подчиняется ЦПТ.
Это объясняет почему нормальное распределение так часто встречается в природе. Не потому что природа любит колокол. Потому что природа складывает много малых случайностей.
ЦПТ — про суммы и средние. Не про всё подряд. Доходности финансовых активов — не нормальные. У них тяжёлые хвосты: экстремальные события случаются чаще чем предсказывает нормальное распределение. Это называется толстыми хвостами (fat tails). Taleb написал про это книгу.
Размер городов, богатство людей, число ссылок на веб-страницы — степенные распределения. Не нормальные. ЦПТ не применима когда дисперсия бесконечна. Знать когда ЦПТ работает — так же важно как знать что она работает.
A/B тесты работают потому что ЦПТ. Среднее по выборке — нормально распределено при достаточном n даже если исходные данные нет. Поэтому можно строить доверительные интервалы и считать p-value. Это фундамент частотной статистики. Без ЦПТ не было бы t-теста, z-теста, доверительных интервалов в том виде в каком они есть.
Правило большого пальца: n ≥ 30 обычно достаточно для нормального приближения. Но при скошенных распределениях — нужно больше. При бинарных метриках с низкой конверсией — нужно существенно больше.
Каждый раз когда смотришь на доверительный интервал — ты пользуешься результатом де Муавра, Лапласа, Гаусса и Ляпунова. Они считали кубики и ошибки измерений. Результат лежит в основе современной статистики.
«центральная предельная теорема — это теорема которая объясняет почему статистика вообще работает.»
— адаптация из учебников математической статистики