null
эссе · математика · статистика · ~7 минут · 2026.05

Центральная предельная теорема.

сложи достаточно случайных величин — и получишь нормальное распределение. неважно какое у них исходное распределение. это самый удивительный факт в статистике.

темастатистика · вероятность · распределения
читать~7 минут
связанонормальное распределение · ЗБЧ · A/B · де Муавр
// коротко и с формулой → объектцентральная предельная теорема · N

Брось один кубик. Распределение равномерное — каждое значение от 1 до 6 с вероятностью 1/6. Никакого колокола.

Брось два кубика. Сложи. Уже не равномерное — семёрка выпадает чаще единицы. Треугольное распределение. Брось десять кубиков, сложи — почти идеальный колокол. Сто кубиков — уже неотличимо от нормального распределения.

Исходные кубики не изменились — по-прежнему равномерные от 1 до 6. Но их сумма стремится к нормальному распределению. Это и есть центральная предельная теорема.

формально

Пусть X₁, X₂, …, Xₙ — независимые одинаково распределённые случайные величины с конечным математическим ожиданием μ и дисперсией σ².

при n→∞:
(X₁ + X₂ + … + Xₙ − nμ) / (σ√n) → N(0, 1)

Стандартизованная сумма сходится к стандартному нормальному распределению. Независимо от исходного распределения X. Три условия: независимость, одинаковое распределение, конечная дисперсия. При их выполнении — колокол неизбежен.

история

Первый намёк — де Муавр в 1733 году1. Он заметил что биномиальное распределение при большом n приближается к колоколу. Считал шансы для игроков. Нашёл нормальное распределение.

Лаплас в 1812 году обобщил результат2. Гаусс применил к ошибкам измерений в астрономии. Строгое доказательство — Ляпунов в 1901 году3. Окончательная общая форма — Линдеберг в 1922-м4. Почти 200 лет от первого наблюдения до строгого доказательства.

почему колокол везде

Рост человека — сумма тысяч генетических и средовых факторов. Каждый малый и независимый. ЦПТ предсказывает: нормальное распределение. Так и есть. Ошибки измерений — сумма множества мелких независимых источников погрешности. Нормальное распределение.

IQ тесты, давление крови, урожайность, размер листьев, время реакции — всё, что складывается из многих малых независимых факторов, подчиняется ЦПТ.

Это объясняет почему нормальное распределение так часто встречается в природе. Не потому что природа любит колокол. Потому что природа складывает много малых случайностей.
что ЦПТ не говорит

ЦПТ — про суммы и средние. Не про всё подряд. Доходности финансовых активов — не нормальные. У них тяжёлые хвосты: экстремальные события случаются чаще чем предсказывает нормальное распределение. Это называется толстыми хвостами (fat tails). Taleb написал про это книгу.

Размер городов, богатство людей, число ссылок на веб-страницы — степенные распределения. Не нормальные. ЦПТ не применима когда дисперсия бесконечна. Знать когда ЦПТ работает — так же важно как знать что она работает.

почему это важно для аналитика

A/B тесты работают потому что ЦПТ. Среднее по выборке — нормально распределено при достаточном n даже если исходные данные нет. Поэтому можно строить доверительные интервалы и считать p-value. Это фундамент частотной статистики. Без ЦПТ не было бы t-теста, z-теста, доверительных интервалов в том виде в каком они есть.

Правило большого пальца: n ≥ 30 обычно достаточно для нормального приближения. Но при скошенных распределениях — нужно больше. При бинарных метриках с низкой конверсией — нужно существенно больше.

Каждый раз когда смотришь на доверительный интервал — ты пользуешься результатом де Муавра, Лапласа, Гаусса и Ляпунова. Они считали кубики и ошибки измерений. Результат лежит в основе современной статистики.

«центральная предельная теорема — это теорема которая объясняет почему статистика вообще работает.»
— адаптация из учебников математической статистики