CLT — null/objects/statistics

вероятность · №004

центральная предельная теорема

CLT · почему нормальное распределение везде · основа статистики

обозначение	CLT (Central Limit Theorem)
формулировка	при n → ∞ сумма независимых одинаково распределённых случайных величин → N(nμ, nσ²)
условия	независимость · конечные μ и σ²
ввели	Муавр · 1733 · Лаплас · 1812 · Ляпунов · 1901
связано	EV · дисперсия · p-value · нормальное распределение

// развёрнуто в эссеЦентральная предельная теорема→

эссе · ~400 слов · 3 мин

Почему нормальное распределение везде.

сумма многих независимых факторов всегда стремится к нормальному распределению.

Рост людей, ошибки измерений, доходности активов — всё приблизительно нормально распределено. Почему? Потому что это суммы многих независимых факторов. Центральная предельная теорема (CLT) объясняет это.

Формально: возьми n независимых одинаково распределённых случайных величин X₁, X₂, …, Xₙ с E[X] = μ и Var(X) = σ². Их сумма S_n при n → ∞ стремится к N(nμ, nσ²). Среднее x̄ = S_n/n стремится к N(μ, σ²/n)12.

Что поразительно: исходное распределение не важно. Равномерное, экспоненциальное, биномиальное — не важно. Сумма всё равно будет нормальной.

Практически: уже при n = 30 приближение хорошее для большинства распределений. Для очень скошенных нужно больше.

В A/B-тестировании CLT — это причина, по которой работают t-тесты. Мы не знаем распределение конверсии пользователя. Но среднее по выборке нормально при достаточном n. Поэтому можно строить доверительные интервалы и p-value.

CLT объясняет, почему EV + дисперсия — достаточные характеристики для больших выборок. Нормальное распределение полностью определяется двумя параметрами: μ и σ².

Важное исключение: CLT не работает для распределений с бесконечной дисперсией — например, для распределения Коши3. Там среднее не стабилизируется, сколько данных ни собирай.

[1] Де Муавр, 1733 — первая версия CLT для биномиального распределения (теорема Муавра–Лапласа).

[2] Александр Ляпунов, 1901 — строгое доказательство в общем случае (условие Ляпунова на третьи моменты).

[3] CLT не работает для распределений с бесконечной дисперсией (например, распределение Коши). Среднее n наблюдений Коши имеет то же распределение Коши — не сходится к нормальному.