null
N
вероятность · №004
центральная предельная теорема
CLT · почему нормальное распределение везде · основа статистики
обозначениеCLT (Central Limit Theorem)
формулировкапри n → ∞ сумма независимых одинаково распределённых случайных величин → N(nμ, nσ²)
условиянезависимость · конечные μ и σ²
ввелиМуавр · 1733 · Лаплас · 1812 · Ляпунов · 1901
связаноEV · дисперсия · p-value · нормальное распределение
// развёрнуто в эссеЦентральная предельная теорема
эссе · ~400 слов · 3 мин

Почему нормальное распределение везде.

сумма многих независимых факторов всегда стремится к нормальному распределению.

Рост людей, ошибки измерений, доходности активов — всё приблизительно нормально распределено. Почему? Потому что это суммы многих независимых факторов. Центральная предельная теорема (CLT) объясняет это.

Формально: возьми n независимых одинаково распределённых случайных величин X₁, X₂, …, Xₙ с E[X] = μ и Var(X) = σ². Их сумма Sn при n → ∞ стремится к N(nμ, nσ²). Среднее x̄ = Sn/n стремится к N(μ, σ²/n)12.

Что поразительно: исходное распределение не важно. Равномерное, экспоненциальное, биномиальное — не важно. Сумма всё равно будет нормальной.

Практически: уже при n = 30 приближение хорошее для большинства распределений. Для очень скошенных нужно больше.

В A/B-тестировании CLT — это причина, по которой работают t-тесты. Мы не знаем распределение конверсии пользователя. Но среднее по выборке нормально при достаточном n. Поэтому можно строить доверительные интервалы и p-value.

CLT объясняет, почему EV + дисперсия — достаточные характеристики для больших выборок. Нормальное распределение полностью определяется двумя параметрами: μ и σ².

Важное исключение: CLT не работает для распределений с бесконечной дисперсией — например, для распределения Коши3. Там среднее не стабилизируется, сколько данных ни собирай.