| обозначение | CLT (Central Limit Theorem) |
| формулировка | при n → ∞ сумма независимых одинаково распределённых случайных величин → N(nμ, nσ²) |
| условия | независимость · конечные μ и σ² |
| ввели | Муавр · 1733 · Лаплас · 1812 · Ляпунов · 1901 |
| связано | EV · дисперсия · p-value · нормальное распределение |
Почему нормальное распределение везде.
сумма многих независимых факторов всегда стремится к нормальному распределению.
Рост людей, ошибки измерений, доходности активов — всё приблизительно нормально распределено. Почему? Потому что это суммы многих независимых факторов. Центральная предельная теорема (CLT) объясняет это.
Формально: возьми n независимых одинаково распределённых случайных величин X₁, X₂, …, Xₙ с E[X] = μ и Var(X) = σ². Их сумма Sn при n → ∞ стремится к N(nμ, nσ²). Среднее x̄ = Sn/n стремится к N(μ, σ²/n)12.
Что поразительно: исходное распределение не важно. Равномерное, экспоненциальное, биномиальное — не важно. Сумма всё равно будет нормальной.
Практически: уже при n = 30 приближение хорошее для большинства распределений. Для очень скошенных нужно больше.
В A/B-тестировании CLT — это причина, по которой работают t-тесты. Мы не знаем распределение конверсии пользователя. Но среднее по выборке нормально при достаточном n. Поэтому можно строить доверительные интервалы и p-value.
CLT объясняет, почему EV + дисперсия — достаточные характеристики для больших выборок. Нормальное распределение полностью определяется двумя параметрами: μ и σ².
Важное исключение: CLT не работает для распределений с бесконечной дисперсией — например, для распределения Коши3. Там среднее не стабилизируется, сколько данных ни собирай.