null
эссе · статистика · ловушки · ~8 минут · 2026.05

Регрессия к среднему.

лучший игрок сезона в следующем играет хуже. худший студент после дополнительных занятий улучшается. новый CEO после провального квартала показывает рост. это не заслуга и не вина. это математика.

темастатистика · ошибки интерпретации · каузальность
читать~8 минут
связаноA/B тестирование · каузальность · байесовский вывод · EV
// коротко и с формулой → объектрегрессия к среднему · →x̄

Фрэнсис Гальтон в 1886 году изучал рост отцов и сыновей1. Он ожидал что высокие отцы будут иметь высоких сыновей. Так и было — но не полностью. Сыновья очень высоких отцов были выше среднего, но не такими высокими как отцы. Сыновья очень низких отцов были ниже среднего, но не такими низкими как отцы. Гальтон назвал это «regression towards mediocrity». Сегодня — регрессия к среднему.

механизм

Механизм прост. Любой экстремальный результат — это сигнал плюс шум. Очень высокий рост отца = генетика (сигнал) + случайность (шум). У сына будет та же генетика — но его собственный шум. В среднем шум сына не совпадёт с шумом отца. Результат ближе к среднему.

Формально: если X и Y коррелируют с ρ < 1, то для экстремального X предсказанное Y:

Ŷ = μ_Y + ρ × σ_Y/σ_X × (X − μ_X)
ρ = 1 идеальное предсказание, нет регрессии.
ρ = 0 предсказание = среднее, максимальная регрессия.
ρ = 0.5 экстремум регрессирует к среднему наполовину.
ловушка аналитика

Команда плохо работала в Q3 — менеджер провёл тренинг. В Q4 команда работала лучше. Вывод: тренинг помог. Возможно. Но возможно — регрессия к среднему. Q3 был экстремально плохим не только из-за реальных проблем но и из-за случайного шума. Q4 был бы лучше и без тренинга.

Это называется regression to the mean fallacy. Мы видим вмешательство → улучшение и приписываем улучшение вмешательству. Но корреляция и каузальность — разные вещи.

спорт

Обложка Sports Illustrated: игрок на пике формы. Следующий сезон — хуже. «Проклятие обложки Sports Illustrated»2. Никакого проклятия. Регрессия к среднему. На обложку попадают в момент экстремального пика. Экстремум + регрессия = следующий результат ближе к среднему.

медицина

Пациент идёт к врачу когда ему плохо — в момент экстремума. После лечения ему лучше. Плацебо-эффект частично — регрессия к среднему. Поэтому нужны контрольные группы. Рандомизированный эксперимент нейтрализует регрессию.

продуктовая аналитика

Смотришь на когорту с худшим retention. Запускаешь специальную кампанию для них. Retention вырастает. Это retention вырос потому что кампания помогла? Или потому что ты выбрал экстремально плохую когорту и она в любом случае вернулась бы ближе к среднему?

Канеман про регрессию: пилоты которых хвалили — ухудшались, которых ругали — улучшались. Иллюзия что наказание работает лучше поощрения. На самом деле — регрессия.3
как отличить регрессию от реального эффекта

1. Контрольная группа — сравни с когортой которая не получила кампанию. 2. Рандомизация — назначай случайно, не по результату. 3. Длинная история — посмотри как вела себя когорта до вмешательства. 4. Размер выборки — маленькая выборка = большой шум = больше регрессии4.

Регрессия к среднему — не баг статистики. Это математическое следствие того что мир шумный. Шум случаен. Случайность в среднем нейтральна. Экстремумы содержат больше шума чем обычные наблюдения. Поэтому следующее наблюдение ближе к среднему.

Понимание этого делает аналитика честным. Прежде чем приписать улучшение своим действиям — спроси: а не было ли хуже просто потому что был шум?

«регрессия к среднему — самая распространённая и наименее понятая закономерность в статистике.»
— Даниэль Канеман · «Думай медленно, решай быстро» · 2011