| обозначение | r (Пирсон) · ρ (Спирмен) · −1 ≤ r ≤ 1 |
| определение | r = cov(X, Y) / (σₓ · σᵧ) |
| ввёл | Фрэнсис Гальтон · 1888; формализовал Карл Пирсон · 1896 |
| свойства | ловит только линейную связь · симметрична · безразмерна · из неё не следует причинность |
| связано | дисперсия · условная вероятность · регрессия к среднему · размер эффекта |
Движутся вместе — не значит связаны.
корреляция измеряет, насколько две величины меняются согласованно. и почти всегда её читают неправильно.
Коэффициент корреляции r — это одно число от −1 до +1. Плюс единица: когда одна величина растёт, другая растёт идеально пропорционально. Минус единица: одна растёт — другая так же ровно падает. Ноль: линейной связи нет. Считается просто — это ковариация двух величин, нормированная на их разбросы1: насколько они колеблются вместе, поделённое на то, насколько каждая колеблется сама по себе.
Звучит безобидно. Но в этом числе спрятаны три ловушки, на которых горят даже профессионалы.
Первая: r ловит только прямую линию. Коэффициент Пирсона видит линейную связь и слеп ко всему остальному. Можно построить идеальную параболу — связь очевидная, жёсткая, детерминированная — а r будет около нуля. Знаменитый квартет Энскомба: четыре набора данных с одинаковыми r, средними и дисперсиями, но на графике они выглядят совершенно по-разному — облако, кривая, прямая с одним выбросом. Мораль: сначала рисуй график, потом считай r. Одно число прячет форму2.
Вторая, главная: корреляция — не причинность. То, что две величины движутся вместе, не значит, что одна вызывает другую. Возможны минимум четыре объяснения: A вызывает B; B вызывает A; их обоих вызывает скрытое C; или это вообще случайное совпадение. Классика: летом растут и продажи мороженого, и число утоплений. Корреляция высокая. Но мороженое не топит людей — обе величины гонит вверх жара. Жара здесь — скрытая третья переменная, confounder, и именно она создаёт иллюзию связи между мороженым и водой.
Корреляция отвечает на вопрос «связаны ли?». На вопрос «вызывает ли?» она не отвечает никогда. Спутать их — самая дорогая ошибка в анализе данных.
Третья: совпадение масштабируется. Если перебрать достаточно много пар величин, какие-то скоррелируют сильно просто случайно. Есть целая коллекция абсурдных корреляций — потребление сыра и смерти от запутывания в простынях, число фильмов с Николасом Кейджем и утопления в бассейнах. Числа реальны, r высокий, смысла ноль. Чем больше переменных перебираешь, тем больше ложных связей всплывёт3.
Почему мозг так легко принимает корреляцию за причину? Потому что видеть причинно-следственные связи — древний инстинкт выживания: «зашуршало → хищник → беги». Эволюции было выгоднее ложно увидеть причину там, где её нет, чем пропустить настоящую. Мы унаследовали машину, которая лепит причинность на любую согласованность, — и теперь читаем ею дашборды.
Что с этим делать. Корреляция — это повод копать, а не вывод. Нашёл связь — спроси: что может быть скрытой третьей переменной? в какую сторону стрелка? а если это просто шум на большом переборе? Установить причину можно по сути одним способом — вмешаться: рандомизированный эксперимент, A/B-тест, где ты сам меняешь причину и смотришь на следствие. Поэтому A/B-тест и есть золотой стандарт: он превращает «движутся вместе» в «одно вызывает другое».