Парадокс Симпсона.
лечение А лучше лечения Б в каждой подгруппе. но хуже в целом. это не ошибка в данных. это парадокс Симпсона.
| тема | статистика · каузальность · агрегация · ловушки анализа |
| читать | ~7 минут |
| связано | базовая частота · искажения · A/B · каузальность |
В 1973 году Калифорнийский университет Беркли обвинили в дискриминации женщин при поступлении1. Данные казались убедительными: мужчин принимали в 44% случаев, женщин — в 35%.
Исследователи изучили данные по факультетам. И обнаружили нечто странное. На большинстве факультетов женщин принимали с такой же или более высокой вероятностью чем мужчин. Как может агрегированная статистика показывать дискриминацию когда каждая подгруппа её не показывает? Это парадокс Симпсона.
Объяснение Беркли: женщины чаще подавали на конкурентные факультеты — английский, история, где процент принятых низкий для всех. Мужчины чаще подавали на менее конкурентные — инженерные, где процент принятых высокий для всех. Агрегированная статистика смешивала две разные популяции. Конфаундер — выбор факультета — коррелировал и с полом и с вероятностью принятия.
НО P(принят | мужчина, факультет X) ≤ P(принят | женщина, факультет X)
для каждого факультета X.
Оба утверждения верны одновременно. Это не противоречие в данных. Это математический факт при неравномерном распределении по подгруппам.
Классический медицинский пример — исследование 1986 года2. Два метода лечения камней в почках.
Метод B малые: 87% (234/270) · крупные: 69% (55/80)
A лучше в обеих подгруппах.
агрегат A: 78% (273/350) · B: 83% (289/350) — B выглядит лучше.
Почему? Конфаундер — тяжесть случая. Врачи чаще назначали более серьёзный метод A пациентам с крупными камнями. Крупные камни лечатся хуже — независимо от метода. Это и перевернуло агрегированную статистику.
Парадокс Симпсона возникает когда: есть переменная (конфаундер) которая коррелирует и с группой и с исходом, и группы неравномерно распределены по конфаундеру3. Без конфаундера — парадокса нет. Найди конфаундер — поймёшь реальную картину.
Это делает парадокс Симпсона прямым аргументом за контролируемый эксперимент: рандомизация устраняет конфаундеры по определению. Именно поэтому A/B тест мощнее ретроспективного анализа.
Метрика retention выросла после редизайна. Смотришь детально: у новых пользователей упала, у старых — выросла. Но новых пользователей после редизайна стало больше. Они «перевесили» в агрегате. Агрегированный retention вырос. Retention для каждой когорты упал или не изменился. Парадокс Симпсона.
Другой пример: конверсия в целом по сайту выросла. По каналам привлечения — упала в каждом. Просто изменился микс каналов: стало больше органики с высокой конверсией.
Правило: всегда сегментируй. Агрегированная метрика — это начало анализа, не его конец. Спрашивай: у кого выросло? у кого упало? что изменилось в составе групп?
1. Найди потенциальные конфаундеры — переменные которые могут коррелировать и с группой и с исходом. 2. Стратифицируй — смотри на результаты внутри однородных подгрупп. 3. Рандомизируй — если возможно. Случайное назначение разрывает связь между конфаундером и группой4.
Парадокс Симпсона — не баг статистики. Это сигнал что в данных есть структура которую ты ещё не увидел.
«агрегированные данные скрывают больше чем показывают.»
— адаптация из Judea Pearl · The Book of Why · 2018