| формулировка | a/b > c/d и e/f > g/h, но (a+e)/(b+f) < (c+g)/(d+h) |
| открыт | Эдвард Симпсон · 1951 · известен раньше |
| причина | скрытая переменная (confounder), искажающая агрегацию |
| применение | медицинские исследования · спортивная статистика · найм |
| опасность | неправильная агрегация меняет вывод на противоположный |
| связано | статистика · вероятность · натуральные числа |
Когда данные говорят обратное.
препарат A эффективнее препарата B для мужчин. и для женщин. но в целом — хуже. это не ошибка, это парадокс Симпсона.
В 1973 году Калифорнийский университет в Беркли обвинили в дискриминации женщин при поступлении. Данные казались очевидными: мужчин принимали в 44% случаев, женщин — в 35%. Разрыв в девять процентных пунктов. Дискриминация?
Исследователи изучили данные по факультетам и обнаружили обратное: по большинству факультетов женщин принимали с той же или большей вероятностью, чем мужчин. Парадокс? Нет — парадокс Симпсона1.
Объяснение оказалось простым. Женщины чаще подавали заявления на конкурентные факультеты с низким процентом приёма (например, английская филология). Мужчины — на факультеты с высоким процентом приёма (инженерия). Агрегированная статистика создала иллюзию дискриминации, которой на уровне отдельных факультетов не было.
Данные не лгут. Но агрегация данных лжёт охотно.
Математический пример. Препарат A помогает 70 из 100 мужчин (70%) и 10 из 20 женщин (50%). Препарат B — 20 из 40 мужчин (50%) и 65 из 100 женщин (65%). По мужчинам A лучше (70% против 50%); по женщинам B лучше (65% против 50%). А что в сумме? A: 80 / 120 = 66.7%. B: 85 / 140 = 60.7%. В сумме A лучше.
Поменяйте размеры подгрупп — и направление неравенства может развернуться. Это и есть суть парадокса: знак неравенства между подгруппами и знак неравенства между агрегатами могут быть противоположны, если веса подгрупп распределены по-разному.
Где это критично:
Клинические испытания. Если не стратифицировать по возрасту, полу или сопутствующим заболеваниям — препарат может выглядеть лучше или хуже, чем есть на самом деле. FDA с 1970-х требует обязательной стратификации именно из-за этой причины.
Спортивная статистика. Дерек Джетер уступал Дэвиду Джастису по batting average каждый сезон с 1995 по 1997 год — но выиграл по итоговому трёхлетнему среднему2. Тот же феномен.
Алгоритмы найма и принятия решений. Система может казаться нейтральной по агрегату и при этом дискриминировать на уровне подгрупп — или наоборот. Это уже не теоретическая угроза: ML-модели регулярно демонстрируют такие эффекты.
Защита одна — всегда смотреть на подгруппы. Агрегированная статистика может скрывать confounding variable, скрытую переменную, которая одновременно влияет и на распределение наблюдений, и на интересующий нас результат3. Без анализа структуры данных любой вывод из агрегатов — гадание.
редактируй любые числа — таблица пересчитывается автоматически.
| мужчины | женщины | итого | |
|---|---|---|---|
| препарат A | / 70% |
/ 50% |
80 / 120 66.7% |
| препарат B | / 50% |
/ 65% |
85 / 140 60.7% |