null
задача · №002
парадокс Симпсона
группа A лучше B в каждой подгруппе — но хуже в целом
формулировкаa/b > c/d и e/f > g/h, но (a+e)/(b+f) < (c+g)/(d+h)
открытЭдвард Симпсон · 1951 · известен раньше
причинаскрытая переменная (confounder), искажающая агрегацию
применениемедицинские исследования · спортивная статистика · найм
опасностьнеправильная агрегация меняет вывод на противоположный
связаностатистика · вероятность · натуральные числа

эссе · 580 слов · 5 мин

Когда данные говорят обратное.

препарат A эффективнее препарата B для мужчин. и для женщин. но в целом — хуже. это не ошибка, это парадокс Симпсона.

В 1973 году Калифорнийский университет в Беркли обвинили в дискриминации женщин при поступлении. Данные казались очевидными: мужчин принимали в 44% случаев, женщин — в 35%. Разрыв в девять процентных пунктов. Дискриминация?

Исследователи изучили данные по факультетам и обнаружили обратное: по большинству факультетов женщин принимали с той же или большей вероятностью, чем мужчин. Парадокс? Нет — парадокс Симпсона1.

Объяснение оказалось простым. Женщины чаще подавали заявления на конкурентные факультеты с низким процентом приёма (например, английская филология). Мужчины — на факультеты с высоким процентом приёма (инженерия). Агрегированная статистика создала иллюзию дискриминации, которой на уровне отдельных факультетов не было.

Данные не лгут. Но агрегация данных лжёт охотно.

Математический пример. Препарат A помогает 70 из 100 мужчин (70%) и 10 из 20 женщин (50%). Препарат B — 20 из 40 мужчин (50%) и 65 из 100 женщин (65%). По мужчинам A лучше (70% против 50%); по женщинам B лучше (65% против 50%). А что в сумме? A: 80 / 120 = 66.7%. B: 85 / 140 = 60.7%. В сумме A лучше.

Поменяйте размеры подгрупп — и направление неравенства может развернуться. Это и есть суть парадокса: знак неравенства между подгруппами и знак неравенства между агрегатами могут быть противоположны, если веса подгрупп распределены по-разному.

Где это критично:

Клинические испытания. Если не стратифицировать по возрасту, полу или сопутствующим заболеваниям — препарат может выглядеть лучше или хуже, чем есть на самом деле. FDA с 1970-х требует обязательной стратификации именно из-за этой причины.

Спортивная статистика. Дерек Джетер уступал Дэвиду Джастису по batting average каждый сезон с 1995 по 1997 год — но выиграл по итоговому трёхлетнему среднему2. Тот же феномен.

Алгоритмы найма и принятия решений. Система может казаться нейтральной по агрегату и при этом дискриминировать на уровне подгрупп — или наоборот. Это уже не теоретическая угроза: ML-модели регулярно демонстрируют такие эффекты.

Защита одна — всегда смотреть на подгруппы. Агрегированная статистика может скрывать confounding variable, скрытую переменную, которая одновременно влияет и на распределение наблюдений, и на интересующий нас результат3. Без анализа структуры данных любой вывод из агрегатов — гадание.


// симуляция

редактируй любые числа — таблица пересчитывается автоматически.

мужчины женщины итого
препарат A /
70%
/
50%
80 / 120
66.7%
препарат B /
50%
/
65%
85 / 140
60.7%
по мужчинам: A лучше
по женщинам: B лучше
в целом: A лучше