| обозначение | видимое ≠ вся выборка |
| определение | систематическая ошибка от анализа только «выживших» объектов при невидимости отсеявшихся |
| прославил | Абрахам Вальд · 1943 |
| свойства | искажает любую выборку с отсевом · тем опаснее, чем незаметнее пропавшие · лечится вопросом «кого здесь нет?» |
| связано | дисперсия · размер эффекта · условная вероятность · база |
Бронируй там, где дыр нет.
самая коварная ошибка в работе с данными: делать выводы по тем, кто дошёл до тебя, забыв про тех, кто не дошёл.
Вторая мировая. Американская авиация хочет усилить броню бомбардировщиков, но броня тяжёлая — нельзя бронировать всё. Военные осматривают вернувшиеся самолёты, наносят на схему пробоины и видят: больше всего дыр на крыльях и фюзеляже, меньше — на двигателях. Логичный вывод: бронируй крылья и фюзеляж, там попадают чаще.
Математик Абрахам Вальд сказал: ровно наоборот1. Бронировать надо двигатели — там, где у вернувшихся самолётов пробоин почти нет. Потому что осматривают только тех, кто вернулся. Самолёты, получившие попадание в двигатель, не долетели обратно — их просто нет в выборке. Отсутствие пробоин на двигателях у выживших означает не что туда не попадают, а что попадание туда смертельно. Дыры на вернувшихся — это карта мест, куда можно получить и выжить.
В этом вся ошибка выжившего: ты видишь только тех, кто прошёл фильтр, и судишь по ним обо всех — хотя самое важное часто скрыто в тех, кто фильтр не прошёл и потому невидим.
Самые важные данные — те, которых нет в таблице.
И она повсюду, стоит присмотреться. «Бросившие университет основали Apple и Microsoft — значит, бросай универ» — но мы видим Джобса и Гейтса и не видим миллионы бросивших, которые ничего не основали. «Старые дома такие крепкие, не то что нынешние» — плохие старые дома давно снесли, до нас дошли только лучшие. «Вот стратегия фондов, которые обыграли рынок» — закрывшиеся фонды исчезли из статистики, и средняя доходность «выживших» завышена. Советы миллиардеров, мемуары успешных, рейтинги — почти всё это выборки, очищенные от провала.
Для аналитика это бьёт прямо в данные. Анализируешь активных пользователей — но ушедшие (те, кто и есть главный сигнал проблемы) в выборку не попали. Смотришь на клиентов, доживших до года, и хвалишь продукт — а отвалившиеся на первой неделе молча исчезли. Когортный анализ без учёта отсева систематически рисует картину розовее реальности.
Связь с базовой частотой прямая: и там, и там мозг работает с тем, что видно, и слеп к тому, чего в поле зрения нет. Выжившие — яркие и доступные; погибшие — отсутствуют, а значит, для интуиции их как будто и не было.
Что делать. Перед любым выводом по выборке спроси один вопрос: кого здесь нет? Кто отсеялся до того, как попал в мои данные? Где те, для кого это не сработало? Если у тебя только истории успеха — у тебя нет данных, у тебя есть выжившие. Чтобы понять, что убивает самолёты, надо смотреть не на дыры вернувшихся, а на тех, кто не вернулся.