Закон малых чисел.
три успеха подряд — это паттерн или случайность? мозг говорит паттерн. статистика говорит — недостаточно данных.
| тема | вероятность · выборка · когнитивные ошибки · статистика |
| читать | ~6 минут |
| связано | ошибка игрока · базовая частота · A/B · регрессия |
Канеман и Тверски в 1971 году описали когнитивную ошибку которую назвали «вера в закон малых чисел»1.
Люди ведут себя так как будто маленькая выборка должна быть такой же репрезентативной как большая. Как будто 3 из 5 — это то же самое что 300 из 500. Это не так.
Монетка. 10 бросков. Выпало 8 орлов. Кажется странным. Монетка нечестная? Вероятность получить 8+ орлов из 10 при честной монетке: около 5.5%. Редко — но не невероятно.
Та же монетка. 1000 бросков. Выпало 800 орлов. Вероятность: практически ноль. Монетка почти наверняка нечестная. Один и тот же «перекос» — 80% орлов. Разный вывод — потому что разный размер выборки.
при n=10: σ ≈ 0.158 — разброс огромный.
при n=1000: σ ≈ 0.016 — разброс маленький.
Маленькая выборка — большая дисперсия. Экстремальные результаты нормальны и ожидаемы. Не потому что что-то особенное. Просто потому что данных мало.
В маленьком городе внезапно много случаев рака. Жители требуют расследования — завод? вода? излучение? Часто ответ другой: случайный кластер2. При достаточном числе маленьких городов в некоторых из них заболеваемость будет выше среднего — просто по законам случайности.
Это не значит что расследовать не нужно. Это значит что маленькая выборка создаёт кластеры которые выглядят как паттерны но являются шумом. Тверски и Канеман назвали это «законом малых чисел» по аналогии с законом больших чисел — но с иронией. Никакого закона нет. Есть только иллюзия паттерна.
Билл Гейтс и фонд Gates Foundation в 2000-х инвестировали миллиарды в создание маленьких школ3. Исследование показало: среди лучших школ США непропорционально много маленьких. Вывод казался очевидным: маленький размер = качество. Личное внимание. Сплочённость. Гибкость.
Проблема: среди худших школ тоже непропорционально много маленьких. Просто об этом не написали в отчёте.
Маленькие школы — высокая дисперсия результатов. Большие школы — результаты ближе к среднему. Закон малых чисел в действии. Фонд потратил более $2 млрд прежде чем это поняли.
Новая фича. Первые три дня — конверсия +20%. Срочно масштабируем? Три дня — маленькая выборка. При высокой дисперсии ежедневной конверсии три хороших дня подряд — вполне вероятный шум.
Правило: чем меньше выборка — тем больше должен быть эффект чтобы быть значимым. При n=100 нужен эффект ~20% чтобы быть уверенным. При n=10 000 достаточно эффекта ~2%. Именно поэтому в A/B тестах считают минимальный размер выборки до запуска — а не смотрят на результат когда надоело ждать.
Считай размер выборки до — не после. Определи минимальный детектируемый эффект. Посчитай сколько нужно данных. Дождись.
Смотри на доверительный интервал — не только на точечную оценку. 3 из 5 = 60% [15%, 95%]. 300 из 500 = 60% [55.7%, 64.2%]. Одна и та же точка. Разные интервалы.
Задавай вопрос: а каков был бы результат если бы эффекта не было? Мог ли случайный шум объяснить то что я вижу? Три успеха подряд — это данные. Но не достаточно данных чтобы делать выводы. Продолжай собирать.
«нам нужно больше данных» — это не уклонение от ответа. это единственно честный ответ когда выборка мала.
— адаптация