null
эссе · статистика · ловушки · ~6 минут · 2026.05

Закон малых чисел.

три успеха подряд — это паттерн или случайность? мозг говорит паттерн. статистика говорит — недостаточно данных.

темавероятность · выборка · когнитивные ошибки · статистика
читать~6 минут
связаноошибка игрока · базовая частота · A/B · регрессия

Канеман и Тверски в 1971 году описали когнитивную ошибку которую назвали «вера в закон малых чисел»1.

Люди ведут себя так как будто маленькая выборка должна быть такой же репрезентативной как большая. Как будто 3 из 5 — это то же самое что 300 из 500. Это не так.

дисперсия и размер выборки

Монетка. 10 бросков. Выпало 8 орлов. Кажется странным. Монетка нечестная? Вероятность получить 8+ орлов из 10 при честной монетке: около 5.5%. Редко — но не невероятно.

Та же монетка. 1000 бросков. Выпало 800 орлов. Вероятность: практически ноль. Монетка почти наверняка нечестная. Один и тот же «перекос» — 80% орлов. Разный вывод — потому что разный размер выборки.

стандартная ошибка пропорции: σ = √(p(1−p)/n)4
при n=10: σ ≈ 0.158 — разброс огромный.
при n=1000: σ ≈ 0.016 — разброс маленький.

Маленькая выборка — большая дисперсия. Экстремальные результаты нормальны и ожидаемы. Не потому что что-то особенное. Просто потому что данных мало.

кластеры рака

В маленьком городе внезапно много случаев рака. Жители требуют расследования — завод? вода? излучение? Часто ответ другой: случайный кластер2. При достаточном числе маленьких городов в некоторых из них заболеваемость будет выше среднего — просто по законам случайности.

Это не значит что расследовать не нужно. Это значит что маленькая выборка создаёт кластеры которые выглядят как паттерны но являются шумом. Тверски и Канеман назвали это «законом малых чисел» по аналогии с законом больших чисел — но с иронией. Никакого закона нет. Есть только иллюзия паттерна.

лучшие школы — маленькие школы

Билл Гейтс и фонд Gates Foundation в 2000-х инвестировали миллиарды в создание маленьких школ3. Исследование показало: среди лучших школ США непропорционально много маленьких. Вывод казался очевидным: маленький размер = качество. Личное внимание. Сплочённость. Гибкость.

Проблема: среди худших школ тоже непропорционально много маленьких. Просто об этом не написали в отчёте.

Маленькие школы — высокая дисперсия результатов. Большие школы — результаты ближе к среднему. Закон малых чисел в действии. Фонд потратил более $2 млрд прежде чем это поняли.

в продуктовой аналитике

Новая фича. Первые три дня — конверсия +20%. Срочно масштабируем? Три дня — маленькая выборка. При высокой дисперсии ежедневной конверсии три хороших дня подряд — вполне вероятный шум.

Правило: чем меньше выборка — тем больше должен быть эффект чтобы быть значимым. При n=100 нужен эффект ~20% чтобы быть уверенным. При n=10 000 достаточно эффекта ~2%. Именно поэтому в A/B тестах считают минимальный размер выборки до запуска — а не смотрят на результат когда надоело ждать.

как защититься

Считай размер выборки до — не после. Определи минимальный детектируемый эффект. Посчитай сколько нужно данных. Дождись.

Смотри на доверительный интервал — не только на точечную оценку. 3 из 5 = 60% [15%, 95%]. 300 из 500 = 60% [55.7%, 64.2%]. Одна и та же точка. Разные интервалы.

Задавай вопрос: а каков был бы результат если бы эффекта не было? Мог ли случайный шум объяснить то что я вижу? Три успеха подряд — это данные. Но не достаточно данных чтобы делать выводы. Продолжай собирать.

«нам нужно больше данных» — это не уклонение от ответа. это единственно честный ответ когда выборка мала.
— адаптация