эссе · статистика · парадоксы · ~6 минут · 2026.05

Закон Бенфорда.

в реальных данных первая цифра числа — не случайна. единица встречается в 30% случаев. девятка — в 5%. это используют для поиска мошенников.

тема	статистика · распределения · детектирование аномалий
читать	~6 минут
связано	нормальное распределение · парадоксы вероятностей · A/B

В 1881 году астроном Саймон Ньюком заметил странную вещь1. Первые страницы логарифмических таблиц были значительно более потрёпаны чем последние. Люди чаще искали числа начинающиеся с 1 чем числа начинающиеся с 9.

В 1938 году физик Фрэнк Бенфорд проверил это на 20 229 реальных числах2 из совершенно разных источников: площади рек, числа из журнала Reader's Digest, молекулярные веса, данные переписи населения, бейсбольная статистика.

Результат был одинаковым везде. Первая цифра распределена неравномерно. Единица встречается в ~30% случаев. Двойка — в ~17.6%. И так далее по убывающей. Девятка — лишь в ~4.6%.

P(d) = log₁₀(1 + 1/d) где d — первая цифра от 1 до 9.
P(1) = log₁₀(2) ≈ 0.301
P(2) = log₁₀(3/2) ≈ 0.176
P(9) = log₁₀(10/9) ≈ 0.046

почему так происходит

Интуиция: если числа растут экспоненциально — они проводят больше времени в начале каждого порядка. Деньги на счету: начинаешь с $1000. Чтобы дойти до $2000 — нужно вырасти на 100%. Чтобы с $2000 дойти до $3000 — ещё 50%. С $9000 до $10000 — всего 11%.

При любом темпе роста счёт проводит больше времени с ведущей цифрой 1 чем с ведущей цифрой 9. Закон Бенфорда работает для данных которые: охватывают несколько порядков величины, не ограничены искусственно, являются результатом мультипликативных процессов.

Цены акций, численность населения, длины рек, финансовые транзакции — всё это подчиняется закону Бенфорда. Телефонные номера, PIN-коды, рост людей — не подчиняются. Они ограничены.

детектор лжи для бухгалтеров

Если данные должны подчиняться закону Бенфорда — но не подчиняются — это красный флаг. Мошенники при фальсификации данных обычно выбирают «случайные» числа. Но интуитивно «случайные» числа распределены равномерно по первым цифрам. Закон Бенфорда — нет.

IRS (налоговая служба США) использует анализ Бенфорда для выявления фальсификаций в налоговых декларациях с 1990-х годов. В 1995 году Марк Ниграни3 — бухгалтер и статистик — разработал специфические тесты на основе закона Бенфорда для аудиторских проверок. Сейчас это стандарт индустрии.

Выборы в Иране 2009 года — анализ Бенфорда показал аномалии в официальных результатах. Финансовая отчётность Enron — распределение первых цифр отличалось от ожидаемого.4

Греческие данные для вступления в еврозону — подозрительно равномерное распределение.

ограничения

Закон Бенфорда — не универсален. Он не работает для: данных с ограниченным диапазоном (рост людей 150–200 см), данных равномерно распределённых (номера лотерейных билетов), данных специально округлённых (зарплаты кратные 1000), маленьких выборок.

Аномалия по Бенфорду — не доказательство мошенничества. Это сигнал для более глубокого изучения. Как положительный тест — повод для расследования, не приговор.

в данных продукта

Суммы транзакций в e-commerce должны подчиняться закону Бенфорда. Если нет — возможно: тестовые транзакции не убраны, данные обрезаны по какому-то порогу, или что-то нестандартное в бизнес-логике.

Количество действий пользователей в день — тоже кандидат для проверки. Равномерное распределение первых цифр может означать синтетические данные или боты. Простая проверка: сгруппируй по первой цифре. Сравни с теоретическим распределением Бенфорда. Это занимает пять минут в SQL. И иногда находит очень интересные вещи.

«аномалия в первой цифре — это не доказательство. это приглашение к вопросу.»
— Марк Ниграни · Digital Analysis Using Benford's Law · 2000