Закон Бенфорда.
в реальных данных первая цифра числа — не случайна. единица встречается в 30% случаев. девятка — в 5%. это используют для поиска мошенников.
| тема | статистика · распределения · детектирование аномалий |
| читать | ~6 минут |
| связано | нормальное распределение · парадоксы вероятностей · A/B |
В 1881 году астроном Саймон Ньюком заметил странную вещь1. Первые страницы логарифмических таблиц были значительно более потрёпаны чем последние. Люди чаще искали числа начинающиеся с 1 чем числа начинающиеся с 9.
В 1938 году физик Фрэнк Бенфорд проверил это на 20 229 реальных числах2 из совершенно разных источников: площади рек, числа из журнала Reader's Digest, молекулярные веса, данные переписи населения, бейсбольная статистика.
Результат был одинаковым везде. Первая цифра распределена неравномерно. Единица встречается в ~30% случаев. Двойка — в ~17.6%. И так далее по убывающей. Девятка — лишь в ~4.6%.
P(1) = log₁₀(2) ≈ 0.301
P(2) = log₁₀(3/2) ≈ 0.176
P(9) = log₁₀(10/9) ≈ 0.046
Интуиция: если числа растут экспоненциально — они проводят больше времени в начале каждого порядка. Деньги на счету: начинаешь с $1000. Чтобы дойти до $2000 — нужно вырасти на 100%. Чтобы с $2000 дойти до $3000 — ещё 50%. С $9000 до $10000 — всего 11%.
При любом темпе роста счёт проводит больше времени с ведущей цифрой 1 чем с ведущей цифрой 9. Закон Бенфорда работает для данных которые: охватывают несколько порядков величины, не ограничены искусственно, являются результатом мультипликативных процессов.
Цены акций, численность населения, длины рек, финансовые транзакции — всё это подчиняется закону Бенфорда. Телефонные номера, PIN-коды, рост людей — не подчиняются. Они ограничены.
Если данные должны подчиняться закону Бенфорда — но не подчиняются — это красный флаг. Мошенники при фальсификации данных обычно выбирают «случайные» числа. Но интуитивно «случайные» числа распределены равномерно по первым цифрам. Закон Бенфорда — нет.
IRS (налоговая служба США) использует анализ Бенфорда для выявления фальсификаций в налоговых декларациях с 1990-х годов. В 1995 году Марк Ниграни3 — бухгалтер и статистик — разработал специфические тесты на основе закона Бенфорда для аудиторских проверок. Сейчас это стандарт индустрии.
Выборы в Иране 2009 года — анализ Бенфорда показал аномалии в официальных результатах. Финансовая отчётность Enron — распределение первых цифр отличалось от ожидаемого.4
Греческие данные для вступления в еврозону — подозрительно равномерное распределение.
Закон Бенфорда — не универсален. Он не работает для: данных с ограниченным диапазоном (рост людей 150–200 см), данных равномерно распределённых (номера лотерейных билетов), данных специально округлённых (зарплаты кратные 1000), маленьких выборок.
Аномалия по Бенфорду — не доказательство мошенничества. Это сигнал для более глубокого изучения. Как положительный тест — повод для расследования, не приговор.
Суммы транзакций в e-commerce должны подчиняться закону Бенфорда. Если нет — возможно: тестовые транзакции не убраны, данные обрезаны по какому-то порогу, или что-то нестандартное в бизнес-логике.
Количество действий пользователей в день — тоже кандидат для проверки. Равномерное распределение первых цифр может означать синтетические данные или боты. Простая проверка: сгруппируй по первой цифре. Сравни с теоретическим распределением Бенфорда. Это занимает пять минут в SQL. И иногда находит очень интересные вещи.
«аномалия в первой цифре — это не доказательство. это приглашение к вопросу.»
— Марк Ниграни · Digital Analysis Using Benford's Law · 2000