null
визуал · №015
закон Бенфорда
первые цифры чисел в «природных» данных распределены не равномерно. цифра 1 встречается в 6 раз чаще цифры 9.

данные
набор
фибоначчи
— чисел
отклонение от закона

формула

P(d) = log₁₀(1 + 1/d)

P(1) ≈ 30.1% · P(2) ≈ 17.6% · P(3) ≈ 12.5% · … · P(9) ≈ 4.6%. Сумма = 1.

Закон выводится из инвариантности относительно смены единиц: распределение должно быть одинаковым в метрах и в милях. Единственное масштабно-инвариантное распределение для первой цифры — логарифмическое.

где работает

данные, охватывающие несколько порядков: численность населения, длины рек, площади стран, физические константы, биржевые цены, расходы из бухгалтерских отчётов.

используется в форензическом аудите: реальные транзакции следуют Бенфорду, выдуманные — нет. Этот метод принимают суды США как косвенное доказательство фальсификации.


Саймон Ньюком заметил закономерность в 1881 году: страницы логарифмических таблиц с числами, начинающимися на 1, были истёрты сильнее. Фрэнк Бенфорд переоткрыл и формализовал закон в 1938 году, проверив его на 20 наборах данных — от длин рек до молекулярных весов.

Закон не работает для данных с ограниченным диапазоном (рост людей, IQ), для последовательностей с фиксированной структурой (телефонные номера) и для строго равномерных распределений. Зато прекрасно работает для всего, что растёт мультипликативно — а это огромная часть природы и экономики.

открытоНьюком · 1881
формализованоБенфорд · 1938
P(1)30.103%
P(9)4.576%