拜登得票曲线(蓝色)偏离本福特定律
去年11.11之前,我做了一期节目,教大家如何用本福特定律分析数据是否造假,当时的标的是天猫销售额2684亿。今天我们不妨借着美国大选的热点,再来带着大家复习一下本福特定律。视频请见:
我们每天都会面对成千上万的数据,其中有些数据是非人为规定、杂乱无章的。例如世界上所有国家的人口数量、GDP、国土面积,一张报纸上的经济数据,彩票在各个城市的销售额……等等。
数据
如果我问:这些数字首位是1(比如1.25亿,16,1356万这样的数字)的概率有多大?你会如何回答呢?
也许许多人会回答:1/9。因为首位可以是1、2、3、4、5、6、7、8、9,这些数字毫无规律,自然产生,所以首位是1的可能占1/9。或者你还会用一个表格印证自己的想法:在一位数、两位数、三位数…中,首位是1的数字都只有1/9。
不过,如果你真的拿出一张报纸进行统计,你会发现自己错了,除掉电话号码、邮政编码、日期等特定规律的数字以外,首位是1的数字大约占到30%。
本福特定律十九世纪,在还没有计算机的时代,科学家们经常要查找对数表进行计算。1881年,天文学家纽康在查找对数表时发现:对数表的前几页总是被人翻的比较烂,而后面的页码几乎是全新的。他隐约的感觉到:自然界中的数字好像不是均匀分布的,许多数字都以1开头,所以对数表的前几页才经常被人查阅到。
西蒙.纽康
1938年,物理学家本福特也发现了这个规律,现在被我们称为本福特定律:
从自然、生活中产生的数据,在十进制中以数字n开头的概率为: