打字猴:1.701529101e+09
1701529101 他发现,本福特的论文发表之后,有关这一主题的论述很少。唯一一个看出本福特定律实用价值的是经济学家哈尔·范里安(Hal Varian)。1972年,范里安提出用本福特定律来检测政治妄言。他认为,公共决策建立在对成本和效益的精细预测上。这些预测中的数据应吻合本福特分布。否则,它可能暗示预测人员是凭空编造数据或扭曲数据,以求达到政治目的。
1701529102
1701529103 可惜范里安没有进行更进一步的研究,其他人也没有。而这就激起了尼格里尼的热情,尽管他的导师并不鼓励他这么做。“他们更希望你写那种有几十个人都在写的主题。”尼格里尼解释说。但他还是坚持继续研究。直到研究进行了2/3,他才得到了导师们的赞许。4个月之后,他写完了他的毕业论文。
1701529104
1701529105 范里安和尼格里尼的想法很适合用图形来表示。如果你有很多数据,你可以画一幅条形图或柱状图,用以说明每个数字出现在首位的概率。你只需要数一数有多少个数据以1为首,多少个数据以2、3等等为首就可以了。真实的数据符合本福特定律,如图10-1所示。
1701529106
1701529107
1701529108
1701529109
1701529110 图10-1本福特定律
1701529111
1701529112 由首位数概率柱形图形成的这条流畅的曲线,就是本福特定律的视觉形式表现。
1701529113
1701529114 范里安和尼格里尼灵光乍现想到的是,伪造数据的人不知道本福特定律。贪污犯或骗税人应该没有理由以为哪个数字的出现频率会比其他数字高。因此,一组虚构的数据或许会表现出首位数平均分布,没有曲线(见图10-2)。
1701529115
1701529116
1701529117
1701529118
1701529119 图10-2首位数数字概率相等的非本福特定律
1701529120
1701529121 当然,这只是个粗略的概念。随机性实验已经证明,伪造的数据几乎从不会平均使用所有数字。阿尔方斯·查帕尼斯也对自己的研究结果做过条形图,它们看起来完全不像是平均分布。
1701529122
1701529123 另一个问题是,真实的财务数据大多完全吻合本福特曲线,可有时候也并非如此。因此,事先判断你面对的是哪一种情况很困难。99美分店的销售数据就是个例子。款项里会包含大量的“9”(因为店里很多小玩意儿都卖99美分)。正如尼格里尼指出,这就能说明价格是人为数目,是人编造出来的营销手段。但如果你管理着一家99美分店,那么,你要面对的现实就是那样,并不意味着有什么欺诈行为。而由于企业性质使得数据的首位数分布与本福特定律不相吻合(理由完全清白),这样的情况还有很多。
1701529124
1701529125 ROCKBREAKSSCISSORS
1701529126
1701529127 超级预测者的思维
1701529128
1701529129 随机性实验已经证明,伪造的数据几乎从不会平均使用所有数字。
1701529130
1701529131 不过,尼格里尼的基本理念是对的:伪造的数据和真实的数据不同。在坚定了自己的这一理念之后,他开始经常跑到辛辛那提法院,寻找跟数据相关的刑事案件。
1701529132
1701529133 超级预测试验
1701529134
1701529135 尼格里尼最初研究的诈骗案件里有一桩来自亚利桑那州。43岁的韦恩·詹姆斯·纳尔逊(Wayne James Nelson)利用自己担任亚利桑那州司库一职搞起了非法侵占的勾当,他以州政府的名义向虚构的供应商开出了一张1 927.48美元的支票。之后的几天,他又伪造了22张假支票,涉案总金额共计近190万美元。
1701529136
1701529137 被捕后,纳尔逊供称,自己开这些假支票是出于好意,想要证明亚利桑那州的应付账款系统存在漏洞。而他只是“忘记”提醒国库其他同事存在这些漏洞,并且把钱转到了自己的账户上。
1701529138
1701529139 乍看起来,纳尔逊开的支票金额(单位:美元)有着一定的模式:
1701529140
1701529141
1701529142
1701529143
1701529144 尼格里尼说,纳尔逊“是反本福特的”。除了两张支票之外,所有金额的首位数都是7、8、9等大数字。纳尔逊把金额控制在10万美元以下,大概是因为他担心6位数的款项会引来不必要的关注。
1701529145
1701529146 图10-3是纳尔逊所开支票金额首位数的直方图。
1701529147
1701529148
1701529149
1701529150
[ 上一页 ]  [ :1.701529101e+09 ]  [ 下一页 ]