1701529144
尼格里尼说,纳尔逊“是反本福特的”。除了两张支票之外,所有金额的首位数都是7、8、9等大数字。纳尔逊把金额控制在10万美元以下,大概是因为他担心6位数的款项会引来不必要的关注。
1701529145
1701529146
图10-3是纳尔逊所开支票金额首位数的直方图。
1701529147
1701529148
1701529149
1701529150
1701529151
图10-3纳尔逊所开支票金额的首位数
1701529152
1701529153
伪造的金额往往是跟合法的金额混杂在一起的。审计员不仅仅会看伪造支票的金额,还会查看纳尔逊或者他所属部门开出的所有支票的金额。即便如此,纳尔逊在伪造金额时对8和9的偏爱,会使8和9为首位数的金额在累积数额中增多,这一点或许是可以检测出来的。
1701529154
1701529155
尼格里尼发现,纳尔逊所开支票的金额还表现出了其他一些伪造数据的典型特征。假设我们只观察支票金额的最后一位数(最靠右的数字),显然它们代表美分,纳尔逊对这些数字没有经济上的兴趣,可它们仍然有规律可循。纳尔逊喜欢以6和7收尾,他完全没用过4(见图10-4)。
1701529156
1701529157
1701529158
1701529159
1701529160
图10-4纳尔逊所开支票金额的末位数
1701529161
1701529162
图10-4看起来很像查帕尼斯所绘的图表。和查帕尼斯实验中的被试一样,纳尔逊不自觉地重复着自己。23张支票的前两位,他分别重复了87、88、93和96,在后两位上重复了16、67和83。
1701529163
1701529165
本福特·福尔摩斯
1701529166
1701529167
美国国家税务局会向研究人员销售剥离了身份信息的税务表数据。尼格里尼买了1985年和1988年的10万份纳税申报单,并用大学里的VAX小型计算机进行分析。他想看看自己能否判断出哪些条目作弊的人最多。
1701529168
1701529169
超级预测试验
1701529170
1701529171
报税单上的许多条目是其他条目经过计算后所得的总和、差额或乘积,操纵这类条目毫无意义,因为美国国家税务局的计算机会检查数学运算。而一些由第三方文档支持的条目,如工资表单W-2、利息收入表1099-INT等则能使尼格里尼进行有价值的对照比较。尼格里尼发现,利息收入高度吻合本福特定律。然而,已付利息却与本福特曲线不符。当时,抵押贷款机构不向美国国家税务局报告利息金额,消费者信贷利息可减免(两者均无其他文档支持)。这也就是说,纳税人有可能会夸大自己支付的利息,心存侥幸地指望没人对其进行审计。尼格里尼的分析显示,许多人正是这么做的。
1701529172
1701529173
比尔·克林顿在竞选总统时,曾公布了自己从1977年开始的纳税申报情况。尼格里尼得以根据克林顿的申报表,筛选了380项收入数目和511项减免数目(均为申报人自觉填写的条目)。除了报税表里很常见的整数略多之外,他没有发现什么可疑的地方。比如,申报表里提到,曾将价值100美元的二手西装捐献给了慈善机构。西装的价格显然是个估计值,四舍五入用整数来进行计算是我们估算作价的一种方法。克林顿将二手西装估为价值100美元比编造一个如107.03美元这样似是而非的“精确”金额更可信。
1701529174
1701529175
信奉尼格里尼分析方法的第一批信徒里有一个是布鲁克林地区检察官办公室的首席财务调查员罗伯特·伯顿(Robert Burton)。1995年,伯顿借助尼格里尼的软件分析了7家涉嫌犯罪的公司的支票。伯顿从这些支票中发现了伪造数据的证据,经过进一步调查,他指控这7家公司的簿记员和工资结算员犯有欺诈罪。《华尔街日报》为此写了一篇文章,文中称本福特定律为“一种福尔摩斯式的工具”。这篇文章还引用了伯顿的话:“没错,这就意味着欺诈。”
1701529176
1701529177
《华尔街日报》的文章虽然帮忙宣传了本福特定律,但同时也帮了倒忙:把它吹嘘成了某种神奇的测谎手段。自此以后,尼格里尼的分析方法被执法机构、税务机构和私营部门广泛采纳。当今消费数据的例行分析便利了标注可疑数据,以作进一步审核。然而,数位分析仍然是一个尚未被彻底验证的全新领域。理解数位分析的实际用途和可行范围是大有必要的。
1701529178
1701529179
“每当看到有人乱用本福特定律时,我总是觉得很心烦。”尼格里尼对我说。毫无疑问,有些人听说了本福特定律,在维基百科上读了相关的条目,以为它的意思就是说,凡是首位数不符合曲线的数据都是伪造的。但这绝不是一个恰当的结论。由于首位数不符合本福特分布的正当原因太多太多,所以首位数检验的用处其实并不大。尼格里尼认为,检验前两位数更有作用,这会生成一个有100个矩形的直方图。而只要数据足够多(上千个数据),与本福特定律兼容的数据就能生成一条平滑曲线。
1701529180
1701529181
另一种有用的测试是把大数目的最后两位绘测成图。这甚至算不上“本福特定律”测试。你寻找的是查帕尼斯风格的伪造数据特质。请注意,即便并不符合本福特定律的数据,采取末两位数检测的方法也是适用的。
1701529182
1701529183
在专业人士看来,数位分析囊括了许多截然不同的独特检验以及对这些检验进行统计意义上的计算。对比的最终标准应当是特定数据集的过往历史,本季度的费用清单应当与前几个季度相比。尼格里尼将这一原则称为“我的法则”(My Law)。这个名字指的是一些软件建立新文档时生成的通用文件名,比如“我的文档”,“我的工作表”等等。“我的”法则避免了不全面的数字命理学的常见失误,而数字命理学则一味地假设所有的数据都严密地吻合本福特定律,但实际上并不是这样。查帕尼斯观察到的伪造数据的特征也绝非100%的牢靠。出于种种原因,特定情况可能吻合本福特定律,也可能不吻合。以早期的数据分布情况作为参照标准更容易辨识伪造数据,这一方法也更为合理。
1701529184
1701529185
说到底,所有的欺诈都必须在某个时间点开始。如果会计师斯坦从下星期二开始在数据上做手脚,那么,不管原先的数据是吻合本福特曲线,还是“随机”分布,动过手脚之后的数据模式必然会发生变化。
1701529186
1701529187
超级预测试验
1701529188
1701529189
为了说明“我的法则”,尼格里尼援引了他在德国科布伦茨大学(Koblenz)的数学班上17岁的学生卡布依(Kha Bui)2011年设计的一项实验。全班同学被分为5组,每组4人。有几个小组被要求列出在报纸上找到的500个数据。还有些小组则要编造500个数据。实验的目的是看看能否只观察数据模式就把新闻里提到的数据和编造的数据区别开来。
1701529190
1701529191
为了尽量提高挑战难度,实验人员告诉编造数据的学生们,要编造报纸上能找到的数据(而不是随机数据)。这就让这些学生的任务显得更像是现实世界里的伪造数据行为。
1701529192
1701529193
无论真假,这5组数据都无法完全吻合本福特曲线。但任何人都看得出来,它们可以被分为两类。有一组数据有“大尖峰”——数据的前两位有一些出现次数远比预期的多。另一组数据的尖峰较低,也较为吻合本福特曲线。正如我们所了解到的,重复的数字可以透露出伪造数据者无意识的重复行为。你或许以为,“小尖峰”组是真实的报纸上的数据。但事实证明,你猜错了。
[
上一页 ]
[ :1.701529144e+09 ]
[
下一页 ]