打字猴:1.701529134e+09
1701529134
1701529135 尼格里尼最初研究的诈骗案件里有一桩来自亚利桑那州。43岁的韦恩·詹姆斯·纳尔逊(Wayne James Nelson)利用自己担任亚利桑那州司库一职搞起了非法侵占的勾当,他以州政府的名义向虚构的供应商开出了一张1 927.48美元的支票。之后的几天,他又伪造了22张假支票,涉案总金额共计近190万美元。
1701529136
1701529137 被捕后,纳尔逊供称,自己开这些假支票是出于好意,想要证明亚利桑那州的应付账款系统存在漏洞。而他只是“忘记”提醒国库其他同事存在这些漏洞,并且把钱转到了自己的账户上。
1701529138
1701529139 乍看起来,纳尔逊开的支票金额(单位:美元)有着一定的模式:
1701529140
1701529141
1701529142
1701529143
1701529144 尼格里尼说,纳尔逊“是反本福特的”。除了两张支票之外,所有金额的首位数都是7、8、9等大数字。纳尔逊把金额控制在10万美元以下,大概是因为他担心6位数的款项会引来不必要的关注。
1701529145
1701529146 图10-3是纳尔逊所开支票金额首位数的直方图。
1701529147
1701529148
1701529149
1701529150
1701529151 图10-3纳尔逊所开支票金额的首位数
1701529152
1701529153 伪造的金额往往是跟合法的金额混杂在一起的。审计员不仅仅会看伪造支票的金额,还会查看纳尔逊或者他所属部门开出的所有支票的金额。即便如此,纳尔逊在伪造金额时对8和9的偏爱,会使8和9为首位数的金额在累积数额中增多,这一点或许是可以检测出来的。
1701529154
1701529155 尼格里尼发现,纳尔逊所开支票的金额还表现出了其他一些伪造数据的典型特征。假设我们只观察支票金额的最后一位数(最靠右的数字),显然它们代表美分,纳尔逊对这些数字没有经济上的兴趣,可它们仍然有规律可循。纳尔逊喜欢以6和7收尾,他完全没用过4(见图10-4)。
1701529156
1701529157
1701529158
1701529159
1701529160 图10-4纳尔逊所开支票金额的末位数
1701529161
1701529162 图10-4看起来很像查帕尼斯所绘的图表。和查帕尼斯实验中的被试一样,纳尔逊不自觉地重复着自己。23张支票的前两位,他分别重复了87、88、93和96,在后两位上重复了16、67和83。
1701529163
1701529164 剪刀石头布:如何成为超级预测者 [:1701527501]
1701529165 本福特·福尔摩斯
1701529166
1701529167 美国国家税务局会向研究人员销售剥离了身份信息的税务表数据。尼格里尼买了1985年和1988年的10万份纳税申报单,并用大学里的VAX小型计算机进行分析。他想看看自己能否判断出哪些条目作弊的人最多。
1701529168
1701529169 超级预测试验
1701529170
1701529171 报税单上的许多条目是其他条目经过计算后所得的总和、差额或乘积,操纵这类条目毫无意义,因为美国国家税务局的计算机会检查数学运算。而一些由第三方文档支持的条目,如工资表单W-2、利息收入表1099-INT等则能使尼格里尼进行有价值的对照比较。尼格里尼发现,利息收入高度吻合本福特定律。然而,已付利息却与本福特曲线不符。当时,抵押贷款机构不向美国国家税务局报告利息金额,消费者信贷利息可减免(两者均无其他文档支持)。这也就是说,纳税人有可能会夸大自己支付的利息,心存侥幸地指望没人对其进行审计。尼格里尼的分析显示,许多人正是这么做的。
1701529172
1701529173 比尔·克林顿在竞选总统时,曾公布了自己从1977年开始的纳税申报情况。尼格里尼得以根据克林顿的申报表,筛选了380项收入数目和511项减免数目(均为申报人自觉填写的条目)。除了报税表里很常见的整数略多之外,他没有发现什么可疑的地方。比如,申报表里提到,曾将价值100美元的二手西装捐献给了慈善机构。西装的价格显然是个估计值,四舍五入用整数来进行计算是我们估算作价的一种方法。克林顿将二手西装估为价值100美元比编造一个如107.03美元这样似是而非的“精确”金额更可信。
1701529174
1701529175 信奉尼格里尼分析方法的第一批信徒里有一个是布鲁克林地区检察官办公室的首席财务调查员罗伯特·伯顿(Robert Burton)。1995年,伯顿借助尼格里尼的软件分析了7家涉嫌犯罪的公司的支票。伯顿从这些支票中发现了伪造数据的证据,经过进一步调查,他指控这7家公司的簿记员和工资结算员犯有欺诈罪。《华尔街日报》为此写了一篇文章,文中称本福特定律为“一种福尔摩斯式的工具”。这篇文章还引用了伯顿的话:“没错,这就意味着欺诈。”
1701529176
1701529177 《华尔街日报》的文章虽然帮忙宣传了本福特定律,但同时也帮了倒忙:把它吹嘘成了某种神奇的测谎手段。自此以后,尼格里尼的分析方法被执法机构、税务机构和私营部门广泛采纳。当今消费数据的例行分析便利了标注可疑数据,以作进一步审核。然而,数位分析仍然是一个尚未被彻底验证的全新领域。理解数位分析的实际用途和可行范围是大有必要的。
1701529178
1701529179 “每当看到有人乱用本福特定律时,我总是觉得很心烦。”尼格里尼对我说。毫无疑问,有些人听说了本福特定律,在维基百科上读了相关的条目,以为它的意思就是说,凡是首位数不符合曲线的数据都是伪造的。但这绝不是一个恰当的结论。由于首位数不符合本福特分布的正当原因太多太多,所以首位数检验的用处其实并不大。尼格里尼认为,检验前两位数更有作用,这会生成一个有100个矩形的直方图。而只要数据足够多(上千个数据),与本福特定律兼容的数据就能生成一条平滑曲线。
1701529180
1701529181 另一种有用的测试是把大数目的最后两位绘测成图。这甚至算不上“本福特定律”测试。你寻找的是查帕尼斯风格的伪造数据特质。请注意,即便并不符合本福特定律的数据,采取末两位数检测的方法也是适用的。
1701529182
1701529183 在专业人士看来,数位分析囊括了许多截然不同的独特检验以及对这些检验进行统计意义上的计算。对比的最终标准应当是特定数据集的过往历史,本季度的费用清单应当与前几个季度相比。尼格里尼将这一原则称为“我的法则”(My Law)。这个名字指的是一些软件建立新文档时生成的通用文件名,比如“我的文档”,“我的工作表”等等。“我的”法则避免了不全面的数字命理学的常见失误,而数字命理学则一味地假设所有的数据都严密地吻合本福特定律,但实际上并不是这样。查帕尼斯观察到的伪造数据的特征也绝非100%的牢靠。出于种种原因,特定情况可能吻合本福特定律,也可能不吻合。以早期的数据分布情况作为参照标准更容易辨识伪造数据,这一方法也更为合理。
[ 上一页 ]  [ :1.701529134e+09 ]  [ 下一页 ]