打字猴:1.701529156e+09
1701529156
1701529157
1701529158
1701529159
1701529160 图10-4纳尔逊所开支票金额的末位数
1701529161
1701529162 图10-4看起来很像查帕尼斯所绘的图表。和查帕尼斯实验中的被试一样,纳尔逊不自觉地重复着自己。23张支票的前两位,他分别重复了87、88、93和96,在后两位上重复了16、67和83。
1701529163
1701529164 剪刀石头布:如何成为超级预测者 [:1701527501]
1701529165 本福特·福尔摩斯
1701529166
1701529167 美国国家税务局会向研究人员销售剥离了身份信息的税务表数据。尼格里尼买了1985年和1988年的10万份纳税申报单,并用大学里的VAX小型计算机进行分析。他想看看自己能否判断出哪些条目作弊的人最多。
1701529168
1701529169 超级预测试验
1701529170
1701529171 报税单上的许多条目是其他条目经过计算后所得的总和、差额或乘积,操纵这类条目毫无意义,因为美国国家税务局的计算机会检查数学运算。而一些由第三方文档支持的条目,如工资表单W-2、利息收入表1099-INT等则能使尼格里尼进行有价值的对照比较。尼格里尼发现,利息收入高度吻合本福特定律。然而,已付利息却与本福特曲线不符。当时,抵押贷款机构不向美国国家税务局报告利息金额,消费者信贷利息可减免(两者均无其他文档支持)。这也就是说,纳税人有可能会夸大自己支付的利息,心存侥幸地指望没人对其进行审计。尼格里尼的分析显示,许多人正是这么做的。
1701529172
1701529173 比尔·克林顿在竞选总统时,曾公布了自己从1977年开始的纳税申报情况。尼格里尼得以根据克林顿的申报表,筛选了380项收入数目和511项减免数目(均为申报人自觉填写的条目)。除了报税表里很常见的整数略多之外,他没有发现什么可疑的地方。比如,申报表里提到,曾将价值100美元的二手西装捐献给了慈善机构。西装的价格显然是个估计值,四舍五入用整数来进行计算是我们估算作价的一种方法。克林顿将二手西装估为价值100美元比编造一个如107.03美元这样似是而非的“精确”金额更可信。
1701529174
1701529175 信奉尼格里尼分析方法的第一批信徒里有一个是布鲁克林地区检察官办公室的首席财务调查员罗伯特·伯顿(Robert Burton)。1995年,伯顿借助尼格里尼的软件分析了7家涉嫌犯罪的公司的支票。伯顿从这些支票中发现了伪造数据的证据,经过进一步调查,他指控这7家公司的簿记员和工资结算员犯有欺诈罪。《华尔街日报》为此写了一篇文章,文中称本福特定律为“一种福尔摩斯式的工具”。这篇文章还引用了伯顿的话:“没错,这就意味着欺诈。”
1701529176
1701529177 《华尔街日报》的文章虽然帮忙宣传了本福特定律,但同时也帮了倒忙:把它吹嘘成了某种神奇的测谎手段。自此以后,尼格里尼的分析方法被执法机构、税务机构和私营部门广泛采纳。当今消费数据的例行分析便利了标注可疑数据,以作进一步审核。然而,数位分析仍然是一个尚未被彻底验证的全新领域。理解数位分析的实际用途和可行范围是大有必要的。
1701529178
1701529179 “每当看到有人乱用本福特定律时,我总是觉得很心烦。”尼格里尼对我说。毫无疑问,有些人听说了本福特定律,在维基百科上读了相关的条目,以为它的意思就是说,凡是首位数不符合曲线的数据都是伪造的。但这绝不是一个恰当的结论。由于首位数不符合本福特分布的正当原因太多太多,所以首位数检验的用处其实并不大。尼格里尼认为,检验前两位数更有作用,这会生成一个有100个矩形的直方图。而只要数据足够多(上千个数据),与本福特定律兼容的数据就能生成一条平滑曲线。
1701529180
1701529181 另一种有用的测试是把大数目的最后两位绘测成图。这甚至算不上“本福特定律”测试。你寻找的是查帕尼斯风格的伪造数据特质。请注意,即便并不符合本福特定律的数据,采取末两位数检测的方法也是适用的。
1701529182
1701529183 在专业人士看来,数位分析囊括了许多截然不同的独特检验以及对这些检验进行统计意义上的计算。对比的最终标准应当是特定数据集的过往历史,本季度的费用清单应当与前几个季度相比。尼格里尼将这一原则称为“我的法则”(My Law)。这个名字指的是一些软件建立新文档时生成的通用文件名,比如“我的文档”,“我的工作表”等等。“我的”法则避免了不全面的数字命理学的常见失误,而数字命理学则一味地假设所有的数据都严密地吻合本福特定律,但实际上并不是这样。查帕尼斯观察到的伪造数据的特征也绝非100%的牢靠。出于种种原因,特定情况可能吻合本福特定律,也可能不吻合。以早期的数据分布情况作为参照标准更容易辨识伪造数据,这一方法也更为合理。
1701529184
1701529185 说到底,所有的欺诈都必须在某个时间点开始。如果会计师斯坦从下星期二开始在数据上做手脚,那么,不管原先的数据是吻合本福特曲线,还是“随机”分布,动过手脚之后的数据模式必然会发生变化。
1701529186
1701529187 超级预测试验
1701529188
1701529189 为了说明“我的法则”,尼格里尼援引了他在德国科布伦茨大学(Koblenz)的数学班上17岁的学生卡布依(Kha Bui)2011年设计的一项实验。全班同学被分为5组,每组4人。有几个小组被要求列出在报纸上找到的500个数据。还有些小组则要编造500个数据。实验的目的是看看能否只观察数据模式就把新闻里提到的数据和编造的数据区别开来。
1701529190
1701529191 为了尽量提高挑战难度,实验人员告诉编造数据的学生们,要编造报纸上能找到的数据(而不是随机数据)。这就让这些学生的任务显得更像是现实世界里的伪造数据行为。
1701529192
1701529193 无论真假,这5组数据都无法完全吻合本福特曲线。但任何人都看得出来,它们可以被分为两类。有一组数据有“大尖峰”——数据的前两位有一些出现次数远比预期的多。另一组数据的尖峰较低,也较为吻合本福特曲线。正如我们所了解到的,重复的数字可以透露出伪造数据者无意识的重复行为。你或许以为,“小尖峰”组是真实的报纸上的数据。但事实证明,你猜错了。
1701529194
1701529195 请记住,编造的数据来自同一小组中的4名同学。由于每个人无意识偏爱的数字各有不同,本应异常明显的伪造数据者的偏好被相对稀释了。也就是说,如果伪造数据行为有多人参与,就更难发现其具有的欺诈性了。
1701529196
1701529197 真正泄露这些伪造数据者秘密的地方在于,由于报纸会多次提及其出版年份(2011年)和前后几年,因此,前两位数是“20”的情况形成了数字图表中的大尖峰。尽管伪造数据者编造了若干最近的年份数字,但远远不够。检验员若用本福特定律或查帕尼斯法作为对照标准,会猜测尖峰较低的数据集是真实的。但明智的做法是,首先检验其他报纸的数字模式。只要他这么做了,就能发现近期年份被频繁提及,从而正确地识别出哪一组数据是真实的。
1701529198
1701529199 如果重要数据里的数字不符合预期分布,一名优秀的司法调查员能够找出原因。不过也有一些很容易自己动手做的测试,任何人都能用它们迅速判断数据是否真实。在下面的篇幅里,我会介绍一些方法用以判断数据是否是伪造的或者其被动过手脚的可能性。这些测试的目的主要为了将真实数据和100%伪造的数据(且伪造数据的人只有一个)区分开来。你不一定总能看到鲜明的对比。然而,在很多案件里,单独作案的犯罪嫌疑人会把纯粹是他个人伪造的数据展示给受害人。届时,这些测试可以用作初步的筛选机制,让你能够迅速判断是否对这些数据进行进一步调查。
1701529200
1701529201 剪刀石头布:如何成为超级预测者 [:1701527502]
1701529202 真实数据的样子
1701529203
1701529204 每个星期天,有一家快餐店的老板都会伪造前一个星期的销售额,以此拉开本周的序幕。每个数据都是伪造的!她需要用这些数据来报税。
1701529205
[ 上一页 ]  [ :1.701529156e+09 ]  [ 下一页 ]