打字猴:1.701529184e+09
1701529184
1701529185 说到底,所有的欺诈都必须在某个时间点开始。如果会计师斯坦从下星期二开始在数据上做手脚,那么,不管原先的数据是吻合本福特曲线,还是“随机”分布,动过手脚之后的数据模式必然会发生变化。
1701529186
1701529187 超级预测试验
1701529188
1701529189 为了说明“我的法则”,尼格里尼援引了他在德国科布伦茨大学(Koblenz)的数学班上17岁的学生卡布依(Kha Bui)2011年设计的一项实验。全班同学被分为5组,每组4人。有几个小组被要求列出在报纸上找到的500个数据。还有些小组则要编造500个数据。实验的目的是看看能否只观察数据模式就把新闻里提到的数据和编造的数据区别开来。
1701529190
1701529191 为了尽量提高挑战难度,实验人员告诉编造数据的学生们,要编造报纸上能找到的数据(而不是随机数据)。这就让这些学生的任务显得更像是现实世界里的伪造数据行为。
1701529192
1701529193 无论真假,这5组数据都无法完全吻合本福特曲线。但任何人都看得出来,它们可以被分为两类。有一组数据有“大尖峰”——数据的前两位有一些出现次数远比预期的多。另一组数据的尖峰较低,也较为吻合本福特曲线。正如我们所了解到的,重复的数字可以透露出伪造数据者无意识的重复行为。你或许以为,“小尖峰”组是真实的报纸上的数据。但事实证明,你猜错了。
1701529194
1701529195 请记住,编造的数据来自同一小组中的4名同学。由于每个人无意识偏爱的数字各有不同,本应异常明显的伪造数据者的偏好被相对稀释了。也就是说,如果伪造数据行为有多人参与,就更难发现其具有的欺诈性了。
1701529196
1701529197 真正泄露这些伪造数据者秘密的地方在于,由于报纸会多次提及其出版年份(2011年)和前后几年,因此,前两位数是“20”的情况形成了数字图表中的大尖峰。尽管伪造数据者编造了若干最近的年份数字,但远远不够。检验员若用本福特定律或查帕尼斯法作为对照标准,会猜测尖峰较低的数据集是真实的。但明智的做法是,首先检验其他报纸的数字模式。只要他这么做了,就能发现近期年份被频繁提及,从而正确地识别出哪一组数据是真实的。
1701529198
1701529199 如果重要数据里的数字不符合预期分布,一名优秀的司法调查员能够找出原因。不过也有一些很容易自己动手做的测试,任何人都能用它们迅速判断数据是否真实。在下面的篇幅里,我会介绍一些方法用以判断数据是否是伪造的或者其被动过手脚的可能性。这些测试的目的主要为了将真实数据和100%伪造的数据(且伪造数据的人只有一个)区分开来。你不一定总能看到鲜明的对比。然而,在很多案件里,单独作案的犯罪嫌疑人会把纯粹是他个人伪造的数据展示给受害人。届时,这些测试可以用作初步的筛选机制,让你能够迅速判断是否对这些数据进行进一步调查。
1701529200
1701529201 剪刀石头布:如何成为超级预测者 [:1701527502]
1701529202 真实数据的样子
1701529203
1701529204 每个星期天,有一家快餐店的老板都会伪造前一个星期的销售额,以此拉开本周的序幕。每个数据都是伪造的!她需要用这些数据来报税。
1701529205
1701529206 餐厅的簿记员正好是尼格里尼的学生。尼格里尼看了这些伪造的数据之后,解释说:“并不是数据的首位数有问题。”生意稳定的快餐店或许每个工作日都有5 000美元上下的销售额,变化不太大。因此,数据的首位数不会遵循本福特分布,也不应该如此。是数据末尾两位数曝光了她造假的事实,这些数据中没有一个是以00结尾。这是一个常见的线索,因为伪造数据者往往认为整数看起来不够随机。此外,大约有6.5%的数据以40结尾(照理说,应该只占1%)。由此可见,在末尾两位数使用40,是这家餐厅老板的无意识习惯。
1701529207
1701529208 如果有一天,这家快餐店被卖给了别人,当买家要求仔细核查账本时,原先的老板也许会在实际数据基础上捏造新的数据给买家看。买家会怀疑这些数据是捏造出来的吗?
1701529209
1701529210 小企业的日销售数据是收银机多次累计的总和。这些数据的最后两位数一般是随机的,从00到99,每组两位数的出现概率约为1%。
1701529211
1701529212 这些数据还不一定都有小数位,有些会四舍五入,以美元为单位,还有些甚至会以千美元为单位。如果是这样,你可以使用这些数据中最靠右的两位数。
1701529213
1701529214 当你检验末尾数字时,你需要数一数销售报告数据中每一组末尾两位数各出现了多少次。由于可能的两位数共有100个,因此你可以绘制一幅有100个矩形的直方图。
1701529215
1701529216 图10-5能让你略微了解实际数据看起来大概是什么样子。它记录了由Execl电子表格生成的500个随机数据。对一家小企业17个月里的每日销售额或者10年里的每周销售额来说,500是合理的数据量。即便有500个数据,图表的噪声仍然很大,变数极多。在这种情况下,68这个两位数完全不曾出现过,10、53、74这3个两位数的出现概率则是预期概率1%的两倍。对随机数据而言,这是在你料想之中的正常变化。
1701529217
1701529218
1701529219
1701529220
1701529221 图10-5 500个随机数据末尾两位数的分布情况
1701529222
1701529223 现在,让我们来看看伪造数据吧。
1701529224
1701529225 图10-6说明了500个伪造数据末尾两位数的分布情况。即使随便一瞥,你也能看得出,它与500个随机数据末尾两位数的分布情况有很大的不同。93和94这两个两位数的出现概率达到4%以上,这一点是很难发生在随机数据上的。而12这个两位数完全没有出现,同样也是极不可能的。
1701529226
1701529227 以下3个问题是检验数据可信度的3个标准。尝试回答这3个问题,任何一个问题的回答为“是”,都会提高数据的可疑水平。
1701529228
1701529229 (a)是否有一个两位数(或多个两位数)莫名其妙地比其他两位数出现次数更多?
1701529230
1701529231 (b)末尾两位数均为同一数字(尤其是00和55)的出现次数是否始终低于平均水平?
1701529232
1701529233 (c)递减两位数(10、21、32、43、54、65、76、87、98)的出现次数是否总是更多?
[ 上一页 ]  [ :1.701529184e+09 ]  [ 下一页 ]