打字猴:1.70152923e+09
1701529230
1701529231 (b)末尾两位数均为同一数字(尤其是00和55)的出现次数是否始终低于平均水平?
1701529232
1701529233 (c)递减两位数(10、21、32、43、54、65、76、87、98)的出现次数是否总是更多?
1701529234
1701529235
1701529236
1701529237
1701529238 图10-6 500个伪造数据末尾两位数的分布情况
1701529239
1701529240 在本例中,问题(a)的回答显然为“是”。这些数据也同样回避了问题(b)中的同一数字重复的两位数。在你的预期中,10%的数据在末尾两位数上应该为同一数字,而这500个数据中,这种情况只出现了20次,仅占4%。00、55和77这3个两位数都完全不曾出现过。
1701529241
1701529242 在这500个数据中,有44个降序两位数,这几乎完全吻合预期概率9%(因为100个数据中,降序两位数应为9个)。因此,从标准(c)来看,这些数据没什么可疑的。
1701529243
1701529244 上述数据未能通过3项标准的两项。如果这是一家小企业的销售额,我们最好检验更多数据,或更详细的数据,并借此观察卖家如何应对我们提出的需求。
1701529245
1701529246 至于检验数据的繁琐事宜,你不必担心。我们只需要剪切数据并粘贴即可。你可以要求对方把数据存为Excel文件或其他兼容文件,复制到本福特定律检验模板里。在网上,你可以找到免费模板,其中有一套还是尼格里尼本人设计的(NigriniCycle.xlsx)。把数据粘贴进去之后,你可以按照说明在若干数据列里填写预设公式。接着,图表立刻生成,你可以标注末尾两位数或其他常见测试。另外,这些免费模板还给出了统计意义上的数学量度,比目测数据更加可靠。
1701529247
1701529248 超级预测术
1701529249
1701529250 如果公司最近数据里的数字分布情况与公司过去的情况背离,这就是欺诈的迹象。
1701529251
1701529252 贪污犯和骗子在伪造数据时会不自觉地反复使用降序的两位数,如10,21,32等。
1701529253
1701529254 伪造数据者对重复的两位数如00或55使用不足,认为它们显得不够“随机”。
1701529255
1701529256 剪刀石头布:如何成为超级预测者 [:1701527503]
1701529257 11 阈值效应与整数的不妥
1701529258
1701529259 纽约市的一名保险推销员有一个其公司设立的返还工作费用开支的账户,他由此想出了一套完美的骗局。他所在的公司因为想要实现无纸化办公,规定:收据提交扫描件而不是原件。推销员发现,他可以用黑笔涂改收据,将1改成7或者9,而低分辨率扫描出来的图片看不出修改痕迹。
1701529260
1701529261 自此以后,他费尽心思,让自己收据上的金额以1作为首位数。他兴许会点个18美元的早餐,或是入住房费178美元的酒店。接着,他就在金额上动手脚,报销98美元的早餐或者778美元的房费。
1701529262
1701529263 笔尖轻轻一划,他就能每笔开支净得70~800美元。可惜他不走运,他所在保险公司的审计部门很早就采纳了本福特定律分析法。这样一来,首位数异常就足以提醒审计师这名推销员的收据有问题了。他们发现,该推销员提交的收据金额的首位数中,7和9太多,1又太少。调查证实了推销员动的手脚,公司把他告上法庭,责令他将欺骗所得如数归还。
1701529264
1701529265 动了手脚的数据可能比伪造的数据存在更大的问题。这里的“动手脚”指的是,有人将实际数目上下调整,谋取私利。调整幅度不一定必须大胆到从1改成7这样才能被发现。通常,能达到某种限度、目标或阈值就够了。公司的费用类账户大多设有上限,超出此限度的费用就不能报销,或者是需要提前批准或呈交证明文件。所以,你大概想得到,报销申请都集中在该限度以下。
1701529266
1701529267 “这种现象在政府里很常见。”马克·尼格里尼说。他调查了一家为员工提供最高限额可达2 500美元购物卡的机构。其结果是:“很多员工买东西用了2 500美元、2 499美元、2 496美元……显然,这些人都相当聪明,他们觉得,‘2 501美元可不行,2 496美元就谁也看不出来了。这个政府机构里有3.5万名员工,只有我才知道算术是怎么回事!’然而事实上,我们每个人都这样想,都觉得只有自己是这样。”
1701529268
1701529269 第二位数检测是检查数据是否动过手脚的一种方法。计算各数据第二位,即紧邻首位数之后的那一位上0~9这10个数字的出现概率。比如,749.91美元的第二个数字是4,那你就把它算到所有的“4”里,将结果绘制成图。
1701529270
1701529271 就实际数据而言,第二位数的频率应该没有太大的变化。本福特定律预计,0是第二位数里最常见的,出现概率是12%,9是最少见的,出现概率为8.5%。但你往往会看到类似图11-1的图形。蓝线是第二位数理想的本福特曲线,矩形则是实际情况。这两者看起来似乎没有太大区别,但区别也足够明显。按照矩形来看,8和9过多,其他每个数字都太少。由此可见,这种情况大多出现在有整数上限的时候,比如,1 000美元。因为人们往往会提交略低于阈值的费用。
1701529272
1701529273 阈值效应很常见,所以第一次看到类似数字分布时别太急于作出判断。员工只要知道公司的伙食费报销限额是50美元,都会尽量吃够49美元的东西。尽管他并不为公司着想,但他仍然是按照公司定下的规矩做事。
1701529274
1701529275 另一方面,高报或者编造伙食费的员工同样有理由潜藏在阈值以下。对此,你或许希望针对恰好比阈值低的金额做一番检查,看员工是否提交了收据,收据是否相符,是否有涂改的痕迹等。
1701529276
1701529277
1701529278
1701529279
[ 上一页 ]  [ :1.70152923e+09 ]  [ 下一页 ]