打字猴:1.701529197e+09
1701529197 真正泄露这些伪造数据者秘密的地方在于,由于报纸会多次提及其出版年份(2011年)和前后几年,因此,前两位数是“20”的情况形成了数字图表中的大尖峰。尽管伪造数据者编造了若干最近的年份数字,但远远不够。检验员若用本福特定律或查帕尼斯法作为对照标准,会猜测尖峰较低的数据集是真实的。但明智的做法是,首先检验其他报纸的数字模式。只要他这么做了,就能发现近期年份被频繁提及,从而正确地识别出哪一组数据是真实的。
1701529198
1701529199 如果重要数据里的数字不符合预期分布,一名优秀的司法调查员能够找出原因。不过也有一些很容易自己动手做的测试,任何人都能用它们迅速判断数据是否真实。在下面的篇幅里,我会介绍一些方法用以判断数据是否是伪造的或者其被动过手脚的可能性。这些测试的目的主要为了将真实数据和100%伪造的数据(且伪造数据的人只有一个)区分开来。你不一定总能看到鲜明的对比。然而,在很多案件里,单独作案的犯罪嫌疑人会把纯粹是他个人伪造的数据展示给受害人。届时,这些测试可以用作初步的筛选机制,让你能够迅速判断是否对这些数据进行进一步调查。
1701529200
1701529201 剪刀石头布:如何成为超级预测者 [:1701527502]
1701529202 真实数据的样子
1701529203
1701529204 每个星期天,有一家快餐店的老板都会伪造前一个星期的销售额,以此拉开本周的序幕。每个数据都是伪造的!她需要用这些数据来报税。
1701529205
1701529206 餐厅的簿记员正好是尼格里尼的学生。尼格里尼看了这些伪造的数据之后,解释说:“并不是数据的首位数有问题。”生意稳定的快餐店或许每个工作日都有5 000美元上下的销售额,变化不太大。因此,数据的首位数不会遵循本福特分布,也不应该如此。是数据末尾两位数曝光了她造假的事实,这些数据中没有一个是以00结尾。这是一个常见的线索,因为伪造数据者往往认为整数看起来不够随机。此外,大约有6.5%的数据以40结尾(照理说,应该只占1%)。由此可见,在末尾两位数使用40,是这家餐厅老板的无意识习惯。
1701529207
1701529208 如果有一天,这家快餐店被卖给了别人,当买家要求仔细核查账本时,原先的老板也许会在实际数据基础上捏造新的数据给买家看。买家会怀疑这些数据是捏造出来的吗?
1701529209
1701529210 小企业的日销售数据是收银机多次累计的总和。这些数据的最后两位数一般是随机的,从00到99,每组两位数的出现概率约为1%。
1701529211
1701529212 这些数据还不一定都有小数位,有些会四舍五入,以美元为单位,还有些甚至会以千美元为单位。如果是这样,你可以使用这些数据中最靠右的两位数。
1701529213
1701529214 当你检验末尾数字时,你需要数一数销售报告数据中每一组末尾两位数各出现了多少次。由于可能的两位数共有100个,因此你可以绘制一幅有100个矩形的直方图。
1701529215
1701529216 图10-5能让你略微了解实际数据看起来大概是什么样子。它记录了由Execl电子表格生成的500个随机数据。对一家小企业17个月里的每日销售额或者10年里的每周销售额来说,500是合理的数据量。即便有500个数据,图表的噪声仍然很大,变数极多。在这种情况下,68这个两位数完全不曾出现过,10、53、74这3个两位数的出现概率则是预期概率1%的两倍。对随机数据而言,这是在你料想之中的正常变化。
1701529217
1701529218
1701529219
1701529220
1701529221 图10-5 500个随机数据末尾两位数的分布情况
1701529222
1701529223 现在,让我们来看看伪造数据吧。
1701529224
1701529225 图10-6说明了500个伪造数据末尾两位数的分布情况。即使随便一瞥,你也能看得出,它与500个随机数据末尾两位数的分布情况有很大的不同。93和94这两个两位数的出现概率达到4%以上,这一点是很难发生在随机数据上的。而12这个两位数完全没有出现,同样也是极不可能的。
1701529226
1701529227 以下3个问题是检验数据可信度的3个标准。尝试回答这3个问题,任何一个问题的回答为“是”,都会提高数据的可疑水平。
1701529228
1701529229 (a)是否有一个两位数(或多个两位数)莫名其妙地比其他两位数出现次数更多?
1701529230
1701529231 (b)末尾两位数均为同一数字(尤其是00和55)的出现次数是否始终低于平均水平?
1701529232
1701529233 (c)递减两位数(10、21、32、43、54、65、76、87、98)的出现次数是否总是更多?
1701529234
1701529235
1701529236
1701529237
1701529238 图10-6 500个伪造数据末尾两位数的分布情况
1701529239
1701529240 在本例中,问题(a)的回答显然为“是”。这些数据也同样回避了问题(b)中的同一数字重复的两位数。在你的预期中,10%的数据在末尾两位数上应该为同一数字,而这500个数据中,这种情况只出现了20次,仅占4%。00、55和77这3个两位数都完全不曾出现过。
1701529241
1701529242 在这500个数据中,有44个降序两位数,这几乎完全吻合预期概率9%(因为100个数据中,降序两位数应为9个)。因此,从标准(c)来看,这些数据没什么可疑的。
1701529243
1701529244 上述数据未能通过3项标准的两项。如果这是一家小企业的销售额,我们最好检验更多数据,或更详细的数据,并借此观察卖家如何应对我们提出的需求。
1701529245
1701529246 至于检验数据的繁琐事宜,你不必担心。我们只需要剪切数据并粘贴即可。你可以要求对方把数据存为Excel文件或其他兼容文件,复制到本福特定律检验模板里。在网上,你可以找到免费模板,其中有一套还是尼格里尼本人设计的(NigriniCycle.xlsx)。把数据粘贴进去之后,你可以按照说明在若干数据列里填写预设公式。接着,图表立刻生成,你可以标注末尾两位数或其他常见测试。另外,这些免费模板还给出了统计意义上的数学量度,比目测数据更加可靠。
[ 上一页 ]  [ :1.701529197e+09 ]  [ 下一页 ]