打字猴:1.701529201e+09
1701529201 剪刀石头布:如何成为超级预测者 [:1701527502]
1701529202 真实数据的样子
1701529203
1701529204 每个星期天,有一家快餐店的老板都会伪造前一个星期的销售额,以此拉开本周的序幕。每个数据都是伪造的!她需要用这些数据来报税。
1701529205
1701529206 餐厅的簿记员正好是尼格里尼的学生。尼格里尼看了这些伪造的数据之后,解释说:“并不是数据的首位数有问题。”生意稳定的快餐店或许每个工作日都有5 000美元上下的销售额,变化不太大。因此,数据的首位数不会遵循本福特分布,也不应该如此。是数据末尾两位数曝光了她造假的事实,这些数据中没有一个是以00结尾。这是一个常见的线索,因为伪造数据者往往认为整数看起来不够随机。此外,大约有6.5%的数据以40结尾(照理说,应该只占1%)。由此可见,在末尾两位数使用40,是这家餐厅老板的无意识习惯。
1701529207
1701529208 如果有一天,这家快餐店被卖给了别人,当买家要求仔细核查账本时,原先的老板也许会在实际数据基础上捏造新的数据给买家看。买家会怀疑这些数据是捏造出来的吗?
1701529209
1701529210 小企业的日销售数据是收银机多次累计的总和。这些数据的最后两位数一般是随机的,从00到99,每组两位数的出现概率约为1%。
1701529211
1701529212 这些数据还不一定都有小数位,有些会四舍五入,以美元为单位,还有些甚至会以千美元为单位。如果是这样,你可以使用这些数据中最靠右的两位数。
1701529213
1701529214 当你检验末尾数字时,你需要数一数销售报告数据中每一组末尾两位数各出现了多少次。由于可能的两位数共有100个,因此你可以绘制一幅有100个矩形的直方图。
1701529215
1701529216 图10-5能让你略微了解实际数据看起来大概是什么样子。它记录了由Execl电子表格生成的500个随机数据。对一家小企业17个月里的每日销售额或者10年里的每周销售额来说,500是合理的数据量。即便有500个数据,图表的噪声仍然很大,变数极多。在这种情况下,68这个两位数完全不曾出现过,10、53、74这3个两位数的出现概率则是预期概率1%的两倍。对随机数据而言,这是在你料想之中的正常变化。
1701529217
1701529218
1701529219
1701529220
1701529221 图10-5 500个随机数据末尾两位数的分布情况
1701529222
1701529223 现在,让我们来看看伪造数据吧。
1701529224
1701529225 图10-6说明了500个伪造数据末尾两位数的分布情况。即使随便一瞥,你也能看得出,它与500个随机数据末尾两位数的分布情况有很大的不同。93和94这两个两位数的出现概率达到4%以上,这一点是很难发生在随机数据上的。而12这个两位数完全没有出现,同样也是极不可能的。
1701529226
1701529227 以下3个问题是检验数据可信度的3个标准。尝试回答这3个问题,任何一个问题的回答为“是”,都会提高数据的可疑水平。
1701529228
1701529229 (a)是否有一个两位数(或多个两位数)莫名其妙地比其他两位数出现次数更多?
1701529230
1701529231 (b)末尾两位数均为同一数字(尤其是00和55)的出现次数是否始终低于平均水平?
1701529232
1701529233 (c)递减两位数(10、21、32、43、54、65、76、87、98)的出现次数是否总是更多?
1701529234
1701529235
1701529236
1701529237
1701529238 图10-6 500个伪造数据末尾两位数的分布情况
1701529239
1701529240 在本例中,问题(a)的回答显然为“是”。这些数据也同样回避了问题(b)中的同一数字重复的两位数。在你的预期中,10%的数据在末尾两位数上应该为同一数字,而这500个数据中,这种情况只出现了20次,仅占4%。00、55和77这3个两位数都完全不曾出现过。
1701529241
1701529242 在这500个数据中,有44个降序两位数,这几乎完全吻合预期概率9%(因为100个数据中,降序两位数应为9个)。因此,从标准(c)来看,这些数据没什么可疑的。
1701529243
1701529244 上述数据未能通过3项标准的两项。如果这是一家小企业的销售额,我们最好检验更多数据,或更详细的数据,并借此观察卖家如何应对我们提出的需求。
1701529245
1701529246 至于检验数据的繁琐事宜,你不必担心。我们只需要剪切数据并粘贴即可。你可以要求对方把数据存为Excel文件或其他兼容文件,复制到本福特定律检验模板里。在网上,你可以找到免费模板,其中有一套还是尼格里尼本人设计的(NigriniCycle.xlsx)。把数据粘贴进去之后,你可以按照说明在若干数据列里填写预设公式。接着,图表立刻生成,你可以标注末尾两位数或其他常见测试。另外,这些免费模板还给出了统计意义上的数学量度,比目测数据更加可靠。
1701529247
1701529248 超级预测术
1701529249
1701529250 如果公司最近数据里的数字分布情况与公司过去的情况背离,这就是欺诈的迹象。
[ 上一页 ]  [ :1.701529201e+09 ]  [ 下一页 ]