打字猴:1.70152936e+09

1701529360 检测你拿到的数据第二位上0是否出现得过多是很好的检测数据真实性的方法。有多少个略微超过阈值的数据就算可疑呢？首先，数一数你拿到的数据有多少个够上新闻标题的，假设这样的数据有N个。接着，数一数你拿到的数据第二位上有多少个0，用Z代表0的个数。然后，打开电子表格。你需要用到一种叫做“二项分布函数”（binomial distribution function, BINOM.DIST）的东西。你没必要对它搞得太清楚。它内置于Excel和每一个可以进行对比的财务软件之中。打开电子表格后，你需要将以下内容输入Excel的单元格：

1701529361

1701529362 =1-BINOM. DIST（Z-1，N，0.1197，TRUE）

1701529363

1701529364 把Z和N换成实际的数据，或将包含了实际数据的单元格与之链接。公式将算出，在N个数据的列表中，至少有Z个数据的第二位数为0的概率是多少。

1701529365

1701529366 举个例子，比如，2001年初，你想购买安然公司，管理层给了你上述10个数据，也即5年来安然公司的总收入和每股收益。这时候，N为10，Z为5。

1701529367

1701529368 将Z-1，得到4，把它放在函数的第1个参数里。第2个参数是10，第3个参数是本福特定律预测的第二位数为0的概率，0.1197。你别管“TRUE”是什么意思，只管原样键入即可。其结果是0.368%，或者1/272。这就告诉你，按照正常的概率来看，安然公司所有这些里程碑式的数据都恰好超过阈值的可能性极低。

1701529369

1701529370 概率低到什么水平你就该放弃收购安然公司呢？没有哪个统计学家能说得出来，因为确实有可能会发生巧合。风险投资家的目标不是证明财务数据准确，而是完成尽职调查，确定一个可靠的检测阈值。

1701529371

1701529372 一个可供比较的对象是，在医学杂志上公布测试新药，需要1/20（5%）的置信度。研究人员必须指出，药物观察效果纯属偶然的发生概率低于5%。

1701529373

1701529374 5%的标准是任意定下的，它不一定与商界有任何的相关性。然而，研究人员可以用它作为他们与药物经销商洽谈的起点。而如果概率低于5%，就可以视之为危险信号。接下来，你应该要求查阅更多数据。

1701529375

1701529376 你需要对新拿到的数据重复上述过程，用更新过的N和Z进行计算。现在的概率仍然低于5%吗？这有点像是考察新餐馆。第一次去，吃了一顿糟糕的饭菜，那可能是因为厨师当天心情欠佳。多去几次，你或许会对餐馆有更好的印象。

1701529377

1701529378 如果你所得的数据第二位数为0的比例仍然很高，这就是公司虚抬数据的证据了。这家公司真的好吗？你需要自己进行判断，因为概率并不一定完全准确。

1701529379

1701529380 剪刀石头布：如何成为超级预测者 [:1701527507]

1701529381 阈值效应

1701529382

1701529383 20世纪八九十年代，美国国家税务局里最可怕的审计由美国国家研究发展计划（National Research Program, NRP）主持进行。当随机数制造机吐出一个9位数的号码时，社会安全号码与这一号码相一致的人就中了地狱发来的“头奖”：该纳税人必须对自己纳税申报表上的每一个条目提供证明文件。通过审计纳税人，美国国家税务局得以了解到哪些输入项目最容易发生欺诈行为。从科学上说，这么做可谓完美；从政治上说，这么做却不太明智。由于抱怨的纳税人太多，美国国会向美国国家税务局施加压力，迫使后者于20世纪90年代中期结束了这一随机审计。

1701529384

1701529385 国家研究发展计划停止执行后，美国国家税务局把重点放在了数据分析上。尽管人们毫不怀疑这些分析会涉及本福特定律，但美国国家税务局一贯遮遮掩掩，拒不承认。我曾就此向他们咨询过，但没有得到回复。然而，早在1998年，《纽约时报》就曾报道：“和相当多的大公司和会计事务所一样，好几个国家，以及包括加利福尼亚州在内的美国好几个州的税务机构都使用以本福特定律为基础的检测软件。”

1701529386

1701529387 尼格里尼则比纳税机构更早开始运用本福特定律。他最初研究美国报税表的时候，就检测了诸如利率、抵押贷款支出、慈善捐赠、资本收益及小企业的表C（Schedule C）[21]支出等项目。这些项目一贯不符合本福特分布。表C里的租金和办公费用更是经常背离本福特分布。

1701529388

1701529389 尼格里尼发现，无须提供证明文件的低收入纳税人比高收入申报者更加可疑。这或许意味着，低收入申报人知道自己被审计的风险很低，编造数据的时候也就更肆无忌惮。反过来说，这也可能意味着富裕人群说不定雇用了称职的专业填报人员，后者劝说他们不要做太愚蠢的事。

1701529390

1701529391 颇为诡异的地方在于，尼格里尼无法分辨哪些申报表是谎报。大多数小企业对房租都只提交一个数据，其中有些租金数据是真实的，有些则是注了水的。而只有成千上万的租金数据集合到一起，才能说明这些申报项目里存在欺诈行为。

1701529392

1701529393 这一类的发现对税务官特别有帮助，因为他们不仅能借此判断申报表上哪些项目和类型需要详加审核，还能作出书面规定以影响立法。美国国家税务局现在要求，抵押贷款机构要用1098表[22]报告利息，消费利息不再抵扣。从2011年开始，证券经纪人需要报告证券的初始价格，2012年，共同基金也开始依照此规定行事。2011年，美国国家税务局恢复了部分随机审计，主要针对能够保持高现金流的个体户。

1701529394

1701529395 几年前，英国税务局对英国的纳税申报表进行了数字检测，发现小企业主申报的销售额，往往以14为首。最明显的原因是，当时，如果销售额低于1.5万英镑的话，英国允许小企业采用简表申报。虽然自那以后，阈值已经提高了好几次，但每次动手脚的人又都暗地里跟着变换对策。

1701529396

1701529397 美国中等收入纳税人用一份税率表来计算自己的联邦所得税。这些表以50美元为阈值划分不同的收入。2011年，如果一个人应纳税收入为71 049美元，需缴纳13 894美元的税款。可如果这人多挣了1美元（71 050美元），他就自动升入下一级，还需再多缴12美元的税（13 906美元）。

1701529398

1701529399 你大概以为，没人会为了12美元的税金作弊。事实上，尼格里尼将应纳税所得额的最后两位数绘制成图，发现申报人确实会为了降低自己的纳税级别而调整自己的收入。纳税中申报的收入以48或49、98或99结尾的太多了。恰好落在级别阈值或者只比阈值高一点的收入，即以50或51、00或01结尾的收入则少于预期。

1701529400

1701529401 为了证明这是有意识的规避，尼格里尼对比了高收入申报者的纳税申报表，这些人必须将自己的应纳税所得额乘以边际税率。这一类的数据就并未出现动手脚的迹象。

1701529402

1701529403 由于应纳税所得额是从其他项目里计算来的，除非出现数学失误，是不可能擅自改动的。收入刚好超过纳税起征点的申报人必须回过头去，想办法在减免项目上多加几美元，或者从收入里扣下几美元。最好的开脱说法是，纳税人绞尽脑汁回想起自己有一笔减免项目忘了算。如果你并不这么乐观，那它或许意味着，要是被查出来的机会很小，纳税人就很乐意小小地作个弊。

1701529404

1701529405 ROCKBREAKSSCISSORS

1701529406

1701529407 超级预测者的思维

1701529408

1701529409 你今年的应纳税所得额比阈值低了1美元，这或许是个巧合。但如果过去10年里的每一年，它都刚好比税收阈值末尾的00或50低上一点点，恐怕这就不是巧合了。

[ 上一页 ] [ :1.70152936e+09 ] [ 下一页 ]