打字猴:1.70152938e+09

1701529380 剪刀石头布：如何成为超级预测者 [:1701527507]

1701529381 阈值效应

1701529382

1701529383 20世纪八九十年代，美国国家税务局里最可怕的审计由美国国家研究发展计划（National Research Program, NRP）主持进行。当随机数制造机吐出一个9位数的号码时，社会安全号码与这一号码相一致的人就中了地狱发来的“头奖”：该纳税人必须对自己纳税申报表上的每一个条目提供证明文件。通过审计纳税人，美国国家税务局得以了解到哪些输入项目最容易发生欺诈行为。从科学上说，这么做可谓完美；从政治上说，这么做却不太明智。由于抱怨的纳税人太多，美国国会向美国国家税务局施加压力，迫使后者于20世纪90年代中期结束了这一随机审计。

1701529384

1701529385 国家研究发展计划停止执行后，美国国家税务局把重点放在了数据分析上。尽管人们毫不怀疑这些分析会涉及本福特定律，但美国国家税务局一贯遮遮掩掩，拒不承认。我曾就此向他们咨询过，但没有得到回复。然而，早在1998年，《纽约时报》就曾报道：“和相当多的大公司和会计事务所一样，好几个国家，以及包括加利福尼亚州在内的美国好几个州的税务机构都使用以本福特定律为基础的检测软件。”

1701529386

1701529387 尼格里尼则比纳税机构更早开始运用本福特定律。他最初研究美国报税表的时候，就检测了诸如利率、抵押贷款支出、慈善捐赠、资本收益及小企业的表C（Schedule C）[21]支出等项目。这些项目一贯不符合本福特分布。表C里的租金和办公费用更是经常背离本福特分布。

1701529388

1701529389 尼格里尼发现，无须提供证明文件的低收入纳税人比高收入申报者更加可疑。这或许意味着，低收入申报人知道自己被审计的风险很低，编造数据的时候也就更肆无忌惮。反过来说，这也可能意味着富裕人群说不定雇用了称职的专业填报人员，后者劝说他们不要做太愚蠢的事。

1701529390

1701529391 颇为诡异的地方在于，尼格里尼无法分辨哪些申报表是谎报。大多数小企业对房租都只提交一个数据，其中有些租金数据是真实的，有些则是注了水的。而只有成千上万的租金数据集合到一起，才能说明这些申报项目里存在欺诈行为。

1701529392

1701529393 这一类的发现对税务官特别有帮助，因为他们不仅能借此判断申报表上哪些项目和类型需要详加审核，还能作出书面规定以影响立法。美国国家税务局现在要求，抵押贷款机构要用1098表[22]报告利息，消费利息不再抵扣。从2011年开始，证券经纪人需要报告证券的初始价格，2012年，共同基金也开始依照此规定行事。2011年，美国国家税务局恢复了部分随机审计，主要针对能够保持高现金流的个体户。

1701529394

1701529395 几年前，英国税务局对英国的纳税申报表进行了数字检测，发现小企业主申报的销售额，往往以14为首。最明显的原因是，当时，如果销售额低于1.5万英镑的话，英国允许小企业采用简表申报。虽然自那以后，阈值已经提高了好几次，但每次动手脚的人又都暗地里跟着变换对策。

1701529396

1701529397 美国中等收入纳税人用一份税率表来计算自己的联邦所得税。这些表以50美元为阈值划分不同的收入。2011年，如果一个人应纳税收入为71 049美元，需缴纳13 894美元的税款。可如果这人多挣了1美元（71 050美元），他就自动升入下一级，还需再多缴12美元的税（13 906美元）。

1701529398

1701529399 你大概以为，没人会为了12美元的税金作弊。事实上，尼格里尼将应纳税所得额的最后两位数绘制成图，发现申报人确实会为了降低自己的纳税级别而调整自己的收入。纳税中申报的收入以48或49、98或99结尾的太多了。恰好落在级别阈值或者只比阈值高一点的收入，即以50或51、00或01结尾的收入则少于预期。

1701529400

1701529401 为了证明这是有意识的规避，尼格里尼对比了高收入申报者的纳税申报表，这些人必须将自己的应纳税所得额乘以边际税率。这一类的数据就并未出现动手脚的迹象。

1701529402

1701529403 由于应纳税所得额是从其他项目里计算来的，除非出现数学失误，是不可能擅自改动的。收入刚好超过纳税起征点的申报人必须回过头去，想办法在减免项目上多加几美元，或者从收入里扣下几美元。最好的开脱说法是，纳税人绞尽脑汁回想起自己有一笔减免项目忘了算。如果你并不这么乐观，那它或许意味着，要是被查出来的机会很小，纳税人就很乐意小小地作个弊。

1701529404

1701529405 ROCKBREAKSSCISSORS

1701529406

1701529407 超级预测者的思维

1701529408

1701529409 你今年的应纳税所得额比阈值低了1美元，这或许是个巧合。但如果过去10年里的每一年，它都刚好比税收阈值末尾的00或50低上一点点，恐怕这就不是巧合了。

1701529410

1701529411 美国国家税务局的审计公式是通过预测分析生成的。依靠统计相关性，美国国家税务局能够预测哪些申报不诚实的可能性最大，经审计后能找到最多的额外收入。美国国家税务局的计算机能调出所有的申报表，想来也一定会利用这些信息。你今年的应纳税所得额比阈值低了1美元，这或许是个巧合。但如果过去10年里的每一年，它都刚好比税收阈值末尾的00或50低上一点点，恐怕这就不是巧合了。

1701529412

1701529413 阈值效应带来了一种检测诚实度的简便方式，纳税人是否诚实申报收入，通过检验审计公式里的数字是完全可以预见到的。倒不是说税务机关就那么在乎这几美元。但要是纳税人一贯在纳税阈值上动手脚，还表现出了其他可疑迹象，如出现一笔表C业务或大金额的慈善减免项目，可疑程度就更高了。

1701529414

1701529415 最好的建议是小事上恪守诚实。猜心机正看着你，而且它知道得远比你想象的多。

1701529416

1701529417 剪刀石头布：如何成为超级预测者 [:1701527508]

1701529418 神奇的黑盒子

1701529419

1701529420 政治博客圈已经大张旗鼓地瞅准了本福特定律。人们认为，它就像是一个神奇的黑盒子，只需要输入选区票数（博主们在父母家的地下室就能操作），就能揭穿选举舞弊。结果，随之出现了越来越多操纵选举的指控。当偷窃选票的指控披上了很少有人理解的统计术语外衣时，很快就会吸引某位“责任心强”的记者注意。在互联网上，驳倒错误很容易，但污水一经泼出，就再也收不回来了。接下来，如你所知，新的党派阴谋论就此兴起。

1701529421

1701529422 大部分这类指控都只以数据的首位数测试为基础。但首位数测试从来都不是决定性的，甚至有可能毫无意义。人们应当将这次选举的选票数的数字模式与过去选举进行对比，可很少有人这么做。

1701529423

1701529424 党派博主同样抵挡不了数据挖掘的诱惑。在美国州级或者全国级的选举里，会有数千个选区。如果对这些选区进行充分调查的话，你总能找到有些选区看似可疑的统计数据。而当你从宏观上对其进行检测时，你就会发现它们并不可疑，但狂热分子总是会忽略宏观考虑。

1701529425

1701529426 用数字分析检验选举结果的设想来自亚历山大·索比亚宁（Alexandar Sobyanin）。他研究了俄罗斯臭名昭著的1993年议会选举。索比亚宁提出了若干种统计检验，其中一种以本福特定律为基础，这些检验的出发点都一样：编造数据跟真实数据不一样。索比亚宁声称，根据他的检验，1993年的选举表现出了欺诈作弊的迹象。至少，这个结论无可置疑。诸如此类的指控便随之接踵而来。2009年伊朗举行选举，马哈茂德·内贾德（Mahmoud Ahmadinejad）再度当选，而尼格里尼观察了选区总票数，发现了造假的证据。

1701529427

1701529428 约瑟夫·德克特（Joseph Deckert）、米哈伊尔·米亚格科夫（Mikhail Myagkov）和彼得·奥德舒克（Peter C.Ordeshook）最近发表了一篇名为《本福特定律与检测选举欺诈行为无关》（The Irrelevance of Benford’s Law for Detecting Fraud in Elections）的文章。他们表示，有关诚实的选举结果是否吻合本福特定律的研究并不多。选区的规模大小不一，这本身就是一个未知因素。人们或许以为选举委员会会尽量均匀地划分区域，避免选举规模出现巨大差异。但除非出于党派理由改划选区……可谁说得准呢？

1701529429

[ 上一页 ] [ :1.70152938e+09 ] [ 下一页 ]