1701529384
1701529385
国家研究发展计划停止执行后,美国国家税务局把重点放在了数据分析上。尽管人们毫不怀疑这些分析会涉及本福特定律,但美国国家税务局一贯遮遮掩掩,拒不承认。我曾就此向他们咨询过,但没有得到回复。然而,早在1998年,《纽约时报》就曾报道:“和相当多的大公司和会计事务所一样,好几个国家,以及包括加利福尼亚州在内的美国好几个州的税务机构都使用以本福特定律为基础的检测软件。”
1701529386
1701529387
尼格里尼则比纳税机构更早开始运用本福特定律。他最初研究美国报税表的时候,就检测了诸如利率、抵押贷款支出、慈善捐赠、资本收益及小企业的表C(Schedule C)[21]支出等项目。这些项目一贯不符合本福特分布。表C里的租金和办公费用更是经常背离本福特分布。
1701529388
1701529389
尼格里尼发现,无须提供证明文件的低收入纳税人比高收入申报者更加可疑。这或许意味着,低收入申报人知道自己被审计的风险很低,编造数据的时候也就更肆无忌惮。反过来说,这也可能意味着富裕人群说不定雇用了称职的专业填报人员,后者劝说他们不要做太愚蠢的事。
1701529390
1701529391
颇为诡异的地方在于,尼格里尼无法分辨哪些申报表是谎报。大多数小企业对房租都只提交一个数据,其中有些租金数据是真实的,有些则是注了水的。而只有成千上万的租金数据集合到一起,才能说明这些申报项目里存在欺诈行为。
1701529392
1701529393
这一类的发现对税务官特别有帮助,因为他们不仅能借此判断申报表上哪些项目和类型需要详加审核,还能作出书面规定以影响立法。美国国家税务局现在要求,抵押贷款机构要用1098表[22]报告利息,消费利息不再抵扣。从2011年开始,证券经纪人需要报告证券的初始价格,2012年,共同基金也开始依照此规定行事。2011年,美国国家税务局恢复了部分随机审计,主要针对能够保持高现金流的个体户。
1701529394
1701529395
几年前,英国税务局对英国的纳税申报表进行了数字检测,发现小企业主申报的销售额,往往以14为首。最明显的原因是,当时,如果销售额低于1.5万英镑的话,英国允许小企业采用简表申报。虽然自那以后,阈值已经提高了好几次,但每次动手脚的人又都暗地里跟着变换对策。
1701529396
1701529397
美国中等收入纳税人用一份税率表来计算自己的联邦所得税。这些表以50美元为阈值划分不同的收入。2011年,如果一个人应纳税收入为71 049美元,需缴纳13 894美元的税款。可如果这人多挣了1美元(71 050美元),他就自动升入下一级,还需再多缴12美元的税(13 906美元)。
1701529398
1701529399
你大概以为,没人会为了12美元的税金作弊。事实上,尼格里尼将应纳税所得额的最后两位数绘制成图,发现申报人确实会为了降低自己的纳税级别而调整自己的收入。纳税中申报的收入以48或49、98或99结尾的太多了。恰好落在级别阈值或者只比阈值高一点的收入,即以50或51、00或01结尾的收入则少于预期。
1701529400
1701529401
为了证明这是有意识的规避,尼格里尼对比了高收入申报者的纳税申报表,这些人必须将自己的应纳税所得额乘以边际税率。这一类的数据就并未出现动手脚的迹象。
1701529402
1701529403
由于应纳税所得额是从其他项目里计算来的,除非出现数学失误,是不可能擅自改动的。收入刚好超过纳税起征点的申报人必须回过头去,想办法在减免项目上多加几美元,或者从收入里扣下几美元。最好的开脱说法是,纳税人绞尽脑汁回想起自己有一笔减免项目忘了算。如果你并不这么乐观,那它或许意味着,要是被查出来的机会很小,纳税人就很乐意小小地作个弊。
1701529404
1701529405
ROCKBREAKSSCISSORS
1701529406
1701529407
超级预测者的思维
1701529408
1701529409
你今年的应纳税所得额比阈值低了1美元,这或许是个巧合。但如果过去10年里的每一年,它都刚好比税收阈值末尾的00或50低上一点点,恐怕这就不是巧合了。
1701529410
1701529411
美国国家税务局的审计公式是通过预测分析生成的。依靠统计相关性,美国国家税务局能够预测哪些申报不诚实的可能性最大,经审计后能找到最多的额外收入。美国国家税务局的计算机能调出所有的申报表,想来也一定会利用这些信息。你今年的应纳税所得额比阈值低了1美元,这或许是个巧合。但如果过去10年里的每一年,它都刚好比税收阈值末尾的00或50低上一点点,恐怕这就不是巧合了。
1701529412
1701529413
阈值效应带来了一种检测诚实度的简便方式,纳税人是否诚实申报收入,通过检验审计公式里的数字是完全可以预见到的。倒不是说税务机关就那么在乎这几美元。但要是纳税人一贯在纳税阈值上动手脚,还表现出了其他可疑迹象,如出现一笔表C业务或大金额的慈善减免项目,可疑程度就更高了。
1701529414
1701529415
最好的建议是小事上恪守诚实。猜心机正看着你,而且它知道得远比你想象的多。
1701529416
1701529418
神奇的黑盒子
1701529419
1701529420
政治博客圈已经大张旗鼓地瞅准了本福特定律。人们认为,它就像是一个神奇的黑盒子,只需要输入选区票数(博主们在父母家的地下室就能操作),就能揭穿选举舞弊。结果,随之出现了越来越多操纵选举的指控。当偷窃选票的指控披上了很少有人理解的统计术语外衣时,很快就会吸引某位“责任心强”的记者注意。在互联网上,驳倒错误很容易,但污水一经泼出,就再也收不回来了。接下来,如你所知,新的党派阴谋论就此兴起。
1701529421
1701529422
大部分这类指控都只以数据的首位数测试为基础。但首位数测试从来都不是决定性的,甚至有可能毫无意义。人们应当将这次选举的选票数的数字模式与过去选举进行对比,可很少有人这么做。
1701529423
1701529424
党派博主同样抵挡不了数据挖掘的诱惑。在美国州级或者全国级的选举里,会有数千个选区。如果对这些选区进行充分调查的话,你总能找到有些选区看似可疑的统计数据。而当你从宏观上对其进行检测时,你就会发现它们并不可疑,但狂热分子总是会忽略宏观考虑。
1701529425
1701529426
用数字分析检验选举结果的设想来自亚历山大·索比亚宁(Alexandar Sobyanin)。他研究了俄罗斯臭名昭著的1993年议会选举。索比亚宁提出了若干种统计检验,其中一种以本福特定律为基础,这些检验的出发点都一样:编造数据跟真实数据不一样。索比亚宁声称,根据他的检验,1993年的选举表现出了欺诈作弊的迹象。至少,这个结论无可置疑。诸如此类的指控便随之接踵而来。2009年伊朗举行选举,马哈茂德·内贾德(Mahmoud Ahmadinejad)再度当选,而尼格里尼观察了选区总票数,发现了造假的证据。
1701529427
1701529428
约瑟夫·德克特(Joseph Deckert)、米哈伊尔·米亚格科夫(Mikhail Myagkov)和彼得·奥德舒克(Peter C.Ordeshook)最近发表了一篇名为《本福特定律与检测选举欺诈行为无关》(The Irrelevance of Benford’s Law for Detecting Fraud in Elections)的文章。他们表示,有关诚实的选举结果是否吻合本福特定律的研究并不多。选区的规模大小不一,这本身就是一个未知因素。人们或许以为选举委员会会尽量均匀地划分区域,避免选举规模出现巨大差异。但除非出于党派理由改划选区……可谁说得准呢?
1701529429
1701529430
假设艾奥瓦州的某个农场地区,像划分玉米地那样规则地划分了选区,每个选区各有5 000名选民。这个地方基本上很保守,米特·罗姆尼的支持者多过奥巴马,比例为70%比30%。罗姆尼在每个选区平均能得3 500票,奥巴马平均能得1 500票,两者的变数都不太大。因此,罗姆尼总得票的首位数始终是3,奥巴马总得票的首位数始终是1。这时,神奇的黑盒子亮红灯了!但这里面没有任何问题。它无非意味着,在我们所考察的地区中,选区和政治生态分布得很均匀。
1701529431
1701529432
在这种情况下,两名候选人的结果都会产生误报。但更麻烦的是,只有一名候选人的结果看起来很可疑。一名候选人在城市地区支持者多,而另一名候选人在农村地区的支持者多,这是一种很常见的情况。城市地区的选区规模或许比农村地区的变化更大,反过来也是有可能的。而无论是城市地区的选区规模变化更大还是农村地区的选区规模变化更大,都会让一名候选人的结果看起来比另一人的结果更符合本福特定律。
1701529433
[
上一页 ]
[ :1.701529384e+09 ]
[
下一页 ]