1701529410
1701529411
美国国家税务局的审计公式是通过预测分析生成的。依靠统计相关性,美国国家税务局能够预测哪些申报不诚实的可能性最大,经审计后能找到最多的额外收入。美国国家税务局的计算机能调出所有的申报表,想来也一定会利用这些信息。你今年的应纳税所得额比阈值低了1美元,这或许是个巧合。但如果过去10年里的每一年,它都刚好比税收阈值末尾的00或50低上一点点,恐怕这就不是巧合了。
1701529412
1701529413
阈值效应带来了一种检测诚实度的简便方式,纳税人是否诚实申报收入,通过检验审计公式里的数字是完全可以预见到的。倒不是说税务机关就那么在乎这几美元。但要是纳税人一贯在纳税阈值上动手脚,还表现出了其他可疑迹象,如出现一笔表C业务或大金额的慈善减免项目,可疑程度就更高了。
1701529414
1701529415
最好的建议是小事上恪守诚实。猜心机正看着你,而且它知道得远比你想象的多。
1701529416
1701529418
神奇的黑盒子
1701529419
1701529420
政治博客圈已经大张旗鼓地瞅准了本福特定律。人们认为,它就像是一个神奇的黑盒子,只需要输入选区票数(博主们在父母家的地下室就能操作),就能揭穿选举舞弊。结果,随之出现了越来越多操纵选举的指控。当偷窃选票的指控披上了很少有人理解的统计术语外衣时,很快就会吸引某位“责任心强”的记者注意。在互联网上,驳倒错误很容易,但污水一经泼出,就再也收不回来了。接下来,如你所知,新的党派阴谋论就此兴起。
1701529421
1701529422
大部分这类指控都只以数据的首位数测试为基础。但首位数测试从来都不是决定性的,甚至有可能毫无意义。人们应当将这次选举的选票数的数字模式与过去选举进行对比,可很少有人这么做。
1701529423
1701529424
党派博主同样抵挡不了数据挖掘的诱惑。在美国州级或者全国级的选举里,会有数千个选区。如果对这些选区进行充分调查的话,你总能找到有些选区看似可疑的统计数据。而当你从宏观上对其进行检测时,你就会发现它们并不可疑,但狂热分子总是会忽略宏观考虑。
1701529425
1701529426
用数字分析检验选举结果的设想来自亚历山大·索比亚宁(Alexandar Sobyanin)。他研究了俄罗斯臭名昭著的1993年议会选举。索比亚宁提出了若干种统计检验,其中一种以本福特定律为基础,这些检验的出发点都一样:编造数据跟真实数据不一样。索比亚宁声称,根据他的检验,1993年的选举表现出了欺诈作弊的迹象。至少,这个结论无可置疑。诸如此类的指控便随之接踵而来。2009年伊朗举行选举,马哈茂德·内贾德(Mahmoud Ahmadinejad)再度当选,而尼格里尼观察了选区总票数,发现了造假的证据。
1701529427
1701529428
约瑟夫·德克特(Joseph Deckert)、米哈伊尔·米亚格科夫(Mikhail Myagkov)和彼得·奥德舒克(Peter C.Ordeshook)最近发表了一篇名为《本福特定律与检测选举欺诈行为无关》(The Irrelevance of Benford’s Law for Detecting Fraud in Elections)的文章。他们表示,有关诚实的选举结果是否吻合本福特定律的研究并不多。选区的规模大小不一,这本身就是一个未知因素。人们或许以为选举委员会会尽量均匀地划分区域,避免选举规模出现巨大差异。但除非出于党派理由改划选区……可谁说得准呢?
1701529429
1701529430
假设艾奥瓦州的某个农场地区,像划分玉米地那样规则地划分了选区,每个选区各有5 000名选民。这个地方基本上很保守,米特·罗姆尼的支持者多过奥巴马,比例为70%比30%。罗姆尼在每个选区平均能得3 500票,奥巴马平均能得1 500票,两者的变数都不太大。因此,罗姆尼总得票的首位数始终是3,奥巴马总得票的首位数始终是1。这时,神奇的黑盒子亮红灯了!但这里面没有任何问题。它无非意味着,在我们所考察的地区中,选区和政治生态分布得很均匀。
1701529431
1701529432
在这种情况下,两名候选人的结果都会产生误报。但更麻烦的是,只有一名候选人的结果看起来很可疑。一名候选人在城市地区支持者多,而另一名候选人在农村地区的支持者多,这是一种很常见的情况。城市地区的选区规模或许比农村地区的变化更大,反过来也是有可能的。而无论是城市地区的选区规模变化更大还是农村地区的选区规模变化更大,都会让一名候选人的结果看起来比另一人的结果更符合本福特定律。
1701529433
1701529434
为了使用数字模式来检测舞弊,理解选举舞弊是怎么一回事就显得非常重要。在世界的有些地方,腐败官员编造一些数据作为选区数出来的选票。在俄罗斯的选举中,许多选区的票数竟然是大咧咧地以0结尾的整数,对不准确的统计根本不屑遮掩。“的确有舞弊,”2000年参加俄罗斯总统选举的弗拉基米尔·谢夫楚克(Vladimir Shevchuk)承认,“但也有一部分整数是因为计票的低效机制。为了计票,他们需要忙活好几个晚上。因为太累了,他们就采用了权宜之计。”谢夫楚克是鞑靼斯坦共和国选举委员会的一员。
1701529435
1701529436
从美国选举舞弊的历史来看,作弊人或许会从当地公墓找个名字来进行登记,把支持自己一方候选人的伪造选票塞进投票箱,或是故意“弄丢”对方候选人的选票。舞弊选票过多带来的净效应是,选举人的票数被乘以了一个近似的系数,不管作弊人认为自己这一方是多么需要赢得胜利。这很难用本福特定律检验出来。因为该定律的特点之一是,你可以将所有数据乘以任意系数,最终所得的数据仍然符合本福特分布。
1701529437
1701529438
末位数检测更适合检测编造出来的总票数。但需要注意的是,编造数据的不一定是同一个人。如果有一群腐败的投票工作人员每人编造一个数据,他们的集体努力能消除任何个人残留的痕迹。这样的话,你只能依赖编造数据相对更普遍的规律。
1701529439
1701529440
2012年,纽约大学政治科学系助理教授伯恩德·伯布尔(Bernd Berber)和亚历山德拉·斯卡科(Alexandra Scacco)分析了尼日利亚的选举,观察了成对的末尾两位数,00、11、22……99。正如我们所了解到的,在编造数据中,这类两位数一般比较少见,可以警示我们需要做进一步调查。
1701529441
1701529442
分析选举数据麻烦的地方在于,热心的民间调查员们往往没有兴趣寻求真相。他们想把任何异常现象都视为舞弊的直接证据。如果现场调查无法证实存在不法行为,民间调查员们或许仍然会仅凭数据的数字模式,就提出舞弊的指控。面对这类指控,我们大概需要进行进一步的调查。
1701529443
1701529445
数字分析是把双刃剑
1701529446
1701529447
所有的数字分析技术都建立在如下假设之上:伪造数据者不懂数字分析。到目前为止,情况基本如此,但总有一天,它会发生变化。
1701529448
1701529449
过去曾有一段时间,只有很少的犯罪学家才知道指纹的存在。而今,最愚蠢的窃贼也知道行窃时戴上橡胶手套。打败数字分析是有办法的,而且并不困难。
1701529450
1701529451
尼格里尼乐观地推测,如果人们普遍认识到本福特定律的存在,它会逐渐成为一种震慑力量,就像指纹和DNA分析被推广开来那样。届时,决定实施诈骗的人,首先要规划虚报的数据,之后进行调整,使之吻合本福特分布,这样他们就需要做更多的工作。对虚报数据进行调整所带来的结果是,犯罪分子或者会减少欺诈涉及的数额,或者会不经意间做出更多易招来他人察觉的行为,又或者两者兼而有之。
1701529452
1701529453
问题在于,犯罪分子很难被吓倒,也正因为这个原因,他们才犯罪。他们很难理解自己行为带来的长期后果。这是一把双刃剑。人人都看过电视剧《犯罪现场调查》(Crime Scene Investigation),法医技术至今仍然有用是因为大多数犯罪是一时冲动做出的行为,没什么规划。很多金融和选举犯罪同样如此。一名贪污犯之所以贪污,是因为自己在拉斯维加斯把房租给输掉了。一位有潜力的企业家之所以对资产负债表做了“美化”是因为他需要和投资人开会。而执政党之所以在最后一分钟作弊,是因为它感觉快要输了。
1701529454
1701529455
凡是要应用本福特定律的时候,你有必要先问问自己:报告这些数据的人知道定律吗?他是否预料到这些数据会经受“法医”分析?他是否具备抹除篡改痕迹的数学技能?
1701529456
1701529457
超级预测术
1701529458
1701529459
财务数据的第二位数字可以帮助我们发现其是否被动过手脚。如果有必要高于某个整数下限,动手脚的人会在第二位上生成相对较多的0和相对较少的9。
[
上一页 ]
[ :1.70152941e+09 ]
[
下一页 ]