打字猴:1.701529397e+09

1701529397 美国中等收入纳税人用一份税率表来计算自己的联邦所得税。这些表以50美元为阈值划分不同的收入。2011年，如果一个人应纳税收入为71 049美元，需缴纳13 894美元的税款。可如果这人多挣了1美元（71 050美元），他就自动升入下一级，还需再多缴12美元的税（13 906美元）。

1701529398

1701529399 你大概以为，没人会为了12美元的税金作弊。事实上，尼格里尼将应纳税所得额的最后两位数绘制成图，发现申报人确实会为了降低自己的纳税级别而调整自己的收入。纳税中申报的收入以48或49、98或99结尾的太多了。恰好落在级别阈值或者只比阈值高一点的收入，即以50或51、00或01结尾的收入则少于预期。

1701529400

1701529401 为了证明这是有意识的规避，尼格里尼对比了高收入申报者的纳税申报表，这些人必须将自己的应纳税所得额乘以边际税率。这一类的数据就并未出现动手脚的迹象。

1701529402

1701529403 由于应纳税所得额是从其他项目里计算来的，除非出现数学失误，是不可能擅自改动的。收入刚好超过纳税起征点的申报人必须回过头去，想办法在减免项目上多加几美元，或者从收入里扣下几美元。最好的开脱说法是，纳税人绞尽脑汁回想起自己有一笔减免项目忘了算。如果你并不这么乐观，那它或许意味着，要是被查出来的机会很小，纳税人就很乐意小小地作个弊。

1701529404

1701529405 ROCKBREAKSSCISSORS

1701529406

1701529407 超级预测者的思维

1701529408

1701529409 你今年的应纳税所得额比阈值低了1美元，这或许是个巧合。但如果过去10年里的每一年，它都刚好比税收阈值末尾的00或50低上一点点，恐怕这就不是巧合了。

1701529410

1701529411 美国国家税务局的审计公式是通过预测分析生成的。依靠统计相关性，美国国家税务局能够预测哪些申报不诚实的可能性最大，经审计后能找到最多的额外收入。美国国家税务局的计算机能调出所有的申报表，想来也一定会利用这些信息。你今年的应纳税所得额比阈值低了1美元，这或许是个巧合。但如果过去10年里的每一年，它都刚好比税收阈值末尾的00或50低上一点点，恐怕这就不是巧合了。

1701529412

1701529413 阈值效应带来了一种检测诚实度的简便方式，纳税人是否诚实申报收入，通过检验审计公式里的数字是完全可以预见到的。倒不是说税务机关就那么在乎这几美元。但要是纳税人一贯在纳税阈值上动手脚，还表现出了其他可疑迹象，如出现一笔表C业务或大金额的慈善减免项目，可疑程度就更高了。

1701529414

1701529415 最好的建议是小事上恪守诚实。猜心机正看着你，而且它知道得远比你想象的多。

1701529416

1701529417 剪刀石头布：如何成为超级预测者 [:1701527508]

1701529418 神奇的黑盒子

1701529419

1701529420 政治博客圈已经大张旗鼓地瞅准了本福特定律。人们认为，它就像是一个神奇的黑盒子，只需要输入选区票数（博主们在父母家的地下室就能操作），就能揭穿选举舞弊。结果，随之出现了越来越多操纵选举的指控。当偷窃选票的指控披上了很少有人理解的统计术语外衣时，很快就会吸引某位“责任心强”的记者注意。在互联网上，驳倒错误很容易，但污水一经泼出，就再也收不回来了。接下来，如你所知，新的党派阴谋论就此兴起。

1701529421

1701529422 大部分这类指控都只以数据的首位数测试为基础。但首位数测试从来都不是决定性的，甚至有可能毫无意义。人们应当将这次选举的选票数的数字模式与过去选举进行对比，可很少有人这么做。

1701529423

1701529424 党派博主同样抵挡不了数据挖掘的诱惑。在美国州级或者全国级的选举里，会有数千个选区。如果对这些选区进行充分调查的话，你总能找到有些选区看似可疑的统计数据。而当你从宏观上对其进行检测时，你就会发现它们并不可疑，但狂热分子总是会忽略宏观考虑。

1701529425

1701529426 用数字分析检验选举结果的设想来自亚历山大·索比亚宁（Alexandar Sobyanin）。他研究了俄罗斯臭名昭著的1993年议会选举。索比亚宁提出了若干种统计检验，其中一种以本福特定律为基础，这些检验的出发点都一样：编造数据跟真实数据不一样。索比亚宁声称，根据他的检验，1993年的选举表现出了欺诈作弊的迹象。至少，这个结论无可置疑。诸如此类的指控便随之接踵而来。2009年伊朗举行选举，马哈茂德·内贾德（Mahmoud Ahmadinejad）再度当选，而尼格里尼观察了选区总票数，发现了造假的证据。

1701529427

1701529428 约瑟夫·德克特（Joseph Deckert）、米哈伊尔·米亚格科夫（Mikhail Myagkov）和彼得·奥德舒克（Peter C.Ordeshook）最近发表了一篇名为《本福特定律与检测选举欺诈行为无关》（The Irrelevance of Benford’s Law for Detecting Fraud in Elections）的文章。他们表示，有关诚实的选举结果是否吻合本福特定律的研究并不多。选区的规模大小不一，这本身就是一个未知因素。人们或许以为选举委员会会尽量均匀地划分区域，避免选举规模出现巨大差异。但除非出于党派理由改划选区……可谁说得准呢？

1701529429

1701529430 假设艾奥瓦州的某个农场地区，像划分玉米地那样规则地划分了选区，每个选区各有5 000名选民。这个地方基本上很保守，米特·罗姆尼的支持者多过奥巴马，比例为70%比30%。罗姆尼在每个选区平均能得3 500票，奥巴马平均能得1 500票，两者的变数都不太大。因此，罗姆尼总得票的首位数始终是3，奥巴马总得票的首位数始终是1。这时，神奇的黑盒子亮红灯了！但这里面没有任何问题。它无非意味着，在我们所考察的地区中，选区和政治生态分布得很均匀。

1701529431

1701529432 在这种情况下，两名候选人的结果都会产生误报。但更麻烦的是，只有一名候选人的结果看起来很可疑。一名候选人在城市地区支持者多，而另一名候选人在农村地区的支持者多，这是一种很常见的情况。城市地区的选区规模或许比农村地区的变化更大，反过来也是有可能的。而无论是城市地区的选区规模变化更大还是农村地区的选区规模变化更大，都会让一名候选人的结果看起来比另一人的结果更符合本福特定律。

1701529433

1701529434 为了使用数字模式来检测舞弊，理解选举舞弊是怎么一回事就显得非常重要。在世界的有些地方，腐败官员编造一些数据作为选区数出来的选票。在俄罗斯的选举中，许多选区的票数竟然是大咧咧地以0结尾的整数，对不准确的统计根本不屑遮掩。“的确有舞弊，”2000年参加俄罗斯总统选举的弗拉基米尔·谢夫楚克（Vladimir Shevchuk）承认，“但也有一部分整数是因为计票的低效机制。为了计票，他们需要忙活好几个晚上。因为太累了，他们就采用了权宜之计。”谢夫楚克是鞑靼斯坦共和国选举委员会的一员。

1701529435

1701529436 从美国选举舞弊的历史来看，作弊人或许会从当地公墓找个名字来进行登记，把支持自己一方候选人的伪造选票塞进投票箱，或是故意“弄丢”对方候选人的选票。舞弊选票过多带来的净效应是，选举人的票数被乘以了一个近似的系数，不管作弊人认为自己这一方是多么需要赢得胜利。这很难用本福特定律检验出来。因为该定律的特点之一是，你可以将所有数据乘以任意系数，最终所得的数据仍然符合本福特分布。

1701529437

1701529438 末位数检测更适合检测编造出来的总票数。但需要注意的是，编造数据的不一定是同一个人。如果有一群腐败的投票工作人员每人编造一个数据，他们的集体努力能消除任何个人残留的痕迹。这样的话，你只能依赖编造数据相对更普遍的规律。

1701529439

1701529440 2012年，纽约大学政治科学系助理教授伯恩德·伯布尔（Bernd Berber）和亚历山德拉·斯卡科（Alexandra Scacco）分析了尼日利亚的选举，观察了成对的末尾两位数，00、11、22……99。正如我们所了解到的，在编造数据中，这类两位数一般比较少见，可以警示我们需要做进一步调查。

1701529441

1701529442 分析选举数据麻烦的地方在于，热心的民间调查员们往往没有兴趣寻求真相。他们想把任何异常现象都视为舞弊的直接证据。如果现场调查无法证实存在不法行为，民间调查员们或许仍然会仅凭数据的数字模式，就提出舞弊的指控。面对这类指控，我们大概需要进行进一步的调查。

1701529443

1701529444 剪刀石头布：如何成为超级预测者 [:1701527509]

1701529445 数字分析是把双刃剑

1701529446

[ 上一页 ] [ :1.701529397e+09 ] [ 下一页 ]