1701024522
1701024523
1701024524
1701024525
1701024526
图中表示的是脸谱网两亿名美国用户的情况。上面的两格表示有可能是恐怖分子的用户,下面的两格表示不是恐怖分子的用户。在美国,所有的恐怖主义基层组织肯定都非常小。假设我们非常多疑,那么我们可以认为联邦调查局应该密切监视的恐怖分子嫌疑人有1万个,占脸谱网美国用户数的1/20 000。
1701024527
1701024528
方框图左右两侧的区分是由脸谱网做出的,左侧是参与恐怖主义活动可能性较大的10万人。脸谱网认为自己的算法非常准确,所以根据该算法筛选出来的用户是恐怖分子的概率为普通用户的两倍。我们相信脸谱网说的是真的,也就是说,在这10万人中,有1/10 000的人(即10人)是恐怖分子,剩余的99 990人则不是恐怖分子。
1701024529
1701024530
如果1万名恐怖分子嫌疑人中有10人位于左上部,那么右上部就有9 990人。同样,在脸谱网用户中有199 990 000名非恐怖分子,其中有99 990人被该算法加上了标记,因此位于左下部,那么在右下部还剩199 890 010人。把4个分区的人数相加,得数为两亿人,也就是脸谱网的全部美国用户。
1701024531
1701024532
你的那位邻居就位于这4个分区中的某一个。
1701024533
1701024534
但是,他到底在哪个分区里呢?我们只知道他在左侧,这是因为脸谱网把他标记为有可能是恐怖分子的人。
1701024535
1701024536
我们需要注意一个问题:在位于图左侧两个分区的人当中,几乎没有人是恐怖分子。事实上,那位邻居不是恐怖分子的概率为99.99%。
1701024537
1701024538
从某种意义上说,这与避孕药引发恐慌的例子差不多。一旦上了脸谱网的名单,是恐怖分子的概率就会加倍,这令人害怕。但是,最初的概率非常小,即使加倍之后,仍然非常小。
1701024539
1701024540
我们还可以换一种方式来看这个问题。思考一下:如果某个人其实不是恐怖分子嫌疑人,那么他错误地出现在脸谱网名单中的概率有多大?这个问题更清楚地反映出不确定性推理可能导致的困惑与风险。
1701024541
1701024542
结合此图,这个问题就变成:如果我们位于图的下部区域,那么我们在左侧分区的概率有多大?
1701024543
1701024544
这很容易计算。图的下部区域中有199 990 000人,其中,只有99 990人在左侧。因此,脸谱网算法将无辜的人标记为恐怖分子嫌疑人的概率为99 990/199 990 000,即约0.05%。
1701024545
1701024546
这个结果没有错。脸谱网把一个非恐怖分子错误地认定为恐怖分子的概率不到1/2 000!
1701024547
1701024548
现在,再看到你的那位邻居时,你会怎么想呢?
1701024549
1701024550
显著性检验可以为我们提供明确的答案。零假设为“你的邻居不是恐怖分子”,在这个假设条件下,你的邻居遵纪守法,他出现在脸谱网黑名单上的概率约为0.05%,远低于1/20这个统计学显著性的临界值。换言之,按照当代大多数科学研究普遍采用的规则,我们有理由认为零假设是不正确的,从而认定你的邻居就是一个恐怖分子,尽管他不是恐怖分子的概率为99.99%。
1701024551
1701024552
一方面,遵纪守法的人几乎不可能被该算法列入黑名单。另一方面,算法指向的人几乎都是遵纪守法的人。这似乎相互矛盾,但其实不然,真实情况就是这样的。如果我们屏气凝神,仔细观察方框图,我们就不会犯错。
1701024553
1701024554
下面我来告诉大家问题的症结所在。其实,我们提出了两个问题,这两个问题看似没有区别,但其实并不相同。
1701024555
1701024556
问题1:如果某人不是恐怖分子,那么他出现在脸谱网黑名单上的概率是多少?
1701024557
1701024558
问题2:如果某人出现在脸谱网黑名单上,那么他不是恐怖分子的概率是多少?
1701024559
1701024560
这两个问题有不同的答案,因此它们不是同一个问题。我们已经知道,第一个问题的答案约为1/2 000,第二个问题的答案是99.99%,而我们真正想知道的是第二个问题的答案。
1701024561
1701024562
这两个问题所考虑的量被称作“条件概率”(conditional probability),即“如果Y,则X的概率为……”让我们搞不清楚的是,“如果Y,则X的概率为……”与“如果X,则Y的概率为……”是不同的。
1701024563
1701024564
是不是有点儿熟悉的感觉啊?这正是我们在归为不可能法上面临的问题。p值是解决问题的关键,它指的是如果零假设是正确的,那么所观察到的实验结果发生的概率。
1701024565
1701024566
但是,我们想知道的其实是另一个条件概率:
1701024567
1701024568
如果我们观察到某种实验结果,则零假设正确的概率是多少?
1701024569
1701024570
我们把第二个概率与第一个概率弄混淆了,这正是错误出现的原因。这不是科学研究特有的现象,而是随处可见。公诉人转向陪审团宣布:“无辜人的DNA(脱氧核糖核酸)与犯罪现场发现的DNA样本匹配的概率只有五百万分之一,是的,五百万分之一。”此时,他回答的是问题1,即无辜的人是罪犯的概率是多少?但是,陪审团的工作是回答问题2,即被告其实是无辜的概率是多少?关于这个问题,DNA无法回答。
1701024571
[
上一页 ]
[ :1.701024522e+09 ]
[
下一页 ]