1701024572
脸谱网黑名单的例子清楚地说明我们为什么不仅需要关注好的算法和蹩脚的算法,还要考虑更多的问题。如果你怀孕了,而且塔吉特公司知道你怀孕了,这种情况会令人不安。但是,如果你不是恐怖分子,而脸谱网却认为你是恐怖分子,这样的情况更糟糕、更令人不安。
1701024573
1701024574
你也许认为,脸谱网绝不会编造恐怖分子嫌疑人(或者逃税人、恋童癖者)名单,即使他们真的有这样的名单,也不会公之于众。他们为什么要这样做?难道能从中赚钱吗?也许是的。但是,美国国家安全局可不会管人们有没有登录脸谱网,他们肯定会收集美国境内所有人的数据。黑名单这样的东西肯定存在,除非你认为他们记录海量的通话数据,目的是为了告诉电话公司哪些地方需要增设信号塔。大数据没有魔力,不可能告诉联邦调查局谁是恐怖分子、谁不是恐怖分子。但是,给某些人加上标记,认为他们更加危险和“值得关注”,然后生成一个黑名单,这些工作并不需要魔力。这份名单上的绝大多数人与恐怖主义没有任何关系,你有多大信心认为自己不在这份名单上呢?
1701024575
1701024576
心灵感应研究与贝叶斯推理
1701024577
1701024578
为什么会有恐怖分子黑名单这种明显自相矛盾的东西呢?显著性检验的方法看似有理有据,但为什么在这种情况下的效果那么糟糕呢?原因在于,显著性检验考虑的是脸谱网标记的用户占所有用户的比例,却完全忽略了恐怖分子所占的比例。如果你想判断自己的邻居是否为恐怖分子,必须注意一个重要的“先验信息”(prior information):绝大多数人都不是恐怖分子。忽略这个信息,就会陷入危险的境地。费舍尔说过,我们必须“在证据的启示之下”,也就是根据已知信息评估每一个假设。
1701024579
1701024580
但是,我们又是怎么做的呢?
1701024581
1701024582
说到这里,不由得让人想起无线电心理学的故事。
1701024583
1701024584
1937年,心灵感应风靡一时。心理学家莱茵(J. B. Rhine)在他的专著《心灵新前沿》(New Frontiers of the Mind)中介绍了他在杜克大学完成的ESP[1]实验。这本书非常畅销,并成为“月读俱乐部”的推荐图书之一。在这本书的影响下,通灵成了美国各地鸡尾酒会上的热门话题。1930年,畅销书《屠场》(The Jungle)的作者厄普顿·辛克莱(Upton Sinclair)再接再厉,又出版了《心灵电波》(Mental Radio)。在这本书中,辛克莱讲了他与妻子玛丽进行心灵感应的故事。由于该书讨论的是主流现象,因此爱因斯坦为它的德语版撰写了序言。爱因斯坦在序言中没有明确表示认同心灵感应,但他建议心理学家“应当认真读读”辛克莱的这本书。
1701024585
1701024586
大众媒体自然要在这一潮流中凑个热闹。1937年9月5日,奇尼斯无线电公司与莱茵合作开展了一项只有借助他们刚开发的新通信技术才可能完成的实验。主持人5次转动轮盘赌的转轮,一群自称有心灵感应能力的人站在旁边。每转动一次,小球要么停留在黑色区域,要么停留在红色区域,而有心灵感应能力的那些人则把全部心神集中在小球停留的区域,然后利用自己的“传播渠道”向全美国发送信号。主持人恳求电台听众利用他们的心灵感应能力获取这些信号,然后寄信把他们接收到的颜色信息告诉无线电台。主持人第一次发出请求时,超过4万名听众做出了响应,在之后的节目中,虽然新鲜劲儿已过,但奇尼斯公司每周仍然能收到数千个回应。这个测试心灵感应能力的实验是大数据的一个雏形,其规模是莱茵在杜克大学办公室里针对实验对象的逐个研究无法企及的。
1701024587
1701024588
尽管实验的最终结果不利于心灵感应,但是心理学家发现,从听众那里收集到的大量数据却有完全不同的用途。听众努力地再现5次转动转轮产生的红、黑(下文分别以R与B表示)颜色序列,一共有32种可能:
1701024589
1701024590
BBBBB BBRBBBRBBBBRRBB
1701024591
1701024592
BBBBRBBRBRBRBBRBRRBR
1701024593
1701024594
BBBRBBBRRBBRBRBBRRRB
1701024595
1701024596
BBBRRBBRRRBRBRRBRRRR
1701024597
1701024598
RBBBBRBRBBRRBBBRRRBB
1701024599
1701024600
RBBBRRBRBRRRBBRRRRBR
1701024601
1701024602
RBBRBRBRRBRRBRBRRRRB
1701024603
1701024604
RBBRRRBRRRRRBRRRRRRR
1701024605
1701024606
由于每次转动转轮之后小球停在红色或黑色区域的概率相同,因此上述序列出现的概率也相同。由于所有听众其实都没有接收到任何心灵感应信号,我
1701024607
1701024608
们可以因此认为听众选择这32种序列的概率也是相同的吗?
1701024609
1701024610
其实不然。事实上,听众的选择并不均匀。BBRBR、BRRBR这类序列出现的次数远远超过预期,RBRBR这类序列出现的次数则低于预期,而RRRRR几乎没有出现过。
1701024611
1701024612
对于这样的结果,你可能并不会感到吃惊。与BBRBR相比,RRRRR给人的感觉并不像一个随机序列,尽管在我们转动转轮时,出现这两种结果的概率是相同的。这到底是怎么回事呢?“一个序列的出现次数少于另一个序列”的说法,是什么意思呢?
1701024613
1701024614
我再举一个例子。大家迅速想一个1至20之间的数字。
1701024615
1701024616
你选择的是17吗?
1701024617
1701024618
没错,这一招不一定每次都灵。但是,如果我们让人们在1至20之间选一个数字,17是最常被选到的数字。如果我们让人们在0至9之间选一个数字,他们最常选的是7。在随机选择时,末尾是0和5的数字出现的次数远低于我们的预期,也就是说,在人们心目中,这些数字的随机程度似乎比较低。这个想法导致了一个出乎意料的结果:那些心灵感应实验的参与者试图给出R、B随机序列,但是结果明显不具有随机性。同样,这些人在随机选择数字时,往往也会偏离随机性。
1701024619
1701024620
2009年,时任伊朗总统的马哈茂德·艾哈迈迪内贾德(Mahmoud Ahmadinejad)在总统选举中以较大优势获胜。很多人指责有人暗中操控选票,但是,由于伊朗政府几乎不允许任何独立监督,所以很难得到检验计票合法性的机会。
1701024621
[
上一页 ]
[ :1.701024572e+09 ]
[
下一页 ]