打字猴:1.703947418e+09
1703947418
1703947419 列维特和他的同事马克·达根(Mark Duggan)使用了11年中超过64000场摔跤比赛的记录,来寻找异常性。他们获得了重大的发现。非法操纵比赛结果的情况确实时有发生,但是不会出现在大家很关注的比赛上。冠军赛也有可能被操纵,但是数据显示消极比赛主要还是出现在不太被关注的联赛的后几场中。这时基本上没有什么风险,因为很多选手根本就没有获奖的希望。
1703947420
1703947421 相扑比赛的一个比较特殊的地方是,选手需要在15场赛事中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一名7胜7负的摔跤手碰到一个8胜6负的对手时,比赛结果对第一个选手来说极其重要,对他的对手而言则没有那么重要。列维特和达根发现,在这样的情况下,需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”,因为在联系紧密的相扑界,帮别人一把就是给自己留了一条后路。
1703947422
1703947423 有没有可能是要赢的决心帮助这个选手获胜呢?答案是,有可能。但是数据显示的情况是,需要赢的选手的求胜心也只能把胜率提高25%。所以,把胜利完全归功于求胜心是不妥当的。对数据进行进一步分析可能会发现,与他们在先前比赛中的表现相比,当他们再相遇时,上次失利的一方要拥有比对方更高的胜率。因为在相扑界,你的付出总会有所“回报”,所以第一次的胜利看上去更像是一名选手送给另一名选手的礼物。
1703947424
1703947425 这个情况是显而易见的。但是如果采用随机采样分析法,就无法发现这个情况。而大数据分析通过使用所有比赛的极大数据捕捉到了这个情况。这就像捕鱼一样,开始时你不知道是否能捕到鱼,也不知道会捕到什么鱼。
1703947426
1703947427 一个数据库并不需要有以太字节[5]计的数据。在这个相扑案例中,整个数据库包含的字节量还不如一张普通的数码照片包含得多。但是大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义,也就是说这是相对所有数据来说的。
1703947428
1703947429 很长一段时间内,随机采样都是一条好的捷径,它使得数字时代之前的大量数据分析变得可能。但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的,在采样分析的时候,很多信息就丢失了——你能欣赏一首歌的抽样吗?拥有全部或几乎全部的数据,我们就能够从不同的角度,更细致地观察和研究数据的方方面面。
1703947430
1703947431 我们可以用Lytro相机来打一个恰当的比方。Lytro相机是具有革新性的,因为它把大数据运用到了基本的摄影中。与传统相机只可以记录一束光不同,Lytro相机可以记录整个光场里所有的光,达到1100万束之多。具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在一开始就聚焦,因为该相机可以捕捉到所有的数据,所以之后可以选择聚焦图像中的任一点。整个光场的光束都被记录了,也就是收集了所有的数据,“样本=总体”。因此,与普通照片相比,这些照片就更具“可循环利用性”。如果使用普通相机,摄影师就必须在拍照之前决定好聚焦点。
1703947432
1703947433 同理,因为大数据是建立在掌握所有数据,至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的分析。在任何细微的层面,我们都可以用大数据去论证新的假设。是大数据让我们发现了相扑中的非法操纵比赛结果、流感的传播区域和对抗癌症需要针对的那部分DNA。它让我们能清楚分析微观层面的情况。
1703947434
1703947435 当然,有些时候,我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代。但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择。
1703947436
1703947437 社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析实证数据。这门学科过去曾非常依赖样本分析、研究和调查问卷。当记录下来的是人们的平常状态,也就不用担心在做研究和调查问卷时存在的偏见[6]了。现在,我们可以收集过去无法收集到的信息,不管是通过移动电话表现出的关系,还是通过Twitter信息表现出的感情。更重要的是,我们现在也不再依赖抽样调查了。
1703947438
1703947439 艾伯特-拉斯洛·巴拉巴西(Albert-László Barabási)[7],和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。
1703947440
1703947441 有趣的是,与小规模的研究相比,这个团队发现,如果把一个在社区内有很多连接关系的人从社区关系网中剔除掉,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。[8]这个研究结果非常重要也非常得出人意料。谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢?[9]这说明一般来说无论是针对一个小团体还是整个社会,多样性是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值。
1703947442
1703947443 大数据洞察
1703947444
1703947445 我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。
1703947446
1703947447 [1] 约翰·格朗特的尝试可以参见他闻名世界的著作Natural and Political Observations Made upon the Bills of Mortality。尽管他并未真正给出一种有效的办法来推断疾病流行时的人口数或死亡率,但是他首次建立了区分各年龄段的存活率表,因此被认为是人口统计学的主要创始人之一。——译者注
1703947448
1703947449 [2] 在对一个量(例如年收入)进行估计的时候,如果总体可以分为很多层(例如所有人口按照不同年龄或者不同职业分成很多层),一种直观的想法是每一层随机抽样的样本大小应该正比于这个层所包含人口的多少。奈曼指出,最优分配并非如此简单,实际上,层越大,层内待估计量的变化越大,该层抽样的单位费用越小,则该层的抽样就应该越多。具体的公式和推导过程可以参考1934年奈曼在Journal of the Royal Statistical Society上发表的“On the two different aspects of the representative method:The method of stratified sampling and the method of purposive selection”一文。——译者注。
1703947450
1703947451 [3] 此处指对回答“是”的概率的估计精度可以达到97%左右,也就是说估计值的标准差在3%左右。——译者注
1703947452
1703947453 [4] 刚才讨论的还只是最简单的经典抽样问题。尽管奈曼等人指出了其中非平凡的问题,但毕竟存在最优抽样的判断标准和最优方法。最近,祝建华教授在一次讨论中指出,如果抽样的对象更复杂,例如是一个网络,那么根本找不到一个“最优抽样”的标准,更不可能奢求抽样得到的小网络能够反映总体的所有结构特性。——译者注
1703947454
1703947455 [5] 太字节,一般记作TB,等于240字节。——译者注
1703947456
1703947457 [6] 这种偏见既包括研究者设计实验和问卷时的偏差,也包括被试人员由于了解自己作为被试的角色而产生的不同于日常的心理和行为。——译者注
1703947458
1703947459 [7] 全球最权威的复杂网络研究专家之一,其最新作品《爆发》(Bursts)是大数据新科学范式的典型代表,该书的简体中文版已由湛庐文化策划、中国人民大学出版社出版,推荐与本书参照阅读。——译者注
1703947460
1703947461 [8] 作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点(手机用户)的情形,而是考察从网络中移除链路(通话关系)对网络结构的影响。借鉴渗流理论(Percolation Theory),作者发现,移除弱关系而非强关系反而会导致快速破碎成若干小碎片。详细分析可以参考Onnela等人2007年在《美国科学院院刊》上发表的“Structure and tie strengths in mobile communication networks”一文。——译者注
1703947462
1703947463 [9] 就个人而言,可以通过重叠社区挖掘的方法找到同时属于多个社区的节点,这些人往往对网络连通性至关重要。就联系而言,可以挖掘起桥接作用的连边,这些连边往往对网络连通性至关重要。这方面的概念和算术可参考2005年Palla等人在《自然》上发表的名为“Uncovering the overlapping community structure of complex networks in nature and society”一文及2010年程学旗等人在《统计力学杂志》上发表的名为“Bridgeness:a local index on edge significance in maintaining global connectivity”一文。——译者注
1703947464
1703947465
1703947466
1703947467
[ 上一页 ]  [ :1.703947418e+09 ]  [ 下一页 ]