1703947442
1703947443
大数据洞察
1703947444
1703947445
我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。但是统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的,其历史尚不足一百年。如今,技术环境已经有了很大的改善。在大数据时代进行抽样分析就像是在汽车时代骑马一样。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。慢慢地,我们会完全抛弃样本分析。
1703947446
1703947447
[1] 约翰·格朗特的尝试可以参见他闻名世界的著作Natural and Political Observations Made upon the Bills of Mortality。尽管他并未真正给出一种有效的办法来推断疾病流行时的人口数或死亡率,但是他首次建立了区分各年龄段的存活率表,因此被认为是人口统计学的主要创始人之一。——译者注
1703947448
1703947449
[2] 在对一个量(例如年收入)进行估计的时候,如果总体可以分为很多层(例如所有人口按照不同年龄或者不同职业分成很多层),一种直观的想法是每一层随机抽样的样本大小应该正比于这个层所包含人口的多少。奈曼指出,最优分配并非如此简单,实际上,层越大,层内待估计量的变化越大,该层抽样的单位费用越小,则该层的抽样就应该越多。具体的公式和推导过程可以参考1934年奈曼在Journal of the Royal Statistical Society上发表的“On the two different aspects of the representative method:The method of stratified sampling and the method of purposive selection”一文。——译者注。
1703947450
1703947451
[3] 此处指对回答“是”的概率的估计精度可以达到97%左右,也就是说估计值的标准差在3%左右。——译者注
1703947452
1703947453
[4] 刚才讨论的还只是最简单的经典抽样问题。尽管奈曼等人指出了其中非平凡的问题,但毕竟存在最优抽样的判断标准和最优方法。最近,祝建华教授在一次讨论中指出,如果抽样的对象更复杂,例如是一个网络,那么根本找不到一个“最优抽样”的标准,更不可能奢求抽样得到的小网络能够反映总体的所有结构特性。——译者注
1703947454
1703947455
[5] 太字节,一般记作TB,等于240字节。——译者注
1703947456
1703947457
[6] 这种偏见既包括研究者设计实验和问卷时的偏差,也包括被试人员由于了解自己作为被试的角色而产生的不同于日常的心理和行为。——译者注
1703947458
1703947459
[7] 全球最权威的复杂网络研究专家之一,其最新作品《爆发》(Bursts)是大数据新科学范式的典型代表,该书的简体中文版已由湛庐文化策划、中国人民大学出版社出版,推荐与本书参照阅读。——译者注
1703947460
1703947461
[8] 作者对这项研究的理解稍有不妥。该研究并未关注从网络中移除节点(手机用户)的情形,而是考察从网络中移除链路(通话关系)对网络结构的影响。借鉴渗流理论(Percolation Theory),作者发现,移除弱关系而非强关系反而会导致快速破碎成若干小碎片。详细分析可以参考Onnela等人2007年在《美国科学院院刊》上发表的“Structure and tie strengths in mobile communication networks”一文。——译者注
1703947462
1703947463
[9] 就个人而言,可以通过重叠社区挖掘的方法找到同时属于多个社区的节点,这些人往往对网络连通性至关重要。就联系而言,可以挖掘起桥接作用的连边,这些连边往往对网络连通性至关重要。这方面的概念和算术可参考2005年Palla等人在《自然》上发表的名为“Uncovering the overlapping community structure of complex networks in nature and society”一文及2010年程学旗等人在《统计力学杂志》上发表的名为“Bridgeness:a local index on edge significance in maintaining global connectivity”一文。——译者注
1703947464
1703947465
1703947466
1703947467
1703947469
大数据时代:生活、工作与思维的大变革 02 更杂:不是精确性,而是混杂性
1703947470
1703947471
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。
1703947472
1703947473
【大数据先锋】
1703947474
1703947475
微软与语料库数据添加
1703947476
1703947477
IBM Candidate计算机翻译项目
1703947478
1703947479
无所不包的谷歌翻译系统
1703947480
1703947481
英国石油公司与无线感应器
1703947482
1703947483
麻省理工与通货紧缩预测软件
1703947484
1703947485
Hadoop与VISA的13分钟
1703947486
1703947488
允许不精确
1703947489
1703947490
在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。然而,重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的,而且也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一。
1703947491
[
上一页 ]
[ :1.703947442e+09 ]
[
下一页 ]