打字猴:1.703947929e+09
1703947929 我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。
1703947930
1703947931 大数据时代:生活、工作与思维的大变革 [:1703946864]
1703947932 大数据,改变人类探索世界的方法
1703947933
1703947934 在小数据时代,我们会假想世界是怎么运作的,然后通过收集和分析数据来验证这种假想。在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始于数据,也因为数据我们发现了以前不曾发现的联系。
1703947935
1703947936 假想通常来自自然理论或社会科学,它们也是帮助我们解释和预测周遭世界的基础。随着由假想时代到数据时代的过渡,我们也很可能认为我们不再需要理论了。
1703947937
1703947938 2008年,《连线》杂志主编克里斯·安德森(Chris Anderson)就指出:“数据爆炸使得科学的研究方法都落伍了。”后来,他又在《拍字节时代》(The Petabyte Age)的封面故事中讲到,大量的数据从某种程度上意味着“理论的终结”。安德森也表示,用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。
1703947939
1703947940 为了支撑自己的观点,安德森阐述了量子物理学已变成一门纯理论学科的原因,就是因为实验复杂、耗费多而且不可行。他潜在的观点就是,量子物理学的理论已经脱离实际。[6]他提到了谷歌的搜索引擎和基因排序工程,指出:“现在已经是一个有海量数据的时代,应用数学已经取代了其他的所有学科工具。而且只要数据足够,就能说明问题。如果你有一拍字节的数据,只要掌握了这些数据之间的相关关系,一切就都迎刃而解了。”
1703947941
1703947942 这篇文章引发了激烈的争论,虽然安德森本人很快就意识到自己的言辞过于激烈了,但是他的观点确实值得深思。安德森的核心思想是,直到目前为止,我们一直都是把理论应用到实践中来分析和理解世界,而如今处在大数据时代,我们不再需要理论了,只要关注数据就足够了。这就意味着所有的普遍规则都不重要了,比方说世界的运作、人类的行为、顾客买什么、东西什么时候会坏等。如今,重要的就是数据分析,它可以揭示一切问题。
1703947943
1703947944 大数据洞察
1703947945
1703947946 “理论的终结”似乎暗示着,尽管理论仍存在于像物理、化学这样的学科里,但大数据分析不需要成形的概念。这实在荒谬。
1703947947
1703947948 大数据是在理论的基础上形成的。比方说,大数据分析就用到了统计和数学理论,有时候也会用到计算机科学理论。是的,这不是关于像地心引力这样特定现象的产生原因的理论,但是无论如何这依然是理论。而且如我们所见,建立在这些理论上的大数据分析模式是实现大数据预测能力的重要因素。事实上,就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此多新的深刻洞见。
1703947949
1703947950 首先就是关于我们怎么收集数据。我们会不会仅仅看数据收集的方便程度来决定呢?或者看数据收集的成本?我们做这些决定的时候就被理论所影响着,而就如达纳·博伊德(Danah Boyd)和凯特·克劳福德(Kate Crawford)说的,我们的选择一定程度上决定了结果。毕竟,谷歌是用检索词来预测流感而不是鞋码。同样,我们在分析数据的时候,也依赖于理论来选择我们使用的工具。最后,我们解读研究结果的时候同样会使用理论。大数据时代绝对不是一个理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。
1703947951
1703947952 作为第一提出问题的人,安德森应该获得掌声——尽管他的答案不怎么样!大数据绝不会叫嚣“理论已死”,但它毫无疑问会从根本上改变我们理解世界的方式。很多旧有的习惯将被颠覆,很多旧有的制度将面临挑战。
1703947953
1703947954 大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。高科技行业里的很多人认为是依靠新的工具,从高速芯片到高效软件等。当然,这可以理解为因为他们自己是工具创造者。这些问题固然重要,但不是我们需要考虑的问题。大数据趋势的深层原因,就是海量数据的存在以及越来越多的事物是以数据形式存在的,这也是我们下一章要谈论的内容。
1703947955
1703947956 [1] 算法思路可参考林登2003年在IEEE Internet Computing上发表的名为“Amazon.com recommendations:item-to-item collaborative filtering”一文。当然,如同谷歌源于PageRank而现在远不仅是PageRank,亚马逊目前的推荐也远远不止基于对象的协同过滤那么简单。举例而言,我所熟悉的百分点通用推荐引擎就包含了数十种常用算法,数千条行业规则和针对用户意图的场景预测模块等。——译者注
1703947957
1703947958 [2] 严格地讲,即便没有相关性,另一个数据值也可以大幅变化,只是没有趋势可循罢了。——译者注
1703947959
1703947960 [3] 除了利用自有数据外,沃尔玛实验室开始尝试用Facebook好友喜好和Twitter流量与内容分析来实现智能零售。下载一个Facebook上名为shopycat的小应用,就能收到沃尔玛为你创建的礼品清单。——译者注
1703947961
1703947962 [4] Teradata的前身是著名的全美现金出纳机公司。——作者注
1703947963
1703947964 [5] 2011年,Reshef等人在《科学》上发表了题为“Detecting Novel Associations in Large Datasets”一文,探讨了度量双变量复杂相关行为的新方法。截至目前,该方法还不能处理多变量相关。——译者注
1703947965
1703947966 [6] 评价自己不了解的学科,一定要谦虚谨慎,最好是不要做这样的评价。其实,目前的电子产业、纳米加工以及大部分先进的医疗技术都直接来源于量子理论。——译者注
1703947967
1703947968
1703947969
1703947970
1703947971 大数据时代:生活、工作与思维的大变革 [:1703946865]
1703947972 大数据时代:生活、工作与思维的大变革 第二部分 大数据时代的商业变革
1703947973
1703947974 大数据时代:生活、工作与思维的大变革 [:1703946866]
1703947975 04 数据化:一切皆可“量化”
1703947976
1703947977 大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚关灯打向“I”,开始关注信息本身了。
1703947978
[ 上一页 ]  [ :1.703947929e+09 ]  [ 下一页 ]