打字猴:1.703947726e+09

1703947726 大数据时代：生活、工作与思维的大变革 [:1703946861]

1703947727 关联物，预测的关键

1703947728

1703947729 在小数据世界中，相关关系也是有用的，但在大数据的背景下，相关关系大放异彩。通过应用相关关系，我们可以比以前更容易、更快捷、更清楚地分析事物。

1703947730

1703947731 大数据洞察

1703947732

1703947733 相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时，另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系，比如谷歌流感趋势：在一个特定的地理位置，越多的人通过谷歌搜索特定的词条，该地区就有更多的人患了流感。

1703947734

1703947735 相反，相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。[2]例如，我们可以寻找关于个人的鞋码和幸福的相关关系，但会发现它们几乎扯不上什么关系。

1703947736

1703947737 相关关系通过识别有用的关联物来帮助我们分析一个现象，而不是通过揭示其内部的运作机制。当然，即使是很强的相关关系也不一定能解释每一种情况，比如两个事物看上去行为相似，但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所言，我们可能只是“被随机性所愚弄”而已。相关关系没有绝对，只有可能性。也就是说，不是亚马逊推荐的每本书都是顾客想买的书。但是，如果相关关系强，一个相关链接成功的概率是很高的。这一点很多人可以证明，他们的书架上有很多书都是因为亚马逊推荐而购买的。

1703947738

1703947739 通过给我们找到一个现象的良好的关联物，相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生，我们只需要注意到B发生了，就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情，即使我们不能直接测量或观察到A。更重要的是，它还可以帮助我们预测未来可能发生什么。当然，相关关系是无法预知未来的，他们只能预测可能发生的事情。但是，这已经极其珍贵了。

1703947740

1703947741 大数据先锋

1703947742

1703947743 沃尔玛，请把蛋挞与飓风用品摆在一起

1703947744

1703947745 沃尔玛是世界上最大的零售商，拥有超过200万的员工，销售额约4500亿美元，比大多数国家的国内生产总值还多。在网络带来巨多数据之前，沃尔玛在美国企业中拥有的数据资源应该是最多的。[3]

1703947746

1703947747 在20世纪90年代，零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下，沃尔玛不接受产品的“所有权”，除非产品已经开始销售，这样就避免了存货的风险也降低了成本。实际上，沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

1703947748

1703947749 倘若得到正确分析，历史数据能够解释什么呢？零售商与天睿资讯（Teradata）[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年，沃尔玛对历史交易记录这个庞大的数据库进行了观察，这个数据库记录的不仅包括每一个顾客的购物清单以及消费额，还包括购物篮中的物品、具体购买时间，甚至购买当日的天气。

1703947750

1703947751 沃尔玛公司注意到，每当在季节性飓风来临之前，不仅手电筒销售量增加了，而且POP-Tarts蛋挞（美式含糖早餐零食）的销量也增加了。因此，当季节性风暴来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，以方便行色匆匆的顾客从而增加销量。

1703947752

1703947753 过去，总部的人员们需要先有了想法，然后才能收集数据来测试这个想法的可行性。如今，我们有了如此之多的数据和更好的工具，所以要找到相关系变得更快、更容易了。这就意味着我们必须关注：当数据点以数量级方式增长的时候，我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期，所以这一点需要我们高度重视。

1703947754

1703947755 在大数据时代来临前很久，相关关系就已经被证明大有用途。这个观点是1888年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士（Francis Galton）提出的，因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的，这是相关关系的本质特征，也是让相关关系成为最广泛应用的统计计量方法的原因。但是在大数据时代之前，相关关系的应用很少。因为数据很少而且收集数据很费时费力，所以统计学家们喜欢找到一个关联物，然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么，如何寻找这个关联物呢？

1703947756

1703947757 除了仅仅依靠相关关系，专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点，关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析，以证明这个关联物是否真的合适。如果不合适，人们通常会固执地再次尝试，因为担心可能是数据收集的错误，而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢，因为个人以及团体的偏见会蒙蔽我们的双眼，导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之，这是一个烦琐的过程，只适用于小数据时代。

1703947758

1703947759 在大数据时代，通过建立在人的偏见基础上的关联物监测法已经不再可行，因为数据库太大而且需要考虑的领域太复杂。幸运的是，许多迫使我们选择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据，这么好的机器计算能力，因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。复杂的机器分析能为我们辨认出谁是最好的代理，就像在谷歌流感趋势中，计算机把检索词条在5亿个数学模型上进行测试之后，准确地找出了哪些是与流感传播最相关的词条。

1703947760

1703947761 我们理解世界不再需要建立在假设的基础上，这个假设是指针对现象建立的有关其产生机制和内在机理的假设。因此，我们也不需要建立这样一个假设，关于哪些词条可以表示流感在何时何地传播；我们不需要了解航空公司怎样给机票定价；我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是，我们可以对大数据进行相关关系分析，从而知道哪些检索词条是最能显示流感的传播的，飞机票的价格是否会飞涨，哪些食物是飓风期间待在家里的人最想吃的。我们用数据驱动的关于大数据的相关关系分析法，取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快，而且不易受偏见的影响。

1703947762

1703947763 建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高，以至于我们经常忽略了它的创新性。当然，它的应用会越来越多。

1703947764

1703947765 大数据先锋

1703947766

1703947767 FICO，“我们知道你明天会做什么”

1703947768

1703947769 一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司，也被称为FICO，在20世纪50年代发明了信用分。2011年，FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药，包括一些看起来有点怪异的变量。比方说，一个人在某地居住了多久，这个人结婚了没有，他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支，因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系，这只是一种相关关系。但是这就足够激发FICO的首席执行官扬言，“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的。

1703947770

1703947771 另一个征信机构，益百利（Experian）有一种服务，可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据，益百利能够得出评分结果。

1703947772

1703947773 大数据的力量

1703947774

1703947775 证明一个人的收入状况要花费10美元左右，但是益百利的预测结果售价不足1美元。

[ 上一页 ] [ :1.703947726e+09 ] [ 下一页 ]