打字猴:1.703947744e+09

1703947744

1703947745 沃尔玛是世界上最大的零售商，拥有超过200万的员工，销售额约4500亿美元，比大多数国家的国内生产总值还多。在网络带来巨多数据之前，沃尔玛在美国企业中拥有的数据资源应该是最多的。[3]

1703947746

1703947747 在20世纪90年代，零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下，沃尔玛不接受产品的“所有权”，除非产品已经开始销售，这样就避免了存货的风险也降低了成本。实际上，沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

1703947748

1703947749 倘若得到正确分析，历史数据能够解释什么呢？零售商与天睿资讯（Teradata）[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年，沃尔玛对历史交易记录这个庞大的数据库进行了观察，这个数据库记录的不仅包括每一个顾客的购物清单以及消费额，还包括购物篮中的物品、具体购买时间，甚至购买当日的天气。

1703947750

1703947751 沃尔玛公司注意到，每当在季节性飓风来临之前，不仅手电筒销售量增加了，而且POP-Tarts蛋挞（美式含糖早餐零食）的销量也增加了。因此，当季节性风暴来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，以方便行色匆匆的顾客从而增加销量。

1703947752

1703947753 过去，总部的人员们需要先有了想法，然后才能收集数据来测试这个想法的可行性。如今，我们有了如此之多的数据和更好的工具，所以要找到相关系变得更快、更容易了。这就意味着我们必须关注：当数据点以数量级方式增长的时候，我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期，所以这一点需要我们高度重视。

1703947754

1703947755 在大数据时代来临前很久，相关关系就已经被证明大有用途。这个观点是1888年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士（Francis Galton）提出的，因为他注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力的，这是相关关系的本质特征，也是让相关关系成为最广泛应用的统计计量方法的原因。但是在大数据时代之前，相关关系的应用很少。因为数据很少而且收集数据很费时费力，所以统计学家们喜欢找到一个关联物，然后收集与之相关的数据进行相关关系分析来评测这个关联物的优劣。那么，如何寻找这个关联物呢？

1703947756

1703947757 除了仅仅依靠相关关系，专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点，关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关关系分析，以证明这个关联物是否真的合适。如果不合适，人们通常会固执地再次尝试，因为担心可能是数据收集的错误，而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢，因为个人以及团体的偏见会蒙蔽我们的双眼，导致我们在设立假想、应用假想和选择关联物的过程中犯错误。总之，这是一个烦琐的过程，只适用于小数据时代。

1703947758

1703947759 在大数据时代，通过建立在人的偏见基础上的关联物监测法已经不再可行，因为数据库太大而且需要考虑的领域太复杂。幸运的是，许多迫使我们选择假想分析法的限制条件也逐渐消失了。我们现在拥有如此多的数据，这么好的机器计算能力，因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。复杂的机器分析能为我们辨认出谁是最好的代理，就像在谷歌流感趋势中，计算机把检索词条在5亿个数学模型上进行测试之后，准确地找出了哪些是与流感传播最相关的词条。

1703947760

1703947761 我们理解世界不再需要建立在假设的基础上，这个假设是指针对现象建立的有关其产生机制和内在机理的假设。因此，我们也不需要建立这样一个假设，关于哪些词条可以表示流感在何时何地传播；我们不需要了解航空公司怎样给机票定价；我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是，我们可以对大数据进行相关关系分析，从而知道哪些检索词条是最能显示流感的传播的，飞机票的价格是否会飞涨，哪些食物是飓风期间待在家里的人最想吃的。我们用数据驱动的关于大数据的相关关系分析法，取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快，而且不易受偏见的影响。

1703947762

1703947763 建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高，以至于我们经常忽略了它的创新性。当然，它的应用会越来越多。

1703947764

1703947765 大数据先锋

1703947766

1703947767 FICO，“我们知道你明天会做什么”

1703947768

1703947769 一个人的信用常被用来预测他/她的个人行为。美国个人消费信用评估公司，也被称为FICO，在20世纪50年代发明了信用分。2011年，FICO提出了“遵从医嘱评分”——它分析一系列的变量来确定这个人是否会按时吃药，包括一些看起来有点怪异的变量。比方说，一个人在某地居住了多久，这个人结婚了没有，他多久换一个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支，因为它们会知道哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系，这只是一种相关关系。但是这就足够激发FICO的首席执行官扬言，“我们知道你明天会做什么。”这是他在2011年的投资人大会上说的。

1703947770

1703947771 另一个征信机构，益百利（Experian）有一种服务，可以根据个人的信用卡交易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国税局的匿名税收数据，益百利能够得出评分结果。

1703947772

1703947773 大数据的力量

1703947774

1703947775 证明一个人的收入状况要花费10美元左右，但是益百利的预测结果售价不足1美元。

1703947776

1703947777 所以有时候，通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”，这些指数是用来预测一个人的支付能力的。

1703947778

1703947779 相关关系的运用更加广泛了。中英人寿保险有限公司（Aviva）是一家大型保险公司，他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。其中用来分析的数据包括好几百种生活方式的数据，比如爱好、常浏览的网站、常看的节目、收入估计等。

1703947780

1703947781 Aviva的预测模型是由德勤咨询公司发明的，公司觉得这可以用来发现健康隐患。其他保险公司如英国保诚保险有限公司（Prudentia）和美国国际集团（AIG）都承认它们也在考虑类似的方法。好处就是，申请者不再需要提供血液和尿液样本了，因为大家都不太喜欢做这个事情。

1703947782

1703947783 大数据的力量

1703947784

1703947785 通过利用相关关系，保险公司可以在每人身上节省125美元，然而这个纯数据分析法只需要花费5美元。

1703947786

1703947787 有些人可能会觉得这种方法听起来很恐怖，这些公司似乎可以利用任何网络上的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思而后行，因为不想因此支付更多的保险费用。让我们在接触任何信息的时候（同时也产生可能被分析的数据）都胆战心惊是一件非常糟糕的事情。但另一方面，这个系统有助于更多的人得到保险，这对于社会和保险公司都是有好处的。

1703947788

1703947789 大数据先锋

1703947790

1703947791 美国折扣零售商塔吉特与怀孕预测

1703947792

1703947793 大数据相关关系分析的极致，非美国折扣零售商塔吉特（Target）莫属了。该公司使用大数据的相关关系分析已经有多年。《纽约时报》的记者查尔斯·杜西格（Charles Duhigg）就在一份报道中阐述了塔吉特公司怎样在完全不和准妈妈对话的前提下预测一个女性会在什么时候怀孕。基本上来说，就是收集一个人可以收集到的所有数据，然后通过相关关系分析得出事情的真实状况。

[ 上一页 ] [ :1.703947744e+09 ] [ 下一页 ]