打字猴:1.703947704e+09

1703947704 1997年，24岁的格雷格·林登（Greg Linden）在华盛顿大学就读博士，研究人工智能，闲暇之余，他会在网上卖书。他的网店运营才两年就已经生意兴隆。他回忆说：“我爱卖书和知识，帮助人们找到下一个他们可能会感兴趣的知识点。”他注册的这家网店就是日后大获成功的亚马逊。后来林登被亚马逊聘为软件工程师，以确保网站的正常运行。

1703947705

1703947706 亚马逊的技术含量不仅体现在其工作人员上。虽然亚马逊的故事大多数人都耳熟能详，但只有少数人知道它的内容最初是由人工亲自完成的。当时，它聘请了一个由20多名书评家和编辑组成的团队，他们写书评、推荐新书，挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”这个版块，成为当时公司这顶皇冠上的一颗宝石，是其竞争优势的重要来源。《华尔街日报》的一篇文章中热情地称他们为全美最有影响力的书评家，因为他们使得书籍销量猛增。

1703947707

1703947708 杰夫·贝索斯（Jeff Bezos），亚马逊公司的创始人以及总裁，决定尝试一个极富创造力的想法：根据客户个人以前的购物喜好，为其推荐具体的书籍。从一开始，亚马逊已从每一个客户身上捕获了大量的数据。比如说，他们购买了什么书籍？哪些书他们只浏览却没有购买？他们浏览了多久？哪些书是他们一起购买的？

1703947709

1703947710 客户的信息数据量非常大，所以亚马逊必须先用传统的方法对其进行处理，通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的，就如同你在波兰购买一本书，会被东欧其他地区的价格水平搞得晕头转向，或者在买一件婴儿用品时，会被淹没在一堆差不多的婴儿用品中一样。詹姆斯·马库斯（James Marcus）回忆说：“推荐信息往往为你提供与你以前购买物品有微小差异的产品，并且循环往复。”詹姆斯·马库斯从1996年到2001年都是亚马逊的书评家，在他的回忆录《亚马逊》（Amazonia）里，他说道：“那种感觉就像你和一群脑残在一起逛书店。”

1703947711

1703947712 格雷格·林登很快就找到了一个解决方案。他意识到，推荐系统实际上并没有必要把顾客与其他顾客进行对比，这样做其实在技术上也比较烦琐。它需要做的是找到产品之间的关联性。1998年，林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利[1]。方法的转变使技术发生了翻天覆地的变化。

1703947713

1703947714 因为估算可以提前进行，所以推荐系统快如闪电，而且适用于各种各样的产品。因此，当亚马逊跨界销售除书以外的其他商品时，也可以对电影或烤面包机这些产品进行推荐。由于系统中使用了所有的数据，推荐会更理想。林登回忆道：“在组里有句玩笑话，说的是如果系统运作良好，亚马逊应该只推荐你一本书，而这本书就是你将要买的下一本书。”

1703947715

1703947716 现在，公司必须决定什么应该出现在网站上。是亚马逊内部书评家写的个人建议和评论，还是由机器生成的个性化推荐和畅销书排行榜？批评者说了什么，或者是顾客的点击意味着什么？从字面上来讲，这是一场人与鼠标的战争。

1703947717

1703947718 林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试，结果他发现两者之间的业绩相差甚远。他解释说，通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书。但是这似乎并不重要，重要的是销量。最后，编辑们看到了销售额分析，亚马逊也不得不放弃每次的在线评论，最终书评组被解散了。林登回忆说：“书评团队被打败、被解散，我感到非常难过。但是，数据没有说谎，人工评论的成本是非常高的。”

1703947719

1703947720 如今，据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。有了它，亚马逊不仅使很多大型书店和音乐唱片商店歇业，而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。事实上，林登的工作彻底改变了电子商务，现在几乎每个人都在使用电子商务。

1703947721

1703947722 奈飞公司是一个在线电影租赁公司，它四分之三的新订单都来自推荐系统。在亚马逊的带领下，成千上万的网站可以推荐产品、内容和朋友以及很多相关的信息，但并不知道为什么人们会对这些信息感兴趣。

1703947723

1703947724 知道人们为什么对这些信息感兴趣可能是有用的，但这个问题目前并不是很重要。但是，知道“是什么”可以创造点击率，这种洞察力足以重塑很多行业，不仅仅只是电子商务。所有行业中的销售人员早就被告知，他们需要了解是什么让客户做出了选择，要把握客户做决定背后的真正原因，因此专业技能和多年的经验受到高度重视。大数据却显示，还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系，但不知道背后的原因。知道是什么就够了，没必要知道为什么。

1703947725

1703947726 大数据时代：生活、工作与思维的大变革 [:1703946861]

1703947727 关联物，预测的关键

1703947728

1703947729 在小数据世界中，相关关系也是有用的，但在大数据的背景下，相关关系大放异彩。通过应用相关关系，我们可以比以前更容易、更快捷、更清楚地分析事物。

1703947730

1703947731 大数据洞察

1703947732

1703947733 相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时，另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系，比如谷歌流感趋势：在一个特定的地理位置，越多的人通过谷歌搜索特定的词条，该地区就有更多的人患了流感。

1703947734

1703947735 相反，相关关系弱就意味着当一个数据值增加时，另一个数据值几乎不会发生变化。[2]例如，我们可以寻找关于个人的鞋码和幸福的相关关系，但会发现它们几乎扯不上什么关系。

1703947736

1703947737 相关关系通过识别有用的关联物来帮助我们分析一个现象，而不是通过揭示其内部的运作机制。当然，即使是很强的相关关系也不一定能解释每一种情况，比如两个事物看上去行为相似，但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所言，我们可能只是“被随机性所愚弄”而已。相关关系没有绝对，只有可能性。也就是说，不是亚马逊推荐的每本书都是顾客想买的书。但是，如果相关关系强，一个相关链接成功的概率是很高的。这一点很多人可以证明，他们的书架上有很多书都是因为亚马逊推荐而购买的。

1703947738

1703947739 通过给我们找到一个现象的良好的关联物，相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生，我们只需要注意到B发生了，就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情，即使我们不能直接测量或观察到A。更重要的是，它还可以帮助我们预测未来可能发生什么。当然，相关关系是无法预知未来的，他们只能预测可能发生的事情。但是，这已经极其珍贵了。

1703947740

1703947741 大数据先锋

1703947742

1703947743 沃尔玛，请把蛋挞与飓风用品摆在一起

1703947744

1703947745 沃尔玛是世界上最大的零售商，拥有超过200万的员工，销售额约4500亿美元，比大多数国家的国内生产总值还多。在网络带来巨多数据之前，沃尔玛在美国企业中拥有的数据资源应该是最多的。[3]

1703947746

1703947747 在20世纪90年代，零售链通过把每一个产品记录为数据而彻底改变了零售行业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透明度来迫使供应商照顾好自己的物流。在许多情况下，沃尔玛不接受产品的“所有权”，除非产品已经开始销售，这样就避免了存货的风险也降低了成本。实际上，沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

1703947748

1703947749 倘若得到正确分析，历史数据能够解释什么呢？零售商与天睿资讯（Teradata）[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年，沃尔玛对历史交易记录这个庞大的数据库进行了观察，这个数据库记录的不仅包括每一个顾客的购物清单以及消费额，还包括购物篮中的物品、具体购买时间，甚至购买当日的天气。

1703947750

1703947751 沃尔玛公司注意到，每当在季节性飓风来临之前，不仅手电筒销售量增加了，而且POP-Tarts蛋挞（美式含糖早餐零食）的销量也增加了。因此，当季节性风暴来临时，沃尔玛会把库存的蛋挞放在靠近飓风用品的位置，以方便行色匆匆的顾客从而增加销量。

1703947752

1703947753 过去，总部的人员们需要先有了想法，然后才能收集数据来测试这个想法的可行性。如今，我们有了如此之多的数据和更好的工具，所以要找到相关系变得更快、更容易了。这就意味着我们必须关注：当数据点以数量级方式增长的时候，我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期，所以这一点需要我们高度重视。

[ 上一页 ] [ :1.703947704e+09 ] [ 下一页 ]