1703947694
大数据预测早产儿病情
1703947695
1703947696
幸福感的非线性关系
1703947697
1703947698
二手车质量预测
1703947699
1703947700
纽约大型沙井盖爆炸预测
1703947701
1703947702
林登与亚马逊推荐系统
1703947703
1703947704
1997年,24岁的格雷格·林登(Greg Linden)在华盛顿大学就读博士,研究人工智能,闲暇之余,他会在网上卖书。他的网店运营才两年就已经生意兴隆。他回忆说:“我爱卖书和知识,帮助人们找到下一个他们可能会感兴趣的知识点。”他注册的这家网店就是日后大获成功的亚马逊。后来林登被亚马逊聘为软件工程师,以确保网站的正常运行。
1703947705
1703947706
亚马逊的技术含量不仅体现在其工作人员上。虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它的内容最初是由人工亲自完成的。当时,它聘请了一个由20多名书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”这个版块,成为当时公司这顶皇冠上的一颗宝石,是其竞争优势的重要来源。《华尔街日报》的一篇文章中热情地称他们为全美最有影响力的书评家,因为他们使得书籍销量猛增。
1703947707
1703947708
杰夫·贝索斯(Jeff Bezos),亚马逊公司的创始人以及总裁,决定尝试一个极富创造力的想法:根据客户个人以前的购物喜好,为其推荐具体的书籍。从一开始,亚马逊已从每一个客户身上捕获了大量的数据。比如说,他们购买了什么书籍?哪些书他们只浏览却没有购买?他们浏览了多久?哪些书是他们一起购买的?
1703947709
1703947710
客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的,就如同你在波兰购买一本书,会被东欧其他地区的价格水平搞得晕头转向,或者在买一件婴儿用品时,会被淹没在一堆差不多的婴儿用品中一样。詹姆斯·马库斯(James Marcus)回忆说:“推荐信息往往为你提供与你以前购买物品有微小差异的产品,并且循环往复。”詹姆斯·马库斯从1996年到2001年都是亚马逊的书评家,在他的回忆录《亚马逊》(Amazonia)里,他说道:“那种感觉就像你和一群脑残在一起逛书店。”
1703947711
1703947712
格雷格·林登很快就找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做其实在技术上也比较烦琐。它需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利[1]。方法的转变使技术发生了翻天覆地的变化。
1703947713
1703947714
因为估算可以提前进行,所以推荐系统快如闪电,而且适用于各种各样的产品。因此,当亚马逊跨界销售除书以外的其他商品时,也可以对电影或烤面包机这些产品进行推荐。由于系统中使用了所有的数据,推荐会更理想。林登回忆道:“在组里有句玩笑话,说的是如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。”
1703947715
1703947716
现在,公司必须决定什么应该出现在网站上。是亚马逊内部书评家写的个人建议和评论,还是由机器生成的个性化推荐和畅销书排行榜?批评者说了什么,或者是顾客的点击意味着什么?从字面上来讲,这是一场人与鼠标的战争。
1703947717
1703947718
林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现两者之间的业绩相差甚远。他解释说,通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书。但是这似乎并不重要,重要的是销量。最后,编辑们看到了销售额分析,亚马逊也不得不放弃每次的在线评论,最终书评组被解散了。林登回忆说:“书评团队被打败、被解散,我感到非常难过。但是,数据没有说谎,人工评论的成本是非常高的。”
1703947719
1703947720
如今,据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。有了它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。事实上,林登的工作彻底改变了电子商务,现在几乎每个人都在使用电子商务。
1703947721
1703947722
奈飞公司是一个在线电影租赁公司,它四分之三的新订单都来自推荐系统。在亚马逊的带领下,成千上万的网站可以推荐产品、内容和朋友以及很多相关的信息,但并不知道为什么人们会对这些信息感兴趣。
1703947723
1703947724
知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视。大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要知道为什么。
1703947725
1703947727
关联物,预测的关键
1703947728
1703947729
在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。
1703947730
1703947731
大数据洞察
1703947732
1703947733
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。
1703947734
1703947735
相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。[2]例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。
1703947736
1703947737
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所言,我们可能只是“被随机性所愚弄”而已。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。
1703947738
1703947739
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。
1703947740
1703947741
大数据先锋
1703947742
1703947743
沃尔玛,请把蛋挞与飓风用品摆在一起
[
上一页 ]
[ :1.703947694e+09 ]
[
下一页 ]