打字猴:1.703948408e+09
1703948408 随着数据存储成本的大幅下降,企业拥有了更强的经济动机来保存数据,并再次用于相同或类似的用途。但是,其有效性是有限的。例如,像奈飞和亚马逊这类公司可以利用客户购买的产品、浏览的页面和评论来推荐新的产品,他们可能会年复一年、一遍又一遍地使用这些数据。考虑到这一点,人们可能会认为只要公司不被隐私保护法等法律法规所限制,就应该永远保存这些数字记录,或者至少在经济条件允许的情况下保存这些记录。然而,事实并非如此简单。
1703948409
1703948410 随着时间的推移,大多数数据都会失去一部分基本用途。在这种情况下,继续依赖于旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如十年前你在亚马逊买了一本书,而现在你可能已经对它完全不感兴趣。如果亚马逊继续用这个数据来向你推荐其他书籍,你就不太可能购买带有这类标题的书籍,甚至会担心该网站之后的推荐是否合理。这些推荐的依据既有旧的过时的信息又有近期仍然有价值的数据,而旧数据的存在破坏了新数据的价值。
1703948411
1703948412 于是,亚马逊决定只使用仍有生产价值的数据,这就需要不断地更新数据库并淘汰无用信息。这时面临的挑战就是如何得知哪些数据不再有价值。仅仅依据时间来判断显然不够,[1]因此,亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。例如,如果客户浏览或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。
1703948413
1703948414 然而,并非所有的数据都会贬值。有些公司提倡尽可能长时间地保存数据,即使监管部门或公众要求它们短时间内删除或隐匿这些信息。这就解释了为什么一直以来,谷歌都拒绝将互联网协议地址从旧的搜索查询中完全删除(它只是在18个月后删除了最后四位数以隐匿搜索查询)。谷歌希望得到每年的同比数据,如假日购物搜索等。此外,通过了解搜索者的位置,可以帮助改善搜索结果的相关性。例如,很多纽约人都会搜索“火鸡”,但经常会搜索到与“火鸡”无关的关于“土耳其”的网页(英文中“火鸡”与“土耳其”同为turkey)。通过算法可以将他们想要查看的页面放在排名靠前的位置,来方便其他纽约人查找。即使数据用于基本用途的价值会减少,但潜在价值却依然强大。
1703948415
1703948416 大数据洞察
1703948417
1703948418 潜在价值的概念表明,组织机构应收集尽可能多的使用数据并保存尽可能长的时间。同时也应当与第三方分享数据,前提是要保留所谓的“延展性”权利(专利许可术语)。这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分到一杯羹。数据收集者和拥有者无法想象数据再利用的所有可能方式,这一点几乎是不言自明的。
1703948419
1703948420 大数据时代:生活、工作与思维的大变革 [:1703946879]
1703948421 数据创新5:数据废气
1703948422
1703948423 数据再利用的方式可以很巧妙、很隐蔽。网络公司可以捕捉到用户在其网站上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。两个关于拼写检查的故事给我们提供了一个生动的解释。
1703948424
1703948425 大数据先锋
1703948426
1703948427 微软与谷歌的拼写检查
1703948428
1703948429 在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序,通过与频繁更新的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括了所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断编译和更新字典,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。
1703948430
1703948431 现在再来看看谷歌是怎么做的吧。可以说,谷歌拥有世界上最完整的拼写检查器,基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善和增加新的词汇,这是人们每天使用搜索引擎的附加结果。你输错了iPad吗?不要紧,它在那儿呢;Obamacare是什么?哦,明白了。
1703948432
1703948433 而且,谷歌几乎是“免费”地获得了这种拼写检查,它依据的是其每天处理的30亿查询中输入搜索框中的错误拼写。一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。当搜索结果页面的顶部显示“你要找的是不是:流行病学”时,用户可以通过点击正确的术语明确地“告诉”谷歌自己需要重新查询的内容。或者,直接在用户访问的页面上显示正确拼写的结果,因为它很可能与正确的拼写高度相关。(这实际上比看上去更有意义,因为随着谷歌拼写检查系统的不断完善,人们即使没有完全精确地输入查询内容也能够获得正确的查询结果。)
1703948434
1703948435 谷歌的拼写检查系统显示,那些“不合标准”、“不正确”或“有缺陷”的数据也是非常有用的。有趣的是,谷歌并不是第一个有这种拼写想法的公司。2000年左右,雅虎也看到了从用户输错的查询中创建拼写检查系统的可能性,但只是停留在了想法阶段,并未付诸实践。旧的搜索查询数据就这样被当成了垃圾对待。同样,Infoseek和Alta Vista这两个早期流行的搜索引擎,虽然在那个年代都拥有世界上最全面的错别字数据库,但他们未懂得欣赏其中的价值。在用户不可见的搜索过程中,他们的系统将错别字作为“相关词”进行了处理,但是它的依据是明确告诉系统对与错的字典,而不是鲜活的、有生命的用户交互的总和。
1703948436
1703948437 只有谷歌认识到了用户交互的碎屑实际上是金粉,收集在一起就能锻造成一块闪亮的金元宝。谷歌的一名顶级工程师估计,他们的拼写检查器性能比微软至少高出一个数量级(虽然他在采访时承认这并没有进行过可靠计算)。他还嘲笑了“免费”开发的想法——“虽然原材料拼写错误都是免费获得的,但谷歌在系统开发上的花费可能比微软要多得多。”他大笑着说。
1703948438
1703948439 这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中,如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。
1703948440
1703948441 一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。
1703948442
1703948443 大数据先锋
1703948444
1703948445 谷歌,从大的“噪音”数据中受益
1703948446
1703948447 例如,谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。
1703948448
1703948449 这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置(广告也是如此)。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
1703948450
1703948451 数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
1703948452
1703948453 很多企业都开始设计他们的系统,以这种方式收集和使用信息。在Facebook的早期,数据科学家们研究了数据废气的丰富信息,发现人们会采取某种行动(如回帖、点击图标等)的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着,Facebook重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。逐渐地,这个想法从互联网行业传播至可以收集用户反馈的任何公司。
1703948454
1703948455 大数据先锋
1703948456
1703948457 巴诺与NOOK快照
[ 上一页 ]  [ :1.703948408e+09 ]  [ 下一页 ]