打字猴:1.703948423e+09
1703948423 数据再利用的方式可以很巧妙、很隐蔽。网络公司可以捕捉到用户在其网站上做的所有事情,然后将每个离散交互当作一个“信号”,作为网站个性化、提高服务或创建全新数字化产品的反馈。两个关于拼写检查的故事给我们提供了一个生动的解释。
1703948424
1703948425 大数据先锋
1703948426
1703948427 微软与谷歌的拼写检查
1703948428
1703948429 在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序,通过与频繁更新的字典正确拼写相比较来对用户键入的字符流进行判断。字典囊括了所有已知词汇,系统将拼写相似但字典中没有的词汇判断为拼写错误,并对其进行纠正。由于需要不断编译和更新字典,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。
1703948430
1703948431 现在再来看看谷歌是怎么做的吧。可以说,谷歌拥有世界上最完整的拼写检查器,基本上涵盖了世界上的每一种语言。这个系统一直在不断地完善和增加新的词汇,这是人们每天使用搜索引擎的附加结果。你输错了iPad吗?不要紧,它在那儿呢;Obamacare是什么?哦,明白了。
1703948432
1703948433 而且,谷歌几乎是“免费”地获得了这种拼写检查,它依据的是其每天处理的30亿查询中输入搜索框中的错误拼写。一个巧妙的反馈循环可以将用户实际想输入的内容告知系统。当搜索结果页面的顶部显示“你要找的是不是:流行病学”时,用户可以通过点击正确的术语明确地“告诉”谷歌自己需要重新查询的内容。或者,直接在用户访问的页面上显示正确拼写的结果,因为它很可能与正确的拼写高度相关。(这实际上比看上去更有意义,因为随着谷歌拼写检查系统的不断完善,人们即使没有完全精确地输入查询内容也能够获得正确的查询结果。)
1703948434
1703948435 谷歌的拼写检查系统显示,那些“不合标准”、“不正确”或“有缺陷”的数据也是非常有用的。有趣的是,谷歌并不是第一个有这种拼写想法的公司。2000年左右,雅虎也看到了从用户输错的查询中创建拼写检查系统的可能性,但只是停留在了想法阶段,并未付诸实践。旧的搜索查询数据就这样被当成了垃圾对待。同样,Infoseek和Alta Vista这两个早期流行的搜索引擎,虽然在那个年代都拥有世界上最全面的错别字数据库,但他们未懂得欣赏其中的价值。在用户不可见的搜索过程中,他们的系统将错别字作为“相关词”进行了处理,但是它的依据是明确告诉系统对与错的字典,而不是鲜活的、有生命的用户交互的总和。
1703948436
1703948437 只有谷歌认识到了用户交互的碎屑实际上是金粉,收集在一起就能锻造成一块闪亮的金元宝。谷歌的一名顶级工程师估计,他们的拼写检查器性能比微软至少高出一个数量级(虽然他在采访时承认这并没有进行过可靠计算)。他还嘲笑了“免费”开发的想法——“虽然原材料拼写错误都是免费获得的,但谷歌在系统开发上的花费可能比微软要多得多。”他大笑着说。
1703948438
1703948439 这两家公司的不同做法很能说明问题。微软只看到了拼写检查作为文字处理这一个目的的价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中,如搜索的“自动完成”功能、Gmail、谷歌文档甚至翻译系统。
1703948440
1703948441 一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析并反馈给系统。
1703948442
1703948443 大数据先锋
1703948444
1703948445 谷歌,从大的“噪音”数据中受益
1703948446
1703948447 例如,谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。
1703948448
1703948449 这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置(广告也是如此)。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
1703948450
1703948451 数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
1703948452
1703948453 很多企业都开始设计他们的系统,以这种方式收集和使用信息。在Facebook的早期,数据科学家们研究了数据废气的丰富信息,发现人们会采取某种行动(如回帖、点击图标等)的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着,Facebook重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。逐渐地,这个想法从互联网行业传播至可以收集用户反馈的任何公司。
1703948454
1703948455 大数据先锋
1703948456
1703948457 巴诺与NOOK快照
1703948458
1703948459 电子书阅读器捕捉了大量关于文学喜好和阅读人群的数据:读者阅读一页或一节需要多长时间,读者是略读还是直接放弃阅读,读者是否画线强调或者在空白处做了笔记,这些他们都会记录下来。这就将阅读这种长期被视为个人行为的动作转换成了一种共同经验。一旦聚集起来,数据废气可以用量化的方式向出版商和作者展示一些他们可能永远都不会知道的信息,如读者的好恶和阅读模式。这是十分具有商业价值的。电子图书出版公司可以将这些信息卖给出版商,从而帮助改进书籍的内容和结构。例如,巴诺通过分析Nook电子阅读器的数据了解到,人们往往会弃读长篇幅的非小说类书籍。公司从中受到启发,从而推出“Nook快照”,加入了一系列健康和时事等专题的短篇作品。
1703948460
1703948461 Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万,产生的数据也十分惊人。教授们现在可以看到,如果大部分学生需要再看一遍课程内容,就可能表明某些地方他们还不太清楚。在斯坦福大学教授安德鲁·恩格(Andrew Ng)讲授的Coursera机器学习课堂上,他注意到约有2000名学生课外作业的答案是错误的,但错误答案居然是相同的。显然,他们都犯了相同的错误,那么是什么呢?
1703948462
1703948463 随着一点点的调查,他终于弄清楚了,他们把一个算法里的两个代数方程弄反了。[2]所以如果现在还有其他学生犯同样错误的话,系统不会简单地告诉他们做错了,而是会提示他们去检查算法。这个系统也应用了大数据,通过分析学生看过的每个论坛帖子以及他们是否正确完成课外作业,来预测看过某个帖子之后的学生正确作答的概率,并由此来确定哪些论坛帖子最适合学生阅读。这些都是过去很难得知的,现在却永远地改变了教学方式。
1703948464
1703948465 数据废气可以成为公司的巨大竞争优势,也可能成为对手的强大进入壁垒。试想,如果一家新上市的公司设计了一个比当今行业领先者(如亚马逊、谷歌或Facebook等)更优秀的电子商务网站、社交网站或搜索引擎,它也难以同对手竞争,这不仅是因为其经济规模、网络效应或品牌价值不够好,而是因为这些公司收集了来自客户交互的数据废气并纳入到他们的服务中。一个新的在线教育网站有能力与一个已经具备庞大数据库并且由此知道什么最好的对手相抗衡吗?
1703948466
1703948467 大数据时代:生活、工作与思维的大变革 [:1703946880]
1703948468 数据创新6:开放数据
1703948469
1703948470 如今,我们很可能认为谷歌和亚马逊等网站是大数据的先驱者,但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。因此,政府将继续收集和积累大量的数据。
1703948471
1703948472 大数据对于公共部门的适用性同对商业实体是一样的:大部分的数据价值都是潜在的,需要通过创新性的分析来释放。但是,由于政府在获取数据中所处的特殊地位,因此他们在数据使用上往往效率很低。最近有一个想法得到了公认,即提取政府数据价值最好的办法是允许私营部门和社会大众访问。这其实是基于一个原则:国家收集数据时代表的是其公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害到国家安全或他人隐私权的情况除外。
[ 上一页 ]  [ :1.703948423e+09 ]  [ 下一页 ]