打字猴:1.703948447e+09
1703948447 例如,谷歌敏锐地注意到,人们经常搜索某个词及其相关词,点击进入后却未能找到想要的信息,于是又返回到搜索页面继续搜索。它知道人们点击的是第1页的第8个链接还是第8页的第1个链接,或者是干脆放弃了所有搜索点击。谷歌不是第一个洞察到这一点的公司,但它利用这一点并取得了非凡的成果。
1703948448
1703948449 这些信息是非常有价值的。如果许多用户都点击搜索结果页底部的链接,就表明这个结果更加具有相关性,谷歌的排名算法就会自动地在随后的搜索中将它提到页面中比较靠前的位置(广告也是如此)。一位谷歌的员工说:“我们喜欢从大的‘噪音’数据集中吸取教训。”
1703948450
1703948451 数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
1703948452
1703948453 很多企业都开始设计他们的系统,以这种方式收集和使用信息。在Facebook的早期,数据科学家们研究了数据废气的丰富信息,发现人们会采取某种行动(如回帖、点击图标等)的最重要的预测指标就是他们看到了周围的朋友也在这么做。紧接着,Facebook重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。逐渐地,这个想法从互联网行业传播至可以收集用户反馈的任何公司。
1703948454
1703948455 大数据先锋
1703948456
1703948457 巴诺与NOOK快照
1703948458
1703948459 电子书阅读器捕捉了大量关于文学喜好和阅读人群的数据:读者阅读一页或一节需要多长时间,读者是略读还是直接放弃阅读,读者是否画线强调或者在空白处做了笔记,这些他们都会记录下来。这就将阅读这种长期被视为个人行为的动作转换成了一种共同经验。一旦聚集起来,数据废气可以用量化的方式向出版商和作者展示一些他们可能永远都不会知道的信息,如读者的好恶和阅读模式。这是十分具有商业价值的。电子图书出版公司可以将这些信息卖给出版商,从而帮助改进书籍的内容和结构。例如,巴诺通过分析Nook电子阅读器的数据了解到,人们往往会弃读长篇幅的非小说类书籍。公司从中受到启发,从而推出“Nook快照”,加入了一系列健康和时事等专题的短篇作品。
1703948460
1703948461 Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万,产生的数据也十分惊人。教授们现在可以看到,如果大部分学生需要再看一遍课程内容,就可能表明某些地方他们还不太清楚。在斯坦福大学教授安德鲁·恩格(Andrew Ng)讲授的Coursera机器学习课堂上,他注意到约有2000名学生课外作业的答案是错误的,但错误答案居然是相同的。显然,他们都犯了相同的错误,那么是什么呢?
1703948462
1703948463 随着一点点的调查,他终于弄清楚了,他们把一个算法里的两个代数方程弄反了。[2]所以如果现在还有其他学生犯同样错误的话,系统不会简单地告诉他们做错了,而是会提示他们去检查算法。这个系统也应用了大数据,通过分析学生看过的每个论坛帖子以及他们是否正确完成课外作业,来预测看过某个帖子之后的学生正确作答的概率,并由此来确定哪些论坛帖子最适合学生阅读。这些都是过去很难得知的,现在却永远地改变了教学方式。
1703948464
1703948465 数据废气可以成为公司的巨大竞争优势,也可能成为对手的强大进入壁垒。试想,如果一家新上市的公司设计了一个比当今行业领先者(如亚马逊、谷歌或Facebook等)更优秀的电子商务网站、社交网站或搜索引擎,它也难以同对手竞争,这不仅是因为其经济规模、网络效应或品牌价值不够好,而是因为这些公司收集了来自客户交互的数据废气并纳入到他们的服务中。一个新的在线教育网站有能力与一个已经具备庞大数据库并且由此知道什么最好的对手相抗衡吗?
1703948466
1703948467 大数据时代:生活、工作与思维的大变革 [:1703946880]
1703948468 数据创新6:开放数据
1703948469
1703948470 如今,我们很可能认为谷歌和亚马逊等网站是大数据的先驱者,但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有人之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。因此,政府将继续收集和积累大量的数据。
1703948471
1703948472 大数据对于公共部门的适用性同对商业实体是一样的:大部分的数据价值都是潜在的,需要通过创新性的分析来释放。但是,由于政府在获取数据中所处的特殊地位,因此他们在数据使用上往往效率很低。最近有一个想法得到了公认,即提取政府数据价值最好的办法是允许私营部门和社会大众访问。这其实是基于一个原则:国家收集数据时代表的是其公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害到国家安全或他人隐私权的情况除外。
1703948473
1703948474 这种想法让“开放政府数据”的倡议响彻全球。开放数据的倡导者主张,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。他们呼吁建立专门的官方机构来公布民用和商业数据;而且数据必须以标准的可机读形式展现,以方便人们处理。否则,信息的公开只会是徒有虚名。
1703948475
1703948476 2008年1月21日,奥巴马总统在就职的第一天发表了一份总统备忘录,命令美国联邦机构的负责人公布尽可能多的数据,这使开放政府数据的想法取得了极大的进展。“面对怀疑,公开优先。”他这样指示道。这真是一个了不起的声明,特别是与那些作出相反指令的前任们相比。奥巴马的指令促成了data.gov网站的建立,这是美国联邦政府的公开信息资料库。网站从2009年的47个数据集迅速发展起来,到2012年7月三周年时,数据集已达45万个左右,涵盖了172个机构。
1703948477
1703948478 即使是在严谨的英国[3],现在也出现了实质性的转变。英国政府已经颁布相关规定鼓励信息公开,并支持创建由万维网的发明者蒂姆·伯纳斯(Tim Berners-Lee)参与指导的开放式数据中心,这一举措促进了开放数据的新用途并将数据从国家手中解放出来。
1703948479
1703948480 欧盟宣布开放数据的举措很快也会遍及整个欧洲。其他国家,如澳大利亚、巴西、智利等也相继出台并实施了开放数据策略。同时,世界各地越来越多的城市和地区也已经加入开放数据的热潮,一些国际组织也是如此,世界银行就公开了数百个之前被限制的关于经济和社会指标方面的数据集。
1703948481
1703948482 同时,各种Web开发人员和富有远见的思想家组成了数据团队来最大化开放数据价值,如美国的阳光基金会和英国的开放知识基金会。
1703948483
1703948484 大数据先锋
1703948485
1703948486 FlyOnTime的航班时间预测
1703948487
1703948488 开放数据早期的一个例子,来自美国一个叫FlyOnTime.us的网站。人们可以交互地(从许多其他相互关系中)判断恶劣天气使某一特定机场的航班延迟的可能性有多大。该网站结合了航班信息和互联网免费提供的官方天气预报。它是由开放数据的倡导者开发的,由此来说明美国联邦政府所积累信息的实际使用价值。不仅数据是免费提供的,而且软件代码也是开放源代码,可供人们学习和再次利用。
1703948489
1703948490 FlyOnTime.us让数据说话,并且经常语出惊人。人们可以看到,从波士顿到纽约拉瓜迪亚机场的航班因大雾延迟的时间是因雪延迟的两倍。当人们在候机室逗留时,大部分人可能都料想不到这一点,因为他们通常认为雪才是使航班延迟更重要的原因。正是大数据给了人们这种洞察力,只要将交通运输局的历史航班延误数据和美国联邦航空管理局的机场信息,以及美国国家海洋和大气管理局的以往天气报告和国家气象服务的实时状态结合起来,就能揭示这一切。FlyOnTime.us充分体现了一个不收集或控制信息的实体单位是如何像搜索引擎或大零售商一样,能够获取数据并利用其创造价值。
1703948491
1703948492 大数据时代:生活、工作与思维的大变革 [:1703946881]
1703948493 给数据估值
1703948494
1703948495 无论是向公众开放还是将其锁在公司的保险库中,数据的价值都难以衡量。来看看2012年5月18日星期五发生的事吧。这一天,28岁的Facebook创始人马克·扎克伯格(Mark Zuckerberg)在位于美国加利福尼亚州门洛帕克市的公司总部,象征性地敲响了纳斯达克的开盘钟。这家宣称全球约每十人中就有一人是其用户的全球最大社交网络公司,开启了其作为上市公司的征程。
1703948496
[ 上一页 ]  [ :1.703948447e+09 ]  [ 下一页 ]