1703947090
1703947091
如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购买该机票。换言之,这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。这确实是一个浩大的计算机科学项目。不过,这个项目是可行的。于是,埃齐奥尼开始着手启动这个项目。
1703947092
1703947093
埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格的波动。机票降价是因为有很多没卖掉的座位、季节性原因,还是所谓的“周六晚上不出门”,它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。
1703947094
1703947095
这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。
1703947096
1703947097
这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出来,供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃齐奥尼找到了一个行业机票预订数据库。而系统的预测结果是根据美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。如今,Farecast已经拥有惊人的约2000亿条飞行数据记录。利用这种方法,Farecast为消费者节省了一大笔钱。[1]
1703947098
1703947099
棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦·埃齐奥尼。他看上去完全不像是一个会让航空业损失数百万潜在收入的人。但事实上,他的目光放得更长远。2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计划之前,微软公司找上了他并以1.1亿美元的价格收购了Farecast公司。而后,这个系统被并入必应搜索引擎。
1703947100
1703947101
大数据的力量
1703947102
1703947103
到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张机票可节省50美元。
1703947104
1703947105
Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。五年或者十年之前,奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微而重要的改变正在发生,特别是人们关于如何使用数据的理念。
1703947106
1703947107
[1] 有趣的是,这些飞行记录和谷歌的搜索记录一样,也可以用来预测和评估疾病的流行。有兴趣的读者可以参考2010年第12期《科学通报》上名为“H1N1甲型流感全球航空传播与早期预警研究”的研究论文以及2011年Bajardi等人在PLoS ONE上发表的名为“Human Mobility Networks,Travel Restrictions,and the Global Spread of 2009 H1N1 Pandemic”的研究论文。——译者注
1703947108
1703947109
1703947110
1703947111
1703947113
大数据时代:生活、工作与思维的大变革 大数据,变革思维
1703947114
1703947115
人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有用了(对谷歌而言,则是一个检索命令完成之后)。[1]
1703947116
1703947117
大数据洞察
1703947118
1703947119
如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
1703947120
1703947121
信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放有一台电脑,每间办公室内都拥有一个大型局域网。但是,信息本身的用处却并没有如此引人注目。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引发了质变。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念[2]。如今,这个概念几乎应用到了所有人类致力于发展的领域中。
1703947122
1703947123
大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。这导致了新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整齐地排列——一些可以消除僵化的层次结构和一致性[3]的技术也出现了。同时,因为互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理成章地成为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。
1703947124
1703947125
今天,一种可能的方式是,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。
1703947126
1703947127
大数据洞察
1703947128
1703947129
这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。
1703947130
1703947131
[1] 设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。譬如中国某城市的公交车因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数据被工作人员“自作主张”地丢弃了。——译者注
1703947132
1703947133
[2] 有兴趣的读者可以参考2008年9月4日《自然》推出的名为“大数据”的专刊。——译者注
1703947134
1703947135
[3] 这些都是传统数据库结构化查询语言(SQL)的要求,非关系型数据库(NoSQL)不再有这些要求。——译者注
1703947136
1703947137
1703947138
1703947139
[
上一页 ]
[ :1.70394709e+09 ]
[
下一页 ]