打字猴:1.704272298e+09
1704272298 2008年是大数据发展的重要一年,尽管当时几乎还没有人提出大数据分析这一概念。就职于在当时仍备受推崇的、雄心勃勃的搜索引擎供应商谷歌的一小撮数据科学家在《自然》杂志上发布了一种大数据应用的方法,即利用大数据(的检测功能)令地球上的人类更加健康(少生病)。科学家们将这种应用命名为GFT:谷歌流感潮(Google Flu Trends)。科学家们宣称,在不与医生沟通的情况下,谷歌可以预言美国境内的流感疫情暴发和地理传播路径。科学家们的预测速度比当时的监测部门美国疾病控制与预防中心(CDC)更快、更准确。
1704272299
1704272300 几十年来,为了实现对流感疫情的监测,CDC搜集相关医疗诊断报告后,能够据此推测出全国居民的健康状况,推测结果公布时间较现实情况有一周左右的延迟。基于这种推测结果,CDC则可采取相关的公共卫生控制措施,例如开展大规模的疫苗接种。谷歌的科学家们基于他们的数据库,找寻到了一种预测居民健康状况的更容易的方法:他们统计居民在搜索引擎中搜索例如“流感有哪些症状”或者“附近有哪些药房”等词条的频率,标记搜索人所在的地点,并将这些统计数据与以往的流感疫情情况比对修正。在2008年,聚合并定位数以百万计的流感相关的搜索信息仅需不到一夜的时间。此外这种研究也证实了与专家发放调查问卷询问的方式(在调查流感疫情时,专家指的就是医生)相比,基于搜索请求统计的分析方法在一定区域内可以得出更微观精细的预测结果。
1704272301
1704272302 “谷歌流感潮”是大数据分析大众媒介影响的一个突破。不仅仅是谷歌公司的员工爱引用“谷歌流感潮”这个案例去促使人们关注谷歌公司的社会价值,关注信息技术仿射问题的记者也终于可以捕捉到一个在智能数据应用方面确凿的、普惠的成功案例。Trendtagen趋势大会的主讲嘉宾操着惯用的“这仅仅是一个开始”的口吻,认为“谷歌流感潮”这个应用实例是基于实证的医学研究革命的开始。分析与商业智能软件公司的销售人员都表现得仿佛他们的公司也参与了编写GFT算法一样,他们是想给人一种感觉,就是他们公司的产品在商业领域能够创造奇迹,就如同谷歌流感潮在公共健康领域创造的奇迹一样。人们也不再质疑在数据驱动下实现的进步。大数据分析领域的三个重要原则,通过谷歌流感潮这一应用案例被大众知晓。
1704272303
1704272304 1.我们拥有的数据量,远比我们想象的多。我们必须寻找新的方法,更有效地使用数据。
1704272305
1704272306 2.通过这些数据,我们可以观察人们的行为,并识别发展趋势,这可以为我们(实时)提供一个更准确的现实图景,其准确程度优于我们之前任何一次通过调查获取认识的方式,因此,我们拥有了更好的决策基础。
1704272307
1704272308 3.我们不再需要探究原因,统计关系会告诉我们,我们需要了解什么。《连线》(WIRED)杂志前主编克里斯·安德森(Chris Anderson)在他的文章《理论的终结》中就提到了这一点。在一个由数据丈量的世界中,我们不再需要理论模型,反正这些理论模型也只能部分为我们阐释世界。如果我们拥有丰富的数据基础,数据自会为自己证言。
1704272309
1704272310 2013年对大数据来说是一个好年景。有人会说,对大数据的发展来说,2013年比2008年还重要,这个就要看我们选取哪些比较指标了——可以是全世界积累的数据量、人们在谷歌上对“大数据”词条的搜索量、跟大数据有关的IT项目投入,也可以是呆伯特漫画里提到大数据词条的次数(2012年第一次提到)。企业咨询顾问、趋势观察员、软件供应商把大数据字样印在彩旗上,画在表格里,在每次PPT(演示文稿)演讲中都会提到。2013年,几乎在德国所有的行业会谈、座谈会和企业战略会中都会提到大数据概念。高德纳咨询公司的“3V”定义(体量、速度、多样化)变成了聚会小圈子里的高雅谈资,不管这个定义到底对他们有没有实际用处,也不论他们到底有多深的IT知识储备,参加聚会的人都重复不停地谈论这一定义。
1704272311
1704272312
1704272313
1704272314
1704272315 简而言之,大数据这个专业术语成为数字化的标签,大数据之“伟大”如同这个概念本身所承载的数据量那样“海量”,也如同这个概念所承诺的那样宏大。当时,整个世界无可救药地中了大数据的“毒”。
1704272316
1704272317 对“谷歌流感潮”项目来说,2013年就没那么幸运了。2月,在《自然》杂志的新闻门户网站上刊登了一篇文章,文章指出,一度宣称能使世界变得更美好的大数据应用领域的典型案例“谷歌流感潮”预测结果出现误报,对一些流感疫情的发生率估计过高,另一方面又认为某些疫情根本不会发生。2009年1月的猪流感事件就属于后一种情况(实际发生,但GFT没预测出来)。
1704272318
1704272319 现在回想起来,“谷歌流感潮”的发展史也可以这样写,谷歌是那个时代在大数据应用领域第一个“吃螃蟹”的人,领先于同业。来自山景城(谷歌总部所在地)的数据工程师率先对外宣称他们可以预测流感趋势。但同时,他们也是第一批令公众失望的人。哈佛大学的一份学术研究报告认为“谷歌流感潮”事件是在对大数据分析整体进行炒作。这份报告中最重要的词汇是“Hybris”,这个词源于古希腊语,在德语中是“Selbstüberschätzung”,译为“傲慢”,即指“大数据傲慢”。2014年4月,《经济学人》杂志刊登了《对大数据的抨击》一文。《纽约时报》在大篇幅的分析文章中提出了“8个(不对,是9个!)大数据存在的问题”。剑桥大学公共风险认识学教授戴维·施皮格哈尔特(David Spiegelhalter)表述得更加直白,他认为以他的经验来看,大数据所承诺的种种,毫无疑问纯属胡说八道。
1704272320
1704272321 技术成熟度曲线(Hype-Cycling)
1704272322
1704272323 信息技术总是“说大话”,承诺很多事情,就好像这些事情在短时间内都会实现一样。这种现象由来已久,是老生常谈,老得就跟第一台计算机一样。这种现象强烈地影响了IT产业从业人员的心态,也逐渐影响了美国IT行业的特质。所有新科技好像就没有不重要的,研发者和销售人员都觉得是颠覆性的创新研发。这种情况有时令我们也很抓狂,事情总是这样,肯定是不行的。
1704272324
1704272325 信息技术总是“说大话”,承诺很多事情,就好像这些事情在短时间内都会实现一样。这种现象由来已久,是老生常谈,老得就跟第一台计算机一样。
1704272326
1704272327 鼓吹信息技术进步的言论是对一种理念坚信不疑的反映,即从长远看,创新技术肯定会得到应用,在一定时期之后,个人、社会组织及企业事实上也会消费创新技术,届时,那些从一开始就对技术创新抱有(过于)积极的态度的主体就会受益。早在20年前(第一个浏览器刚刚使普通人浏览网页成为可能),软件分析师杰姬·芬恩(Jackie Fenn)就提出了一个了不起的、结论性的分析框架,即高德纳公司的技术成熟度曲线分析。
1704272328
1704272329
1704272330
1704272331
1704272332 许多本书的读者对这个曲线并不陌生。用物理学家的话描述这个曲线就是,具有指数特性特征的一条光滑曲线在经历了一个飞跃式上涨的波峰之后,逐步接近一个有走高趋势的平衡位置。如果是在经济领域,这条曲线表示,从指数上看,经过市场上的大肆渲染和宣传,新信息技术首先将经历不断提高的市场关注度。与此同时,对新IT产品的期望值也逐步攀升,但是这些尚不成熟的产品在1.0版时是不可能满足这些期望的。从某种程度上来说,这种期望后产生的失望是意料之中的。如果这些新产品生产企业掌握信息技术资源,很快他们就会推出优化后的2.0版本。
1704272333
1704272334 这些新版本可以实现人们意想不到的优化,比如可以治愈儿童疾病,或是增加了新功能。在这个阶段,对新产品的公众关注度明显降低,人们会更切合实际地去衡量这些新产品的市场潜力和技术局限性。(能够经受住市场检验的)成功的信息技术而后会达到“实际生产高峰期”阶段。此时,消费者知道自己想要什么,他们也非常清楚,这些新产品虽然已经不是最受追捧的了,但是这些新产品基本成熟的功能会使他们所在的机构或组织受益。
1704272335
1704272336 有很多新技术、新产品在跌入谷底之后,就不了了之了,市场低谷成了死亡之谷。
1704272337
1704272338 2011年,大数据作为类概念第一次出现在高德纳年度技术成熟度曲线报告中,在随后的2013年,大数据达到了曲线期望值的顶峰(达到“过高期望的峰值”阶段)。2014年,大数据以“坐过山车”的速度冲向市场关注度的低谷,预计2015年将继续加速向谷底俯冲。[1]这些只是预测层面的,不可回避的是,像施皮格哈尔特这类对大数据持批判态度的顶尖专家绝不会就此认定,大数据会朝着曲线上“实际生产高峰期”方向发展。这是因为,技术成熟度曲线毕竟不是统计分析方面的“再保险曲线图”(具有极高的预测准确度),不是所有时髦的新信息技术都会像技术成熟度曲线预测的那样,在经历了比较长的时间之后,会获得市场的认可。出于回顾验证预测结果的目的,高德纳的分析师们特意关注了一些已经上市的新产品的市场表现,结果发现有很多新技术、新产品在跌入谷底后,就不了了之了,市场低谷成了死亡之谷。
1704272339
1704272340 大数据这个概念的表述还是太模糊,涵盖了许多不同的产品和应用实例,在战略和实操决策层面都引起了一定程度的困惑。没有人能说清楚,在未来的5~10年,我们在企业经营中会用到哪些大数据分析方法。我们也不知道,到那时,我们使用哪些被大肆宣传的“秘密武器”时,会让我们不止一次地回想起“大数据”这个名词。此处有两个原因,一是大数据这个概念中的“大”不能用数量来衡量,二是对于多少数据量是容易或者不容易被运用的,判断过于主观。对有些企业来说,几Pb(10的15次方字节)的数据量就大得不可想象了,对另一些企业来说,处理Eb级的数据量(10的18次方字节)都很轻松。从我们在大数据的大部分商业应用领域的经验来看,企业能够处理的数据量的多寡,在决定某个企业能否达到“实际生产高峰期”阶段方面,是最不关键的因素。后续我们会对此进行更详细的分析,此时,我们大胆预测,在一段或长或短的时间之后,大数据这个概念在企业中将不仅仅作为一个高高在上的抽象化概念存在。
1704272341
1704272342 没有“大爆炸”的大数据
1704272343
1704272344 去年,我们从大企业和较大的中小企业的数据项目中获得了一些经验,在整合这些经验时,我们发现,在对大数据的认识和态度方面,存在如下自相矛盾的现象:
1704272345
1704272346 决策层越高,就越会涉及大数据这一概念,同时对大数据的期望值也越高。如果此时,首席执行官、董事或者战略决策部门还没有深入了解在他们的业务领域面临的最重要的数字化挑战是什么,他们对大数据的期望值还会更高。简而言之就是:
1704272347
[ 上一页 ]  [ :1.704272298e+09 ]  [ 下一页 ]