打字猴:1.703661285e+09
1703661285
1703661286 一般来说,“结构化”数据都可以以“文字”或者“数字”的格式通过一张二维表的形式来存储(横向维度是以字段表示的一条数据的多个属性,纵向维度是具体的数据条目)。在信息工业发展的前几十年,“结构化”数据大行其道——它以“数据银行”的方式为现代人类加工信息发挥了革命性的作用。
1703661287
1703661288 然而,最近20年来,随着联网设备及渠道的爆炸式发展以及网络整体传输速度的进一步提高,过去以数字、文字形式存储和加工的数据开始大量以视频、图像、音频等形式出现。这些数据大多与传输介质、地理位置、发生时间等许多不可预测的客观因素紧密相关,一般难以简单通过“文字”或者“数字”的格式以二维表的形式存储和加工。做个简单的对比吧。许多人有写日记的爱好,但对于老一辈的人来说,日记只能以书面文字的形式记录和留存,这样的记录可以简单地通过文本加工“标准化”到一张二维数据表中。我们仅需定义“时间”、“作者”和“内容”就能完整记录一篇日记。而今天,网络传输的条件大大改善,搭载了视频采集、音频采集和地理位置采集功能的移动设备俨然让新生代的日记以微博、博客以及各种信息丰满、精彩纷呈的新颖形式出现。在一篇有视频、有图片、有经纬度信息和其他复杂信息的“日志”面前,二维表变得捉襟见肘。
1703661289
1703661290 越来越多的“非结构化数据”正如浪潮般涌到我们面前。
1703661291
1703661292 这一趋势让我们将生活中产生的所有数据——包括“结构化数据”(比如考勤记录、工资流水等)和“非结构化数据”(比如一段旅行中拍摄的照片、一次就餐所订的菜品等)——都纳入“大数据”的范畴。
1703661293
1703661294 可千万不要低估人们生产数据的能力——Google每天处理的搜索量超过30亿次,每秒回答3.4万个问题;中国移动后台系统每秒钟处理的信息数量达到亿级;每天有数以千亿封电子邮件在全球互联网上传递;一家商业银行每天处理千万量级笔数的交易……
1703661295
1703661296 事实上,不仅仅是在互联网上,我们每一天的行为都在“留下痕迹”——出行的轨迹被公交卡记录并传递给交通管理部门,银行卡详细留存了每一笔的收入和支出,资金账户记录了每一笔汇入汇出资金的来龙去脉和金额,社交网站和聊天工具记录朋友之间的交往,甚至连计算机上的输入法都在默默留存用户的语言习惯……
1703661297
1703661298 通过数据,我们有幸比先人留下了更多的“痕迹”。想象过吗?即便没有化石和传记,千万年后,子孙后代想要追寻我们,未来的电脑会向他们娓娓道来——你们的祖先最喜爱的饮料是香草拿铁,他最长的单程驾驶纪录是1 250公里,他和他的太太一生中传递了52 543条短信……有了“大数据”的支撑,这样的图景并非不可实现。
1703661299
1703661300 前不久,美国《经济学人》上的一篇文章告诉我们:“传输速度的大幅提高和数据种类的显著拓宽正导致全球快步走进“数据泛滥”时代。未来的若干年内,数字信息将以40%的速度快速生长,这个速度,将是全球人口生长速度的40倍。这也意味着,可用以存储数据的设备容量将越来越难以赶上数据本身的繁殖速度。”
1703661301
1703661302 著名咨询公司麦肯锡也在组织研究团队对全世界产生、存储和消费的数据总量进行研究。尽管他们的估计数字以及由此产生的结果各不相同,但所有研究都表明,未来数年会呈现指数级增长。麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(艾字节)的新数据,同时,消费者在个人电脑和笔记本等设备上存储了超过6EB的新数据。1EB数据相当于美国国会图书馆中存储数据的4 000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生机构会处理掉它们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。
1703661303
1703661304
1703661305
1703661306
1703661307 图7–1 全球生产数据的速度已经大大超过了实际数据存储能力
1703661308
1703661309 注:1艾字节约等于1018字节
1703661310
1703661311 资料来源:《经济学人》,基于IDC数据
1703661312
1703661313 但是,如果因此认定过多的数据带来了噪音和烦恼,那就大错特错了。事实上,大数据为我们带来的价值不可限量。和大数据绑定在一起的,必然是对数据的挖掘和加工。这是个去芜存菁的过程——看似繁杂、粗糙、碎片化、庞大的数据,一旦经过提炼和加工后,便可能带来巨大的效益——访问交通管理部门的公开数据库,你可以了解上班路线全年的平均分时路况,这可以帮助你做出最合适的出行决策;社交网站归集最热门的讨论话题并向用户推送,为用户节省了大量的搜索成本;商业银行分析所有用户的网银使用习惯,将大多数用户最常使用的主要功能陈列在网银的登录界面,省去了用户在菜单跳转中花费的时间……很显然,在大数据的支撑下,商业和客户的彼此寻找更为精确,商家的服务也更加贴近。
1703661314
1703661315 所以,除了被广泛提及的“3V”特性,我们还应该给“大数据”加上另一个属性:价值挖掘(value-added)。在高速产生和传递的海量、多样性的数据中挖掘价值,便是大数据时代带给我们的命题。
1703661316
1703661317 不妨和读者朋友分享几个有趣的大数据应用案例。
1703661318
1703661319 用大数据推荐消费经验
1703661320
1703661321 网络商家现在都在做一件事情——根据用户现在浏览的商品向用户推荐曾经浏览过该商品的人又看过了什么,或是买这个商品的人他们也会购买其他什么商品,然后给你一份推荐清单,其中还包括你自己的浏览以及购物记录。这种推荐方式最早是亚马逊公司的创举,它根据用户的历史购买记录生成这些“推荐”。根据统计资料,这种推荐方式让亚马逊在一秒钟能够卖出79.2样商品。
1703661322
1703661323 美国最大的在线影音出租服务网站NetFlix有非常先进的推荐功能。据NetFlix的统计,在它向用户推荐的每10部影片中,有7.5部以上会被使用者接受,认可率可谓非常之高。然而,更神奇的是,一般网站会让使用者看完某个片子,或者听完某首音乐后对其打分评价,NetFlix总能抢在用户之前做出预测,并且一般预测结果和使用者自己的评价不超过半颗星的差距——换句话说,NetFlix会越来越熟悉用户的胃口。当然,这些计算都是根据用户观影、听歌的喜好(包含对导演、明星的组合)来计算的,是NetFilx网站长期对用户的行为做大数据分析之后提炼出来的。
1703661324
1703661325 用大数据导航
1703661326
1703661327 在大城市,我们经常遇到塞车,看着导航预计抵达的时间一分一秒地推迟,却又不能要求导航仪转换道路的窘况。而今,欧洲的卫星导航公司已经把海量数据分析的概念导入路径规划的算法里面了,这意味着,导航软件可以替驾驶员预知5分钟后的交通状况。
1703661328
1703661329 著名的地图导航厂商TomTom利用实时监测超过8 000万部匿名移动电话和100万台以上的卫星导航机在路面上的移动速度。通过道路交通信息系统,建构一个完整而且实时的交通数据库,再通过GPRS(通用分组无限网络技术)将实时的道路信息,例如某路段的现在平均速度、红绿灯交换频率、某路段在每星期不同日子的平均速度、道路施工状况以及事故状况的数据,以每两分钟一次的频率及时推播给卫星导航仪,或者装在苹果手机或是安卓手机上的导航应用程序,提供给驾驶人一条实时的优化路径。即便你身陷车阵当中,驾驶人也可以精准地知道可能延误的时间,根据统计资料,采用此服务的驾驶人平均可以节省15%的行车时间。
1703661330
1703661331 用大数据改变管理
1703661332
1703661333 一旦有效利用大数据,传统的商业模式和管理实践也会被颠覆。一般认为优秀的企业高管们大多信任自己的直觉,依靠“黄金般的直觉”做出商业决策和管理决策。然而,随着管理决策越来越受预测性分析和大数据的影响和控制,由直觉做决定的方式将会被彻底改变。麻省理工学院商学院教授埃里克·布伦乔尔森和他的同事一起进行了一项研究,发现决策依赖数据的公司的运营情况比不重视数据的公司要出色得多,这些公司的生产力比不使用数据进行决策的公司高出6%!
1703661334
[ 上一页 ]  [ :1.703661285e+09 ]  [ 下一页 ]