打字猴:1.70043202e+09
1700432020
1700432021 ■ 使用RFID标签跟踪筹码可以帮助赌场更准确地跟踪玩家的活动,同时降低付款错误和作弊的次数。
1700432022
1700432023 ■ 传感器数据可以提供关于发动机和设备性能的有力信息,还能用来更方便地诊断问题,更快地开发解决问题的程序。
1700432024
1700432025 ■ 视频游戏制造商可以使用遥测数据更好地定位微交易,改善游戏流程,通过游戏风格对玩家进行分群。
1700432026
1700432027 社交网络数据滋生出很多种新的客户评价方法。在电信业,社交网络分析已经把焦点从账户盈利分析转向了社交网络盈利分析。
1700432028
1700432029 〔1〕Merv Adrian, “Big Data”, Teradata Magazine, 1:11, www.teradatamagazine.com/v11n01/Features/Big-Data/.
1700432030
1700432031 〔2〕Mckinsey Global Institute, Big Data: The Next Frontier for Innovation, Competition and Productivity, May 2011.
1700432032
1700432033 〔3〕Ibid.
1700432034
1700432035 〔4〕CEO Advisory: “Big Data” Equals Big Opportunity, Gartner, March 31, 2011.
1700432036
1700432037 〔5〕本章内容基于我的同事Rebecca Bucnis的会议演讲。我们也撰写了一篇论文,名称是Taking Your Analytics Up a Notch by Integrating Clickstream Data,发表在SAS Global Forum 2011。
1700432038
1700432039
1700432040
1700432041
1700432042 驾驭大数据 [:1700430560]
1700432043 驾驭大数据 第二部分 驾驭大数据:技术、流程以及方法
1700432044
1700432045 驾驭大数据 [:1700430561]
1700432046 第4章分析可扩展性的演进
1700432047
1700432048 不言而喻,大数据的世界需要更高层次的可扩展性。随着公司处理的数据量持续增长,原有的数据处理方法已经无法应对现有的数据量。那些没有更新技术以提供更高层次的可扩展性的企业,将无法应对大数据带来的数据处理压力。幸运的是,在大数据处理、分析与应用的不同层面中,有很多技术可供使用。其中有些技术还非常新,而大数据领域的公司也需要与时俱进。
1700432049
1700432050 这一章会讨论能够帮助我们驾驭大数据的几种重要技术:分析与数据环境的关联性、海量并行处理架构(Massively Parallel Processing,MPP)、云计算、网格计算以及MapReduce。
1700432051
1700432052 开始讲述具体内容以前,请记住本书的定位并不是一本技术书籍。这一章,以及随后的第5章与第6章,将会是技术性内容最多的章节,但是所有的技术内容都将局限在概念层面,以确保技术背景不深的读者也可以轻松地理解。为了达到这个目标,本书对某些技术细节进行了一定程度的简化处理。如果读者想了解更多的技术细节,可以阅读专注于技术本身的其他书籍。
1700432053
1700432054 驾驭大数据 [:1700430562]
1700432055 4.1 分析可扩展性的历史
1700432056
1700432057 在20世纪初期,进行数据分析是一件非常非常困难的事情。如果要进行某些深入分析,例如,建立预测模型,则需要完全依靠人们手工进行各种统计运算。举个例子,为了构建一个线性回归模型,人们不得不手工计算矩阵并进行矩阵的转置运算,连矩阵参数估计的计算也需要手工进行。当时人们已经拥有了一些基础的计算辅助工具,但绝大部分计算过程还是需要依靠手工来完成。在那个时代,获得分析所需的数据是很困难的事情,但是使用这些数据更加困难。那个时代人们几乎没有任何形式的可扩展分析能力。
1700432058
1700432059 计算尺的出现让情况稍有好转,20世纪70年代出现的计算器使更大数据量的计算变得更容易了一些,但是那个时候的计算器可以处理的数据规模仍然十分有限。20世纪80年代进入主流市场的计算机,真正地把人们从繁琐的手工计算中彻底解脱了出来。然而,20世纪80年代之前出现的计算机只有极少数人可以接触到,而且这些计算机都极为昂贵,操作也相当困难。
1700432060
1700432061 几十年过去了,现在人们处理的数据已经远远超过了手工处理时代的数据规模。随着数据规模的快速增长,计算机处理数据的能力也在不断增强,人们已经不再需要进行手工计算了,但海量数据仍然给计算机与数据存储带来了巨大的挑战。
1700432062
1700432063 随着数据处理与分析技术的飞速发展,人们可以处理的数据规模也变得越来越大得“可怕”。十几年前,只有超大型企业或某些预算充足的政府部门才可以处理TB量级的数据。在2000年,只有那些最领先的公司才拥有TB量级的数据库,而今天只需要100美元就可以为你的个人计算机买一个1TB的硬盘。到了2012年,很多小型企业内部数据库的数据规模都超过了1TB,某些领先公司的数据库已经达到了PB量级的规模。仅仅过了十来年,数据规模就至少扩大了1000倍!
1700432064
1700432065 此外,随着新的大数据源的出现,数据规模将达到一个新的量级。有些大数据的数据源在仅仅几天或几周,甚至是几个小时内,就可以生成TB或PB量级的数据,数据处理的极限又将面临一次新的挑战。历史上人们驾驭了那些当时看起来很“可怕”的数据,随着时间的推移,这次大数据带来的海量数据也终将被再次驾驭。
1700432066
1700432067 在这个时代,一个刚走进大学的一年级新生,他的计算机可能就拥有好几个PB的数据,他会在一些存储了Exabyte甚至是Zettabyte数据的系统上工作,他们希望这个系统能在几秒或者几分钟内给出计算结果,而不是几小时或几天。表4-1列出了目前人们使用的数据规模计量单位,以及随着数据规模扩大而新出现的计量单位。在历史上,第一个探索并成功突破数据极限的人获得了丰厚的回报,未来也一定会这样。
1700432068
1700432069 表4-1 数据规模的衡量单位
[ 上一页 ]  [ :1.70043202e+09 ]  [ 下一页 ]