打字猴:1.702627184e+09
1702627184
1702627185 在硬件供应商、系统集成商、独立咨询公司等,有很多期待“大数据”概念可以带来商业机会的人。顺便说一下,那些对计算机和统计学都不太了解的商业评论家们,也纷纷断言“今后是大数据的时代”。
1702627186
1702627187 就连那些一提起与阻止列表和收支记录等工作相关的数据记录就只能想到Excel表格的人,也对新数据库的技术很感兴趣,对100多年以前发明的统计方法一窍不通的人也对“数据挖掘”充满期待。由此可见,现在对统计学家来说是最适合大展拳脚的时代。
1702627188
1702627189 演奏大数据“狂想曲”的专业术语
1702627190
1702627191 但是,对于“大数据”,或者说对于“大数据”的分析会产生什么样的价值,会给投资成本的核算带来多少好处,这些内容究竟又有多少人能够理解呢?
1702627192
1702627193 是没有人能够理解,还是理解的人因为与自己的商业利益没有太大的关联,所以没有进一步的宣扬和提倡?不管怎样,对于这方面的问题我们很少会见到与之有关的回答。
1702627194
1702627195 取而代之的是,我们经常会听到为了更有效率地处理大规模的数据,推出新产品、新规格、新功能等。
1702627196
1702627197 比如在硬件方面,甲骨文公司引以为傲的Exadata系统的性能比以前的数据库系统强大10倍以上,而被称为Hadoop的工作模式,则可以允许在复数硬件上同时对大规模数据进行高速处理。相信很多人都听说过这些信息吧。
1702627198
1702627199 表2–1 专业术语简单介绍
1702627200
1702627201  数据挖掘   从已经存在的大量数据中找出有价值的信息和假设的方法,被称为数据挖掘。这种方法在拥有一定准确度的前提下更加重视速度,通过重复比较简单的计算过程就能够实现,所以应用比较广泛。最常见的例子是对超市的POS(销售终端)数据进行数据挖掘,结果显示同时购买尿片与啤酒的概率出人意料得高。   文本挖掘   对文字进行数据分析的方法。将语言学的方法延展,使其也能够应用于商务活动。通过被称为语素分析(将文章拆分成单词)的过程,对出现过的某些单词,以及单词之间的关联性进行分析。   Exadata系统   常年以来,一直占据数据库业界老大地位的甲骨文公司经过巨额收购后终于完成的大数据相关主力商品。在软件和硬件两方面都能够最快地分散数据进行高速处理。性能和价格都很高。   Greenplum系统   Exadata系统的竞争对手。充分地利用了开源技术,比Exadata系统便宜很多,同时也能够对庞大的数据进行高速处理。   分散处理   对于难以处理的庞大数据,如果分散到100台服务器上分别处理,最后将结果统计一下就能够得到比单一处理高100倍的效率。由于数据的构造和计算程序算法的不同,想要实现“完美分散后统计结果”所消耗的时间也不同,这是这种方法最大的难点所在。   内存数据库   为了提高数据读写的速度,将数据记录在内存(RAM)上的方法。当然,如果切断电源数据就会消失,所以为了弥补这一缺陷尝试使用SSD(固态硬盘)和RAM相结合的方法。   Hadoop系统   对数据进行分散处理的JAVA(一种程序语言)软件工作模式,主要负责分散处理“最关键的部分”。最近,我们所听说的大规模数据分散处理软件大部分都是基于Hadoop系统运行的。   AWS平台   亚马逊开发的数据库和数据分析云计算服务,也能够对应大数据的分散处理。   非结构化数据   以甲骨文为首的传统数据库(RDB)是以“构造化的表”与“表之间的联系”为基础对数据进行保存和检索的。这种传统的数据库形式无法很好地进行整理的数据被称为非构造化数据。   NoSQL   RDB的处理是使用结构化查询语言(SQL)记述的,使用其他不同方法保存数据进行处理的方法就被称为NoSQL。   KVS   Key Value Store的简称。RDB是以既定的格式对表和表之间的联系进行处理,而KVS则是利用表中的值(Value)和值之间的联系(Key)来对数据进行处理。对包括非结构化数据的大规模数据进行分散处理非常方便。   R语言   开源的统计分析用语言。全世界的专家们可以随心所欲地制作分析方法并且将其公开的库。那些买不起收费软件的贫穷学者们都喜欢使用这个,最近忽然受到了大家的关注。似乎可以直接从Exadata系统、Greenplum系统甚至“统计产品与服务解决方案”软件(SPSS)之中直接调用R语言库。  与“大数据”相关的商品和专业术语如表2–1所示。
1702627202
1702627203 通过高速化的数据处理,网站就算面对大量增加的用户也能够提供快捷的服务,公司内部系统也能够在短时间内收集指定的数据并且完成作业。由此应该也会带来人工费的节约与效率的提高。我们所听到的“大数据技术的成功体验”多数来自这些方面。
1702627204
1702627205 像这样卖出新型的高价技术,对于计算机相关企业来说无疑是一个喜闻乐见的好消息。比如“能够提高数据处理速度10倍以上”,或者“这就是如今最流行的大数据”,还有“免费赠送数据挖掘工具”之类的话一定会成为现代营销中最常用的宣传语。每天,各家公司的推销员们为了提高销售额肯定都在绞尽脑汁地想这些点子。
1702627206
1702627207 统计学让企业不用再烧钱
1702627208
1702627209 但是,像这样纯粹的技术进步,往往和商业利益并没有必然的联系……比如说我经常接到的以下咨询,就非常具有代表性。
1702627210
1702627211 “我们公司(或者是老客户的企业)存储了好几万亿字节的庞大数据,配备了专门的服务器。那么,接下来我们还应该做什么?”
1702627212
1702627213 每当我听到这样的疑问时,总会感到非常不可思议。我真想问他们:“连这东西的用处都不知道,为什么还花这么多钱投资设备呢?”实际上,我也确实这样问过,得到的都是一些诸如“好像有点用吧”或者“至少能够把握现在的状况”之类含混不清的回答。
1702627214
1702627215 Exadata系统这样的高价货自不必说,即便是用几台高性能的服务器构建起来的系统也需要几千万日元的投资。一些庞大的系统甚至需要花费上亿日元。可是,那些拥有决策权的大人物却对于“不知道究竟有什么作用的东西”投资起来毫不犹豫。
1702627216
1702627217 如果你的公司现在正打算在降低日常业务成本和稳定服务之外寻求更多的好处,也就是“通过对数据进行分析,从而更有效率地进行经营判断”,那么你一定要将这本书再继续往后读几十页。只要你掌握了本书中提到的统计学的基础知识,那么你就会明白在基于数据进行正确的经营判断时,根本不需要花费几千万日元的投资,甚至连几十万日元都不用花费。
1702627218
1702627219 为什么这么说呢?要想知道答案,就让我们从下一节开始看看20世纪30年代的美国究竟发生了什么。
1702627220
1702627221 看穿一切数字的统计学 [:1702626733]
1702627222 06 准确度令人震惊的抽样调查
1702627223
1702627224
1702627225
1702627226 怎样统计超常的“大数据”?
1702627227
1702627228 诺贝尔经济学奖获得者保罗·克鲁格曼将自从次贷危机以来一直笼罩整个世界的萧条状况称为“第二次全球金融危机”,而第一次“全球金融危机”则是从1929年纽约证券交易所的股价大跌开始的。
1702627229
1702627230 不只美国,除了当时的苏联之外,几乎世界上所有的发达国家都遭到了股价大跌的冲击,国内生产总值(GDP)急剧减少,甚至引发了第二次世界大战这样一个非常严重的结果。小津安二郎以这一时代为背景拍摄了一部影片,讲述一群年轻人在大学毕业以后找不到工作,为了求职而四处奔走的故事,同样的状况在美国也比比皆是。
1702627231
1702627232 与现在基本上1/2的学生都能够考入大学就读不同,那个时代的大学毕业生可以说全是精英中的精英,可是在经济不景气的大环境下,即便是精英分子也同样找不到工作。当时的失业率最高达到25%,如果说现在的日本被称为“就业的冰河期”的话,那么当时的情景简直就是一幅地狱画卷(2012年11月,日本的失业率是4.1%)。
1702627233
[ 上一页 ]  [ :1.702627184e+09 ]  [ 下一页 ]