打字猴:1.70262716e+09
1702627160 作为一名统计学家,我对于哈尔的发言感到非常光荣,而且这绝对不是什么只停留在口头上的赞誉。统计学如今已经得到了计算机这个强有力的伙伴,可以被应用在所有领域,可以出现在世界上的每一个角落,以及人生中的每一个瞬间,能够对所有渴望得到回答的问题给出最佳答案。
1702627161
1702627162 曾经人类为了得到(自认为)正确的答案而只能寻求神的启示,后来在漫长时间中只能服从权威人士的意见。
1702627163
1702627164 但是,现在的情况不一样了。最佳答案就存在于每个人周围的数据之中。只要掌握统计学这个最强的学问,不管是想要健康、聪明,还是富裕,都变得非常简单。正如之前所说过的那样,这是世界上的学者们通过统计学证明的事实。
1702627165
1702627166 而想掌握这个最强、最受欢迎的学问,不必像IBM那样支付数额庞大的资金,只要在你的人生中投入一些学习时间就足够了。
1702627167
1702627168
1702627169
1702627170
1702627171 看穿一切数字的统计学 [:1702626731]
1702627172 看穿一切数字的统计学 第二章 大幅减少信息成本的抽样调查
1702627173
1702627174
1702627175
1702627176 看穿一切数字的统计学 [:1702626732]
1702627177 05 统计学家的大数据“狂想曲”
1702627178
1702627179
1702627180
1702627181 正如前一章所说的那样,“大数据”这个词从诞生到流行经历了很长一段时间。
1702627182
1702627183 而现在的企业几乎每周都会发布关于“大数据”的报告,杂志和网络媒体上也时常出现“大数据今后的发展”或者“如何在大数据时代生存”等相关文章。如今,只要是稍微关心计算机信息的人,对于“大数据”这个词一定不会感到陌生。
1702627184
1702627185 在硬件供应商、系统集成商、独立咨询公司等,有很多期待“大数据”概念可以带来商业机会的人。顺便说一下,那些对计算机和统计学都不太了解的商业评论家们,也纷纷断言“今后是大数据的时代”。
1702627186
1702627187 就连那些一提起与阻止列表和收支记录等工作相关的数据记录就只能想到Excel表格的人,也对新数据库的技术很感兴趣,对100多年以前发明的统计方法一窍不通的人也对“数据挖掘”充满期待。由此可见,现在对统计学家来说是最适合大展拳脚的时代。
1702627188
1702627189 演奏大数据“狂想曲”的专业术语
1702627190
1702627191 但是,对于“大数据”,或者说对于“大数据”的分析会产生什么样的价值,会给投资成本的核算带来多少好处,这些内容究竟又有多少人能够理解呢?
1702627192
1702627193 是没有人能够理解,还是理解的人因为与自己的商业利益没有太大的关联,所以没有进一步的宣扬和提倡?不管怎样,对于这方面的问题我们很少会见到与之有关的回答。
1702627194
1702627195 取而代之的是,我们经常会听到为了更有效率地处理大规模的数据,推出新产品、新规格、新功能等。
1702627196
1702627197 比如在硬件方面,甲骨文公司引以为傲的Exadata系统的性能比以前的数据库系统强大10倍以上,而被称为Hadoop的工作模式,则可以允许在复数硬件上同时对大规模数据进行高速处理。相信很多人都听说过这些信息吧。
1702627198
1702627199 表2–1 专业术语简单介绍
1702627200
1702627201  数据挖掘   从已经存在的大量数据中找出有价值的信息和假设的方法,被称为数据挖掘。这种方法在拥有一定准确度的前提下更加重视速度,通过重复比较简单的计算过程就能够实现,所以应用比较广泛。最常见的例子是对超市的POS(销售终端)数据进行数据挖掘,结果显示同时购买尿片与啤酒的概率出人意料得高。   文本挖掘   对文字进行数据分析的方法。将语言学的方法延展,使其也能够应用于商务活动。通过被称为语素分析(将文章拆分成单词)的过程,对出现过的某些单词,以及单词之间的关联性进行分析。   Exadata系统   常年以来,一直占据数据库业界老大地位的甲骨文公司经过巨额收购后终于完成的大数据相关主力商品。在软件和硬件两方面都能够最快地分散数据进行高速处理。性能和价格都很高。   Greenplum系统   Exadata系统的竞争对手。充分地利用了开源技术,比Exadata系统便宜很多,同时也能够对庞大的数据进行高速处理。   分散处理   对于难以处理的庞大数据,如果分散到100台服务器上分别处理,最后将结果统计一下就能够得到比单一处理高100倍的效率。由于数据的构造和计算程序算法的不同,想要实现“完美分散后统计结果”所消耗的时间也不同,这是这种方法最大的难点所在。   内存数据库   为了提高数据读写的速度,将数据记录在内存(RAM)上的方法。当然,如果切断电源数据就会消失,所以为了弥补这一缺陷尝试使用SSD(固态硬盘)和RAM相结合的方法。   Hadoop系统   对数据进行分散处理的JAVA(一种程序语言)软件工作模式,主要负责分散处理“最关键的部分”。最近,我们所听说的大规模数据分散处理软件大部分都是基于Hadoop系统运行的。   AWS平台   亚马逊开发的数据库和数据分析云计算服务,也能够对应大数据的分散处理。   非结构化数据   以甲骨文为首的传统数据库(RDB)是以“构造化的表”与“表之间的联系”为基础对数据进行保存和检索的。这种传统的数据库形式无法很好地进行整理的数据被称为非构造化数据。   NoSQL   RDB的处理是使用结构化查询语言(SQL)记述的,使用其他不同方法保存数据进行处理的方法就被称为NoSQL。   KVS   Key Value Store的简称。RDB是以既定的格式对表和表之间的联系进行处理,而KVS则是利用表中的值(Value)和值之间的联系(Key)来对数据进行处理。对包括非结构化数据的大规模数据进行分散处理非常方便。   R语言   开源的统计分析用语言。全世界的专家们可以随心所欲地制作分析方法并且将其公开的库。那些买不起收费软件的贫穷学者们都喜欢使用这个,最近忽然受到了大家的关注。似乎可以直接从Exadata系统、Greenplum系统甚至“统计产品与服务解决方案”软件(SPSS)之中直接调用R语言库。  与“大数据”相关的商品和专业术语如表2–1所示。
1702627202
1702627203 通过高速化的数据处理,网站就算面对大量增加的用户也能够提供快捷的服务,公司内部系统也能够在短时间内收集指定的数据并且完成作业。由此应该也会带来人工费的节约与效率的提高。我们所听到的“大数据技术的成功体验”多数来自这些方面。
1702627204
1702627205 像这样卖出新型的高价技术,对于计算机相关企业来说无疑是一个喜闻乐见的好消息。比如“能够提高数据处理速度10倍以上”,或者“这就是如今最流行的大数据”,还有“免费赠送数据挖掘工具”之类的话一定会成为现代营销中最常用的宣传语。每天,各家公司的推销员们为了提高销售额肯定都在绞尽脑汁地想这些点子。
1702627206
1702627207 统计学让企业不用再烧钱
1702627208
1702627209 但是,像这样纯粹的技术进步,往往和商业利益并没有必然的联系……比如说我经常接到的以下咨询,就非常具有代表性。
[ 上一页 ]  [ :1.70262716e+09 ]  [ 下一页 ]