1702627210
1702627211
“我们公司(或者是老客户的企业)存储了好几万亿字节的庞大数据,配备了专门的服务器。那么,接下来我们还应该做什么?”
1702627212
1702627213
每当我听到这样的疑问时,总会感到非常不可思议。我真想问他们:“连这东西的用处都不知道,为什么还花这么多钱投资设备呢?”实际上,我也确实这样问过,得到的都是一些诸如“好像有点用吧”或者“至少能够把握现在的状况”之类含混不清的回答。
1702627214
1702627215
Exadata系统这样的高价货自不必说,即便是用几台高性能的服务器构建起来的系统也需要几千万日元的投资。一些庞大的系统甚至需要花费上亿日元。可是,那些拥有决策权的大人物却对于“不知道究竟有什么作用的东西”投资起来毫不犹豫。
1702627216
1702627217
如果你的公司现在正打算在降低日常业务成本和稳定服务之外寻求更多的好处,也就是“通过对数据进行分析,从而更有效率地进行经营判断”,那么你一定要将这本书再继续往后读几十页。只要你掌握了本书中提到的统计学的基础知识,那么你就会明白在基于数据进行正确的经营判断时,根本不需要花费几千万日元的投资,甚至连几十万日元都不用花费。
1702627218
1702627219
为什么这么说呢?要想知道答案,就让我们从下一节开始看看20世纪30年代的美国究竟发生了什么。
1702627220
1702627222
06 准确度令人震惊的抽样调查
1702627223
1702627224
1702627225
1702627226
怎样统计超常的“大数据”?
1702627227
1702627228
诺贝尔经济学奖获得者保罗·克鲁格曼将自从次贷危机以来一直笼罩整个世界的萧条状况称为“第二次全球金融危机”,而第一次“全球金融危机”则是从1929年纽约证券交易所的股价大跌开始的。
1702627229
1702627230
不只美国,除了当时的苏联之外,几乎世界上所有的发达国家都遭到了股价大跌的冲击,国内生产总值(GDP)急剧减少,甚至引发了第二次世界大战这样一个非常严重的结果。小津安二郎以这一时代为背景拍摄了一部影片,讲述一群年轻人在大学毕业以后找不到工作,为了求职而四处奔走的故事,同样的状况在美国也比比皆是。
1702627231
1702627232
与现在基本上1/2的学生都能够考入大学就读不同,那个时代的大学毕业生可以说全是精英中的精英,可是在经济不景气的大环境下,即便是精英分子也同样找不到工作。当时的失业率最高达到25%,如果说现在的日本被称为“就业的冰河期”的话,那么当时的情景简直就是一幅地狱画卷(2012年11月,日本的失业率是4.1%)。
1702627233
1702627234
1702627235
1702627236
1702627237
图2–1 金融危机时美国可怕的失业率
1702627238
1702627239
但是,对当时的美国政府来说,这种状况在某种意义上也是一件好事。由于这些大学毕业生的高失业率,使得国家可以从当时大量学习过统计学的优秀数学家和经济学家中随意挑选最优秀的人才出任政府职员。
1702627240
1702627241
在失业率创纪录地达到24.9%的1939年,美国总统富兰克林·罗斯福领导的新政府为了扭转大萧条的局面,采取了一系列被称为“新政”的政策。也正是在这个时候,政府才能够大量雇用那些走投无路的优秀年轻人,并且将他们的能力充分地发挥出来。我在本书之前的章节中提到过的弗明汉流行病学研究,就是美国总统罗斯福组织实施的项目,而在该项目中负责核心任务的统计学家,就是在这一时期被雇用的优秀年轻人中的一员。
1702627242
1702627243
新政的目标是摆脱大萧条的不利局面,并且降低失业率,为此美国政府需要准确地掌握失业者的人数。不只政治家,就连包括普通民众在内的很多人都认为居高不下的失业率是一个非常严重的问题。但是,针对100万人失业与1 000万人失业所采取的政策应该有根本上的区别。当时对失业者人数的统计却是“300万~1 500万人”这样一个非常模糊的数字。
1702627244
1702627245
值得我们注意的是,只拥有穿孔卡片的弗明汉研究对5 000人进行调查,就已经非常困难,而这件事发生的时间还在弗明汉研究之前。
1702627246
1702627247
对于当时拥有1.2亿~1.3亿人口的美国来说,进行这样的调查就相当于现在对几万亿字节的数据进行处理,毫无疑问,这是一个完全超越常规的“大数据”。
1702627248
1702627249
全面调查与抽样调查,哪种更节约、更高效?
1702627250
1702627251
为了解决这一问题,美国政府当时提出了两种方案。
1702627252
1702627253
一种是美国联邦政府议会提议“所有的失业者有义务在登记卡上填写必要项目,然后到最近的邮局将登记卡邮寄给政府”。
1702627254
1702627255
另一种方案则是由学习过当时最先进统计学理论的年轻人们提出的“随机选取人口总数的0.5%进行抽样调查”。
1702627256
1702627257
美国政府先采用了后一种方案,除了准确的失业率之外,政府还发现社会存在着极大的贫富差距,既占人口总数10%的人竟然拥有占人口总数40%的收入。而得知这一结果的人们却纷纷表示“随机抽选的结果根本没有科学根据,怎么能够证明这个数据是正确的呢”,可见这些人似乎更支持前一种方案。
1702627258
1702627259
但是,假设我们是那个时代的失业者,如果没有任何好处的话,谁会傻到将自己的信息写在登记卡上,然后特意跑到邮局去将这个登记卡邮出去呢?至少我是不会那么做的。如果我是当时的失业者,就算这样做会得到商品券,我都会因为麻烦而放弃,我想当时大多数人应该不知道有这么一回事。
[
上一页 ]
[ :1.70262721e+09 ]
[
下一页 ]