打字猴:1.702627084e+09
1702627084 在这样的背景下,以施行新政而闻名的富兰克林·罗斯福总统对此非常重视(顺便说一句,罗斯福总统本人也是死于心脏病),并且由此展开了可以称为人类史上第一次的大规模流行病学研究项目。不管是心脏病还是霍乱,只要是不明原因的病症,要想查明其发病原因,只有进行慎重且大规模的数据采集,并且对采集的数据进行仔细分析。除此之外别无他法。
1702627085
1702627086 弗明汉当时有大约2.8万名居民,其中29~69岁的居民中有5 127人响应了研究小组的号召参加了这项研究,占这部分人数的2/3。因为当时对心脏病的成因几乎没有任何线索,所以除了性别、年龄等基本信息之外,还记录了每个人的过往病史与生活习惯、血压、心电图、血液成分、社会经济学指标等各种各样的项目。当时采集的血液,随着后来检查方法的不断进步又追加了很多检查项目,因此一直冷冻保存至今。
1702627087
1702627088 弗明汉研究一直到今天仍在继续,每当有其他研究出现新进展的时候都会对其进行追加的项目调查,如今参加最初研究的那些人的后代还参加了对遗传因子的调查研究。
1702627089
1702627090 弗明汉研究针对5 000余名对象定期进行检查与询问,调查频率是每两年1次。
1702627091
1702627092 如此大规模而且彻底的调查研究,为什么不每年进行呢?实际上当时的研究者也非常渴望能够做到1年1次。但是,由于当时的技术能力所限,每两年进行一次就已经是调查频率的极限了。
1702627093
1702627094 至于限制调查频率的原因,则是数据输入、管理以及采集所花费的时间和精力。
1702627095
1702627096 弗明汉研究小组在最初进行数据采集时所使用的设备,据说只有一台大型穿孔卡片机。
1702627097
1702627098 说起穿孔卡片,可能很多人连实物都没有见过吧。简单来说就是在一个厚纸片上利用物理手段打孔,根据打孔的位置记录数据。
1702627099
1702627100 首先,人工记录5 000人的生活习惯和血液检查的结果,再将数值转换为穿孔卡片进行保存,检查是否有错误,然后对各个调查项目的平均值和比例进行综合统计。进行这样的工作,每两年一次的频率已经是极限了。
1702627101
1702627102 至于弗明汉研究的目标“找到心脏病的成因”,需要对各个变量和多样的调查项目之间的关联性进行分析,这就需要用到逻辑回归的分析方法(实际上,逻辑回归分析本身就是因弗明汉研究而诞生的方法)。但是,对5 000名研究对象的数据进行分析,就相当于使用5 000个质数的矢量,进行包括对数变换在内的非常繁杂的矩阵计算,只有这样才能够得出最终答案。
1702627103
1702627104 一直到20世纪60年代国际商业机器公司(IBM)发明了大型通用计算机,并且将其应用到研究中之后,弗明汉研究才能够对10年间的调查数据进行分析。
1702627105
1702627106 无聊的“纸和笔的统计学”已经过时了
1702627107
1702627108 从那以后的计算机技术进步,可以说是突飞猛进。
1702627109
1702627110 穿孔卡片上记录的数据可以非常简单地记录在只读光盘(CD–ROM)或者硬盘上,数据输入也可以看着画面非常简单地进行。获得的数据可以通过互联网非常方便地收集和传送,至于统计分析,不仅可以通过个人电脑来进行,甚至连现在的智能手机都能够胜任。
1702627111
1702627112 以前的统计学家们常用的研究方法有两种,或者省去计算的麻烦直接进行类似的准确度较高的推测,或者尽可能少地对数据进行计算并得出准确度较高的推测,但是这些研究方法现在基本上已经不会出现在实际分析当中。随着计算机技术的进步,不管是庞大的数据还是繁杂的计算,都已经不再是统计分析的瓶颈。
1702627113
1702627114 另外,以前的统计学教育只能依靠黑板和粉笔,或者纸和笔,主要以理解算式,对几十个数据进行手工计算和分析为主。但是,现在的统计分析只需要写一个简单的程序,或者使用现成的统计分析工具,对大规模的数据进行实际分析也成为可能。
1702627115
1702627116 虽然我们现在主要使用的统计学思考方法和分析方法,早在几十年前就已经基本完成,但是像现在这样让每个人都能够随时随地地简单使用,还是在20世纪末计算机技术发生革命性进步之后,才得以实现的。
1702627117
1702627118 以前的纸和笔的统计学与现代的计算机统计学之间存在着巨大的差距,现代的统计学家必须在精通数理知识的同时,还掌握计算机技术的应用。
1702627119
1702627120 如果本书的读者朋友们在大学时代对统计学课程留下了一种无聊的印象,那么可能是因为只接受过“纸和笔的统计学”教育,所以对于一直在时代最前沿给出最佳解答的计算机统计学的力量没有切身感受,这也是情有可原的。
1702627121
1702627122 “大数据”时代浓浓的统计学气息
1702627123
1702627124 统计学在近几年的变化,可以说受计算机的影响最为强烈。
1702627125
1702627126 计算机使商业模式发生了翻天覆地的变化。商品的采购、库存、销售等记录基本上全都已经数据化,成本和销量的把控与用纸笔进行管理的时代相比也变得更加简单。顾客资料与消费记录、工作人员的工作时间与评定、健康状态、支付的报酬与成本核算等信息,都可以存储在公司内部系统和Excel电子表格中。为了生产而进行的机械操作、到自己公司网站的链接,基本上所有的登录情况都会被记录下来,必要时可以综合统计作为经营的参考。就算说那些大型公司几乎所有的业务流程已经全部实现电子化,也不为过。
1702627127
1702627128 但是,当一系列的业务都实现计算机化之后,那些从事计算机业务的企业却遭遇了瓶颈。不管他们如何提高硬件和软件的处理性能,如果需要计算机化的业务流程没有增加,顾客对性能没有特别需求,那么他们就无法继续销售自己的商品。所以,不管是硬件厂商还是软件厂商,还是使用这些提供计算机服务的厂商,所有与计算机相关的企业,都必须对已经得到满足的顾客们,提供一个购买他们更新技术的“理由”。
1702627129
1702627130 从好的方面来看,要想将已经足以满足顾客需要的性能更好地加以利用,就要考虑“如何创造更多的价值”。而实际上,计算机企业所考虑的是向顾客传达“为了找出创造更多价值的方法,必须进行大量的数据处理”,为了让顾客接受这一提议,必须有一个“明显对商业有价值的理由”。
1702627131
1702627132 以现在的计算机技术来看,不管是多么庞大的数据量或者多么繁杂的计算都能够胜任,因此需要考虑的问题就变成了应该针对什么进行计算,而答案除了统计分析之外再无其他。当然,如果只是将“统计分析”这个简单的词语作为题目,会让人感觉缺乏吸引力,于是就诞生出“大数据”和“商务智能”的概念。现在大家之所以都对这两个题目和统计学如此关注,恐怕就是出于上述原因。
1702627133
[ 上一页 ]  [ :1.702627084e+09 ]  [ 下一页 ]