1702643010
1702643011
图3-3 美国军费开支,1981~1988年
1702643012
1702643013
面对美国民主党人时,我的这位教授还是用相同的(名义)数据,但在时间跨度上稍长一些。他对这群听众指出,吉米·卡特(民主党人)总统是开启国防建设的当之无愧的先驱。正如下面的这张“民主党版”的幻灯片所示,卡特掌权的1977〜1980年间,美国的军费增长趋势与继任的里根总统大同小异,感谢上帝让来自安纳波利斯的前海军军官吉米·卡特带领美国走上了军事自强之路!
1702643014
1702643015
1702643016
1702643017
1702643018
图3-4 美国军费开支,1977~1988年
1702643019
1702643020
资料来源:http://www.usgovernmentspending.com/spend.php?span=usgs302&year=1988&view=l&expand=30&expandC=&units=b&fy=fyl2&Iocal=s&state=US&pie=#usgs302
1702643021
1702643022
虽然统计学的要点在于为我们所关心的事物描绘一幅有意义的画面,但是在许多时候我们同样希望能够为这些数字做些什么。美国职业橄榄球联盟的球队希望获得四分卫成绩的简单统计,这样他们就能在众多大学生中寻找到天才球员,企业通过考核指标来提拔那些有价值的员工.开除那些纯粹混日子的人。在商界流传着一句至理名言:“你无法管理你无法衡量的事物”。这句话千真万确,但你最好要保证你所衡量的,正是你努力想去管理的。
1702643023
1702643024
谈到学校的质量,这是一个必须予以衡量的关键问题,因为我们都希望奖励并效仿“好”学校,惩罚或整顿“差”学校(具体到学校内部,我们在衡量教师的教学水平问题上也面临类似的难题)。考核学校和教师最常用的方法就是看学生的考试分数,统考结束后,学生的优异成绩就是教师和学校最好的金字招牌;与之相反的,糟糕的成绩无疑会释放出一个清晰的信号:相关教师应该被辞退,而且越早辞退越好。这样看来,仅凭考试分数我们就能彻底改善公共教育系统了,对吗?
1702643025
1702643026
错。在评价教师和学校时,如果只看考试分数是会铸成大错的。不同学校的学生,他们的背景和能力是很不一样的,比如说,学生父母的教育程度和收入会对孩子的成绩产生不可忽视的影响,不论孩子上的是哪所学校。在这里,我们所缺少的那个数据恰好就是解答这个问题唯一需要的:学生的学业表现有好有差,但其中有多少比例要归功或归咎于学校(或所在的班级)呢?
1702643027
1702643028
从小就生活在衣食无忧、书香门第家庭里的孩子,一般来说从进入幼儿园的第一天起就有可能会比别的孩子的成绩好。相反的情况同样成立,有些学校的学生天资平平,虽然教师教得很好,但是学生的成绩还是处在一个低水平上,如果没有这些老师的付出,那些学生的成绩会更加惨不忍睹。所以,我们需要在学校,甚至班级层面上将一些“附加值”纳入考核。学生成绩的绝对水平对于解答我们的问题没有意义,我们想知道的是这些学生的表现中有多少是受到了学校和教师的影响,我们想要评估的其实是这些教学因素。
1702643029
1702643030
有人会说这并不难,只需要在开学时给学生安排一场摸底考试即可,再将这次考试的成绩与入学之后的考试成绩进行对比,就能够判断学生的学业是进步了还是退步了,并由此对其所在的学校或班级进行评价。
1702643031
1702643032
但这种方法还是错误的。不同能力或背景的学生在学习上的进步程度也是不同的。一些学生在领会知识点方面就是比其他学生快,而这与老师的教学质量没有关系。假如让优质学校A的学生和各方面都稍差的学校B的学生同时开始学习相同难度的代数课,一年以后,A校学生的代数成绩更理想,原因可能是A校的教师教学能力更强,也可能是A校学生的学习能力更强,还有可能二者兼有。研究人员正在致力于开发一套针对不同能力和背景的学生的教学质量统计评价方法,在此期间,我们所有关于寻找“最佳”学校的努力都有可能适得其反,误导大众。
1702643033
1702643034
每年秋天,芝加哥的几家当地报纸和杂志都会对该区域内的高中进行一次排名,其主要参考依据通常是州考成绩。从统计学的角度看,这些排名难免会有一些让人捧腹的地方,比如常年位居榜单前几位的都是一些选择性招生的学校,意思是说学生要进入这些高中,就必须提出申请,申请者中只有很小一部分的人能够如愿,而这些学校在挑选学生时最重要的参考依据就是学生的统考成绩。我们就这个问题作个小结:(1)这些学校因其学生在州考中的出色发挥而被认为是“优质”学校;(2)要进入这些学校学习,首先学生要有非常高的考试分数。这一逻辑就好比是给一支篮球队颁奖,理由是这支篮球队的训练在促进学生长高方面贡献卓著。
1702643035
1702643036
面对你想要衡量和管理的对象,就算你找到了一个有效的评价指标,挑战也并未结束。好消息是“用统计学进行管理”能够让相关个人或组织的潜在行为往好的方向改变。如果能够计算出一条生产线上生产出的产品的不合格率,而且这些不合格产品是由组装工人自身的原因造成的,那么对那些生产出的产品不合格率低的工人给予某些奖励,能够在一定程度上激励全厂工人积极工作的态度,这就是一个统计学优化工作的例子。无论是谁,都不会对激励措施(哪怕仅仅是几句赞扬或一个地段好一点的停车位)无动于衷的。统计学帮我们得到重要的结果,激励措施给我们改善结果的理由。
1702643037
1702643038
坏消息则是,在某些时候,统计学的功能仅仅是让数据看上去更顺眼。
1702643039
1702643040
如果某个高中是根据其毕业生占所在学区毕业学生总数的比例来评估校领导的能力,甚至是奖金分配方案,那么这些领导们的工作重心肯定会放在提高学生的毕业人数方面。当然,他们或许也会抽出一点精力放在提升本校学生的毕业率,但归根结底毕业人数和毕业率并不是一回事。例如,还没毕业就离校的学生可以被归类为“转校”而不是“缀学”。这不是一个虚构的例子,美国教育部前部长罗德·佩奇就是因为这个问题而备受指责。美国前总统小布什之所以提名佩奇掌管美国教育部,就是因为他成功地降低了休斯敦地区的学生缀学率、提高了学生的考试分数。
1702643041
1702643042
如果你一直默默地记下我引用的为数不多的商业警句,那么请在笔记本上写下这么一句话:“当《60分钟》电视新闻杂志栏目剧组敲你家门的时候,肯定没有什么好事。”之前丹·拉瑟和《60分钟》栏目组专门去了一趟休斯敦,发现教育部对统计数据的操纵远远超过了教育水平的提升。将缀学的学生归类为转学、出国或攻读一般同等学力(GED)文凭,在当地高中是一个极为普遍的现象,在官方的统计数据中,这些学生都不会被统计到缀学率中。休斯敦市公布的缀学率为1.5%,而《60分钟》栏目组暗访计算出的实际缀学率为25%~50%。
1702643043
1702643044
在考试分数的统计过程中,也出现了同样恶劣的作弊现象。在休斯敦(或是其他任何一个城市),提高考试成绩的方式之一就是改善教学质量,这样学生就能学到更多的知识,并且在考试中取得进步,改善教学质量确实是较好的方法。而比较差的方法则是想办法让那些成绩最差的学生“远离”考场,即使剩余参加考试的学生的成绩没有任何长进,最终考试的平均成绩也会有所提升。在得克萨斯州,10年级学生需要参加全州统考,有证据表明休斯敦的中学有意让学习能力较差的学生留级,不让他们升为10年级生。休斯敦曾曝出过一个令人震惊的事情:一个学生连续3年当9年级生,然后直接升到了11年级——通过这样一种狡猾的运作,既能让一个成绩较差的学生免于在10年级统考中使总体分数下滑,又不至于让他因辍学而影响到升学率。
1702643045
1702643046
罗德•佩奇到底有没有在他的任期内参与策划这些操纵统计数字阴谋,我们并不清楚,但有一点是肯定的,他曾颁布了一个严格的问责政策,用以奖励那些达到升学率目标和考试分数目标的学校校长,同时对那些没能达标的校长予以解聘或降职处理。可想而知,整个休斯敦的校长们必然会积极响应,在这堂“课”上他们可不愿落后。但我们必须清醒地认识到,要想在评估报告上大放异彩,这些校长必须时刻将目标放在心中,任何与其有冲突的管理方法都不会有好下场。
1702643047
1702643048
纽约州就因为类似的统计陷阱而栽了大跟头,付出了惨痛的代价。州政府之前出台了“记分卡”制度,对接受心脏搭桥手术的病人的死亡率进行统计,以便让公众在选择心脏科医生时有一个参考。这似乎是一个完全合情合理,而且有所帮助的描述统计学在政策制定过程中的应用。心脏搭桥手术是治疗心脏病最常用和有效的方法,心脏病人在搭桥手术过程中的死亡比例当然是一个非常重要的数据,而作为个人根本没有办法了解到确切数据,因此政府出面收集并向公众公开这一数据是合乎情理的。但就是这么一个“好”政策,却导致了更多病人的死亡。
1702643049
1702643050
心脏科医生肯定会在意他们的“记分卡”。但是对于一个外科医生来说,降低病人死亡率最简单的方法并不是降低病患死亡人数,因为大部分医生在救死扶伤方面已经竭尽全力了。降低死亡率最简单易行的方法是拒绝为那些病况最严重的病人动手术。罗彻斯特大学医学与牙医学院的一项调查表明,以服务病人为初衷的记分卡,到头来反而会给病人造成伤害:在参与调查的心脏科医生中,有83%的医生表示正是由于公开了死亡率数据,一些本来可以从搭桥手术中获益的病人最终没能被安排进行手术;79%的医生表示收集并公开死亡率数据或多或少地影响了他们的治疗决策。这一看似有用的描述性数据存在一个可悲的矛盾,而心脏科医生也只能理性地接受并釆取自己的对策,就是让那些最需要心脏搭桥的病人远离手术台。
1702643051
1702643052
作为一个统计指标,不仅时常会“携带”其他描述性数据可能存在的陷阱,而且就其自身而言,将许多指标数据融合为一个单一的数字,这多少都会对现实和真相产生扭曲。从定义来看,任何一个指数对其构成都是十分敏感的;无论是所采用的指标数据的变化,还是各个数据的权重变化,都会对指数的最终呈现产生影响。举例而言,为什么美国国家美式橄榄球大联盟(NFL)在计算传球效绩指数时不将第三次触地完成率考虑在内?在计算某个国家的人类发展指数时,识字率和人均收入两者的权重该如何确定?最终,我们必须面对的重要问题就是,如果计算过程的不准确性无法克服,那么花那么大气力将众多数据压缩成一个数字就只是为了简单和易于使用,这一切是否值得?有些时候,这样做的确不值得,就比如(我们之前提到的)《美国新闻与世界报道》的大学排名。
1702643053
1702643054
这份排名动用了16个统计指标为美国的学院、大学和专业院校打分、排名。以2010年为例,在为综合性大学和文理学院排名的过程中,“录取新生”占15%。基于大学录取率的“录取新生”指标,是指所录取学生中成绩占其所在高中年级前10%的学生的比例,以及录取学生的SAT和ACT(美国大学录取考试)的平均分。《美国新闻与世界报道》刊登大学排名的好处在于,这份榜单以一种简单易懂的方式囊括了全美几千所大学的海量信息,就连其批评者们也承认,其中收集的有关美国大学的很多信息都是有价值的。许多有远见的学生都会想要知道心仪大学的毕业率和班级平均规模。
1702643055
1702643056
当然,提供有意义的信息与将这些信息浓缩成一个权威排名完全是两码事。在批评家的眼里,这份排名设计粗糙、误人子弟、对高中毕业生的长远发展有百害而无一利。“问题之一就在于将教育机构以数字顺序进行排名,而原始数据本身并不支持如此精确的操作。”明尼苏达州麦卡利斯特学院前校长迈克尔•麦弗逊说。凭什么“校友捐赠”要占学校综合得分的5%?如果这项指标真的很重要,那么为什么不干脆占10%的比例?
1702643057
1702643058
按照《美国新闻与世界报道》的说法,“每一项指标都存在一个权重(表现为百分比的形式),我们会根据这些指标的重要程度来判断不同指标的权重大小。”可是,有时候判断和专断的界线就是那么模糊。在这个美国高等院校的排名系统中,权重最大的指标是“学术名誉”,该指标是基于其他院校的负责人所填写的一份“同行评估调查”以及高中升学指导员的调查统计得出的。马尔科姆·格雷德威尔向来对排名持怀疑的态度,大学排名更是他猛烈抨击的对象,特别是同行评估法,在他看来就是一个笑话。马尔科姆•格雷德威尔举了一个例子,密歇根最高法院的一位已经退休的大法官曾经向100多位律师寄发了一份问卷,让他们选出心目中最好的10所法学院。宾夕法尼亚州州立大学法学院的名字也出现这份问卷上,其最后的统计排名结果是宾夕法尼亚州州立大学法学院的教学质量居中等偏下。但问题出现了,在那个时候,宾夕法尼亚州州立大学法学院还没有成立。
1702643059
[
上一页 ]
[ :1.70264301e+09 ]
[
下一页 ]