1702632744
8.1 疲劳驾驶。一名实验人员统计了一天内的不同时间因驾驶员疲劳驾驶导致交通事故的数量。他注意到,下午晚些时候(5点至6点)的交通事故数量要比下午早些时候(1点至2点)多一些。因此,他认为司机疲劳驾驶是造成下午晚些时候发生交通事故更多的主要原因。你认为这个结论有效吗?
1702632745
1702632746
用身高来评价一个学生能否考上大学,或者在该用比率时却用计数,都是很清楚的无效量度的例子。而比较棘手的问题,则涉及既非确定无效也非明显有效的量度。
1702632747
1702632748
例5 课程测验
1702632749
1702632750
当你在参加统计学这门课的测验时,你很可能希望考题与教学大纲中的重点内容相关,因为这样的试题是度量你对该课程的掌握程度的有效量度。主持美国学术能力评估测试的大学委员会也提供各种测验,这些测验并没有什么争议性。专家可以通过对比考题和教学大纲,来度量测验的有效性。
1702632751
1702632752
例6 IQ(智商)测试
1702632753
1702632754
心理学家想要测量人类性格中不能直接被观察到的一些方面,诸如“智力”或“权威人格”。IQ测试能不能度量人的智力水平?有些心理学家会很大声地回答“可以”,他们认为有一种叫作“普通智力”的东西,各种IQ测试,虽然没法做到完美,但确实可以测量出普通智力水平。有些专家却大声地说“不能”,他们认为智力不是单一的,它由各种不同的心理能力共同组成(例如逻辑、语言、空间感、音乐、动觉、人际交往),没有任何一种工具可以测量出所有不同的心理能力。
1702632755
1702632756
对于IQ测试是否有效的不同意见,植根于对智力本质的不同看法。如果我们没有办法对智力到底是什么取得共识,就无法对该如何度量智力达成一致意见。
1702632757
1702632758
对这些例子中的问题,统计学帮不上什么忙。要解决这些问题,首先要明确界定像“统计学知识”或“智力”这样的概念,否则有效性就变成由个人主观决定。不过,如果我们把有效性的概念定义得更精确一些,那么统计学就很有用了。
1702632759
1702632760
例7 再谈美国学术能力评估测试
1702632761
1702632762
1999年,当美国学术能力评估测试分数公布时,公正测验机构表示:“测验如果有所偏颇,就会很不公平地导致数以千计的女学生无缘上大学或拿不到奖学金。而根据她们平日在学校里的优异表现,她们应该得到这些。”数学成绩的性别差距比较大,女生的平均分为495,男生的平均分为531。12年后的2011年,这个差距依然存在。在高中的高年级学生中,女生数学成绩的平均分是500,而男生数学成绩的平均分是531。美国联邦民权办公室(Federal Office of Civil Rights)认为,女生和少数族裔学生成绩比较差的测验中存在歧视问题。
1702632763
1702632764
大学委员会回复道,造成某些群体的平均分比其他群体低的原因有很多。举例来说,来自低收入与低受教育程度家庭的参加美国学术能力评估测试的学生中,女生比男生多。平均来看,父母收入低且受教育程度也低的学生,在家里和学校里拥有的资源都不及其他学生多。他们的美国学术能力评估测试分数比较低,是因为他们的家庭背景使得他们为进大学所做的准备不足。因此,他们的分数较低并不能说明美国学术能力评估测试不是有效量度。
1702632765
1702632766
美国学术能力评估测试是不是评估一个学生能否考上大学的有效量度?“已经为考大学做好准备”是个模糊的概念,其中可能包含了先天的智力(不管我们怎么定义它)、掌握的知识、读书方法、考试成绩以及学习动机等因素。对于美国学术能力评估测试(或任何其他量度)能否正确度量这个模糊的概念,永远都会存在争议。
1702632767
1702632768
换个角度考虑,我们问一个比较简单且容易回答的问题:美国学术能力评估测试分数是否有助于预测一个学生能否胜任大学学业?“能否胜任大学学业”是一个很明确的概念,可以用学生能否毕业和他们的大学成绩来度量。比起美国学术能力评估测试分数低的学生,分数高的学生更有可能顺利从大学毕业,并得到较高的成绩等级。因此,以美国学术能力评估测试分数作为一个学生能否考上大学的量度,具有预测有效性。这是唯一可以用数据直接进行评估的有效性。
1702632769
1702632770
预测有效性
1702632771
1702632772
如果某一个指标的量度,可以用来预测跟这个指标有关的一些事情,我们就认为其具有预测有效性(predictive validity)。
1702632773
1702632774
从统计学的角度来看,预测有效性是最明确而且最有用的一种有效性。“美国学术能力评估测试分数是否有助于预测大学成绩”这个问题,要比“IQ测试是不是可以测量智力水平”明确多了。然而,预测有效性可不是“是或否”的概念。我们应该问,用美国学术能力评估测试分数来预测大学成绩的准确程度如何?我们还应该问,美国学术能力评估测试对哪些群体具有预测有效性?比如,它预测男生的大学成绩很准,对女生却不准。有统计学方法可以描述“准确程度”。
1702632775
1702632776
准确和不准确量度
1702632777
1702632778
用家用体重秤来量你的体重是有效的。可是,如果你的体重秤跟我的体重秤一样,量出来的体重就不见得准了。来看一下我的体重秤,它可以量我的体重,但量出来的并不是我的真实体重。我的体重秤总会量多3磅,所以读数是:
1702632779
1702632780
量出来的体重=真实体重+3磅
1702632781
1702632782
如果事实果真如此,那么对于同一个人的体重,体重秤显示的数字应该相同。但是,大部分体重秤都会有少许变化,你离开体重秤然后马上又站上去,体重秤的读数也不见得一样。我的体重秤用久了,不灵敏了,因为指针没有真正归零再加上不稳定,它总会多量3磅。今天早上我的体重秤有点儿不灵敏,读数又少了1磅。所以读数是:
1702632783
1702632784
量出来的体重=真实体重+3磅–1磅
1702632785
1702632786
我从体重秤上下来然后马上再站上去的时候,体重秤的读数比平常又多了1磅。这一次的读数是:
1702632787
1702632788
量出来的体重=真实体重+3磅+1磅
1702632789
1702632790
我不喜欢看到这一次量出的体重比前一次更重,所以就走下体重秤,马上再站上去量了一次。这次体重秤又向另一个方向偏移了,得到的读数是:
1702632791
1702632792
量出来的体重=真实体重+3磅–1.5磅
1702632793
[
上一页 ]
[ :1.702632744e+09 ]
[
下一页 ]