打字猴:1.70263272e+09

1702632720

1702632721 当变量和某一性质有关，或者适合作为那个性质的代表时，我们就称此变量为该性质的有效量度。

1702632722

1702632723 用尺子来度量长度是有效的，而用学生的身高来度量其能否考上大学是无效的。美国劳工部劳工统计局发布的失业率是有效量度，即便改变失业率的定义会使数字发生改变。让我们看看其他情境下的有效量度和无效量度。

1702632724

1702632725 例4 评量公路安全性

1702632726

1702632727 路越建越好，限速要求提高了，大型运动型多功能车取代了轿车，而且严格的执法行动减少了酒后驾驶行为。在这种有很大改善的环境之下，1994~2007年，公路安全情况有没有随着时间改善？

1702632728

1702632729 只要看看车祸死亡人数就知道了。死亡事故报告系统公布，1994年有40716人死于车祸，13年之后的2007年有41259人死于车祸。但是，有驾照的人从1994年的1.75亿增加到2007年的2.06亿。人们开车行驶的总英里数，也从23580亿英里增加到30320亿英里。如果更多人驾车行驶了更多英里，即使公路的安全状况不断改善，车祸死亡人数也有可能增加。因此，车祸死亡人数不是公路安全状况的有效量度。

1702632730

1702632731 因此，用“计数”（count）的方式来评估公路安全状况并不理想，我们更应该用的是“比率”（rate）。计算每英里的车祸死亡人数，就可以把如今更多人驾车行驶更多英里这个事实考虑进去。2007年，美国人驾车行驶了共30320亿英里。因为这个数字太大了，所以评估公路的安全性，通常用的是每亿英里的车祸死亡人数，而不是每英里的车祸死亡人数。以2007年为例，公路车祸死亡率是：

1702632732

1702632733

1702632734

1702632735

1702632736 死亡率从1994年的每亿英里1.7人，降至2007年的1.4人。这是很大的差距：2007年和1994年比起来，每亿英里的死亡人数减少了18%。因此，在公路上开车已经变得越来越安全了。

1702632737

1702632738 比率和计数

1702632739

1702632740 通常来说，某件事情发生的比率和发生的次数相比，前者是更有效的量度。

1702632741

1702632742 练习

1702632743

1702632744 8.1 疲劳驾驶。一名实验人员统计了一天内的不同时间因驾驶员疲劳驾驶导致交通事故的数量。他注意到，下午晚些时候（5点至6点）的交通事故数量要比下午早些时候（1点至2点）多一些。因此，他认为司机疲劳驾驶是造成下午晚些时候发生交通事故更多的主要原因。你认为这个结论有效吗？

1702632745

1702632746 用身高来评价一个学生能否考上大学，或者在该用比率时却用计数，都是很清楚的无效量度的例子。而比较棘手的问题，则涉及既非确定无效也非明显有效的量度。

1702632747

1702632748 例5 课程测验

1702632749

1702632750 当你在参加统计学这门课的测验时，你很可能希望考题与教学大纲中的重点内容相关，因为这样的试题是度量你对该课程的掌握程度的有效量度。主持美国学术能力评估测试的大学委员会也提供各种测验，这些测验并没有什么争议性。专家可以通过对比考题和教学大纲，来度量测验的有效性。

1702632751

1702632752 例6 IQ（智商）测试

1702632753

1702632754 心理学家想要测量人类性格中不能直接被观察到的一些方面，诸如“智力”或“权威人格”。IQ测试能不能度量人的智力水平？有些心理学家会很大声地回答“可以”，他们认为有一种叫作“普通智力”的东西，各种IQ测试，虽然没法做到完美，但确实可以测量出普通智力水平。有些专家却大声地说“不能”，他们认为智力不是单一的，它由各种不同的心理能力共同组成（例如逻辑、语言、空间感、音乐、动觉、人际交往），没有任何一种工具可以测量出所有不同的心理能力。

1702632755

1702632756 对于IQ测试是否有效的不同意见，植根于对智力本质的不同看法。如果我们没有办法对智力到底是什么取得共识，就无法对该如何度量智力达成一致意见。

1702632757

1702632758 对这些例子中的问题，统计学帮不上什么忙。要解决这些问题，首先要明确界定像“统计学知识”或“智力”这样的概念，否则有效性就变成由个人主观决定。不过，如果我们把有效性的概念定义得更精确一些，那么统计学就很有用了。

1702632759

1702632760 例7 再谈美国学术能力评估测试

1702632761

1702632762 1999年，当美国学术能力评估测试分数公布时，公正测验机构表示：“测验如果有所偏颇，就会很不公平地导致数以千计的女学生无缘上大学或拿不到奖学金。而根据她们平日在学校里的优异表现，她们应该得到这些。”数学成绩的性别差距比较大，女生的平均分为495，男生的平均分为531。12年后的2011年，这个差距依然存在。在高中的高年级学生中，女生数学成绩的平均分是500，而男生数学成绩的平均分是531。美国联邦民权办公室（Federal Office of Civil Rights）认为，女生和少数族裔学生成绩比较差的测验中存在歧视问题。

1702632763

1702632764 大学委员会回复道，造成某些群体的平均分比其他群体低的原因有很多。举例来说，来自低收入与低受教育程度家庭的参加美国学术能力评估测试的学生中，女生比男生多。平均来看，父母收入低且受教育程度也低的学生，在家里和学校里拥有的资源都不及其他学生多。他们的美国学术能力评估测试分数比较低，是因为他们的家庭背景使得他们为进大学所做的准备不足。因此，他们的分数较低并不能说明美国学术能力评估测试不是有效量度。

1702632765

1702632766 美国学术能力评估测试是不是评估一个学生能否考上大学的有效量度？“已经为考大学做好准备”是个模糊的概念，其中可能包含了先天的智力（不管我们怎么定义它）、掌握的知识、读书方法、考试成绩以及学习动机等因素。对于美国学术能力评估测试（或任何其他量度）能否正确度量这个模糊的概念，永远都会存在争议。

1702632767

1702632768 换个角度考虑，我们问一个比较简单且容易回答的问题：美国学术能力评估测试分数是否有助于预测一个学生能否胜任大学学业？“能否胜任大学学业”是一个很明确的概念，可以用学生能否毕业和他们的大学成绩来度量。比起美国学术能力评估测试分数低的学生，分数高的学生更有可能顺利从大学毕业，并得到较高的成绩等级。因此，以美国学术能力评估测试分数作为一个学生能否考上大学的量度，具有预测有效性。这是唯一可以用数据直接进行评估的有效性。

1702632769

[ 上一页 ] [ :1.70263272e+09 ] [ 下一页 ]