打字猴:1.702632744e+09

1702632744 8.1 疲劳驾驶。一名实验人员统计了一天内的不同时间因驾驶员疲劳驾驶导致交通事故的数量。他注意到，下午晚些时候（5点至6点）的交通事故数量要比下午早些时候（1点至2点）多一些。因此，他认为司机疲劳驾驶是造成下午晚些时候发生交通事故更多的主要原因。你认为这个结论有效吗？

1702632745

1702632746 用身高来评价一个学生能否考上大学，或者在该用比率时却用计数，都是很清楚的无效量度的例子。而比较棘手的问题，则涉及既非确定无效也非明显有效的量度。

1702632747

1702632748 例5 课程测验

1702632749

1702632750 当你在参加统计学这门课的测验时，你很可能希望考题与教学大纲中的重点内容相关，因为这样的试题是度量你对该课程的掌握程度的有效量度。主持美国学术能力评估测试的大学委员会也提供各种测验，这些测验并没有什么争议性。专家可以通过对比考题和教学大纲，来度量测验的有效性。

1702632751

1702632752 例6 IQ（智商）测试

1702632753

1702632754 心理学家想要测量人类性格中不能直接被观察到的一些方面，诸如“智力”或“权威人格”。IQ测试能不能度量人的智力水平？有些心理学家会很大声地回答“可以”，他们认为有一种叫作“普通智力”的东西，各种IQ测试，虽然没法做到完美，但确实可以测量出普通智力水平。有些专家却大声地说“不能”，他们认为智力不是单一的，它由各种不同的心理能力共同组成（例如逻辑、语言、空间感、音乐、动觉、人际交往），没有任何一种工具可以测量出所有不同的心理能力。

1702632755

1702632756 对于IQ测试是否有效的不同意见，植根于对智力本质的不同看法。如果我们没有办法对智力到底是什么取得共识，就无法对该如何度量智力达成一致意见。

1702632757

1702632758 对这些例子中的问题，统计学帮不上什么忙。要解决这些问题，首先要明确界定像“统计学知识”或“智力”这样的概念，否则有效性就变成由个人主观决定。不过，如果我们把有效性的概念定义得更精确一些，那么统计学就很有用了。

1702632759

1702632760 例7 再谈美国学术能力评估测试

1702632761

1702632762 1999年，当美国学术能力评估测试分数公布时，公正测验机构表示：“测验如果有所偏颇，就会很不公平地导致数以千计的女学生无缘上大学或拿不到奖学金。而根据她们平日在学校里的优异表现，她们应该得到这些。”数学成绩的性别差距比较大，女生的平均分为495，男生的平均分为531。12年后的2011年，这个差距依然存在。在高中的高年级学生中，女生数学成绩的平均分是500，而男生数学成绩的平均分是531。美国联邦民权办公室（Federal Office of Civil Rights）认为，女生和少数族裔学生成绩比较差的测验中存在歧视问题。

1702632763

1702632764 大学委员会回复道，造成某些群体的平均分比其他群体低的原因有很多。举例来说，来自低收入与低受教育程度家庭的参加美国学术能力评估测试的学生中，女生比男生多。平均来看，父母收入低且受教育程度也低的学生，在家里和学校里拥有的资源都不及其他学生多。他们的美国学术能力评估测试分数比较低，是因为他们的家庭背景使得他们为进大学所做的准备不足。因此，他们的分数较低并不能说明美国学术能力评估测试不是有效量度。

1702632765

1702632766 美国学术能力评估测试是不是评估一个学生能否考上大学的有效量度？“已经为考大学做好准备”是个模糊的概念，其中可能包含了先天的智力（不管我们怎么定义它）、掌握的知识、读书方法、考试成绩以及学习动机等因素。对于美国学术能力评估测试（或任何其他量度）能否正确度量这个模糊的概念，永远都会存在争议。

1702632767

1702632768 换个角度考虑，我们问一个比较简单且容易回答的问题：美国学术能力评估测试分数是否有助于预测一个学生能否胜任大学学业？“能否胜任大学学业”是一个很明确的概念，可以用学生能否毕业和他们的大学成绩来度量。比起美国学术能力评估测试分数低的学生，分数高的学生更有可能顺利从大学毕业，并得到较高的成绩等级。因此，以美国学术能力评估测试分数作为一个学生能否考上大学的量度，具有预测有效性。这是唯一可以用数据直接进行评估的有效性。

1702632769

1702632770 预测有效性

1702632771

1702632772 如果某一个指标的量度，可以用来预测跟这个指标有关的一些事情，我们就认为其具有预测有效性（predictive validity）。

1702632773

1702632774 从统计学的角度来看，预测有效性是最明确而且最有用的一种有效性。“美国学术能力评估测试分数是否有助于预测大学成绩”这个问题，要比“IQ测试是不是可以测量智力水平”明确多了。然而，预测有效性可不是“是或否”的概念。我们应该问，用美国学术能力评估测试分数来预测大学成绩的准确程度如何？我们还应该问，美国学术能力评估测试对哪些群体具有预测有效性？比如，它预测男生的大学成绩很准，对女生却不准。有统计学方法可以描述“准确程度”。

1702632775

1702632776 准确和不准确量度

1702632777

1702632778 用家用体重秤来量你的体重是有效的。可是，如果你的体重秤跟我的体重秤一样，量出来的体重就不见得准了。来看一下我的体重秤，它可以量我的体重，但量出来的并不是我的真实体重。我的体重秤总会量多3磅，所以读数是：

1702632779

1702632780 量出来的体重=真实体重+3磅

1702632781

1702632782 如果事实果真如此，那么对于同一个人的体重，体重秤显示的数字应该相同。但是，大部分体重秤都会有少许变化，你离开体重秤然后马上又站上去，体重秤的读数也不见得一样。我的体重秤用久了，不灵敏了，因为指针没有真正归零再加上不稳定，它总会多量3磅。今天早上我的体重秤有点儿不灵敏，读数又少了1磅。所以读数是：

1702632783

1702632784 量出来的体重=真实体重+3磅–1磅

1702632785

1702632786 我从体重秤上下来然后马上再站上去的时候，体重秤的读数比平常又多了1磅。这一次的读数是：

1702632787

1702632788 量出来的体重=真实体重+3磅+1磅

1702632789

1702632790 我不喜欢看到这一次量出的体重比前一次更重，所以就走下体重秤，马上再站上去量了一次。这次体重秤又向另一个方向偏移了，得到的读数是：

1702632791

1702632792 量出来的体重=真实体重+3磅–1.5磅

1702632793

[ 上一页 ] [ :1.702632744e+09 ] [ 下一页 ]