打字猴:1.702632894e+09

1702632894 长期来讲，美国国家标准与技术研究院对时间的量度并没有偏差。美国国家标准与技术研究院的秒有时比国际计量局的短，有时比国际计量局的长，但不是一直较短或一直较长。美国国家标准与技术研究院的量度很可靠，但是从上面的数字还是可以看出有变异。世界上没有百分之百可靠的测量。多个测量值的平均值，比起单次的测量结果，可靠程度更高。这就是国际计量局要用很多原子钟的时间计算平均值的原因之一。

1702632895

1702632896 世界各地的科学家都通过反复测量，并且取多个测量值的平均值来得到比较可靠的结果，学生在做化学实验时也常常这样。就像比较大的样本可以减小样本统计量的变异性一样，用多个测量值的平均值，也可以减小度量结果的变异性。

1702632897

1702632898 用平均值来提升可靠程度

1702632899

1702632900 没有任何度量过程是百分之百可靠的。相比之下，重复度量同一个体再取测量值的平均值，会比单一测量值更可靠（变异性较小）。

1702632901

1702632902 不幸的是，没有一种这么直接的方法可用来减小偏差。偏差大小是由度量工具的好坏决定的。要减小偏差，你就需要用好的工具。美国国家标准与技术研究院的原子钟的准确程度是每600万年的误差为1秒，但要是把它放在你的床边，恐怕体积太大了些。

1702632903

1702632904 例10 再次度量失业率

1702632905

1702632906 统计失业率也是“度量”。就如同测量长度和时间一样，对测量失业率而言，偏差和可靠程度的概念同样适用。

1702632907

1702632908 美国劳工部劳工统计局会派监督员重新访问5%的样本，来检查他们测量的失业率是否可靠。这就是对同一个体的重复度量，就像学生在化学实验室里，多次测量一个物体的重量。

1702632909

1702632910 美国劳工部劳工统计局通过改善度量工具来减小偏差，1994年它对当前人口调查进行了50多年里的最大“翻新”。比如，度量失业率的旧系统低估了女性失业率，因为测量的细节没有随女性工作形态的转变而做出调整，新系统纠正了这个偏差。

1702632911

1702632912 请同情心理学家

1702632913

1702632914 统计学家是习惯性动物，他们对于度量的考虑，就和他们考虑抽样时差不多。两种情况下的主要问题都是：“如果我们重复多次，会发生什么？”在抽样时，我们需要估计总体参数值，但要担心估计值是不是有偏差，或者不同样本统计量的变异性是不是太大。现在，我们想要度量某个性质的真实值，又要担心我们的度量结果也许有偏差，或者当我们反复测量同一个体时测量值的差异太大。偏差是每一次测量都会发生的系统性误差；大偏差（低可靠程度）表示我们的测量结果因为不具重复性，所以不可信。

1702632915

1702632916 当我们在测量体重时，这样考虑问题是很直接的方式。我们对“真实体重”代表什么有很清楚的概念，我们也知道世界上有很好的体重秤，比如，我可以考虑去医院或者物理实验室测量。我们还可以把体重精确到我们想要的程度。可靠程度也很容易描述，在体重秤上上上下下很多次，看看读数的变化幅度有多大。

1702632917

1702632918 然而，当我们想度量“智力水平”或“是否能考上大学”的时候，若想要知道“如果我们重复多次，会发生什么”，却要困难得多。让我们来看看可怜的心理学家度量“权威人格”的例子。

1702632919

1702632920 例11 权威人格的度量

1702632921

1702632922 是不是有些人的性格使得他们的想法比较僵化，而且会追随权威的领导者？在第二次世界大战之后研究纳粹行为的心理学家认为的确如此。1950年，一群心理学家发明出“F量表”当作度量“权威人格”的工具。F量表会问测试对象，对以下叙述在多大程度上同意或不同意。

1702632923

1702632924 • 服从和尊敬权威人物是儿童最应该学习的美德。

1702632925

1702632926 • 科学的地位不容怀疑，然而世界上还有许多重要的事是人永远弄不懂的。

1702632927

1702632928 你要是非常赞同这类叙述，就会被视为有权威人格。F量表和权威人格这两个概念，在心理学中一直都很重要，尤其是在研究偏见和右翼极端分子行为的时候。

1702632929

1702632930 对于用F量表来度量权威人格，我们也许会问下面这些问题。当我们考虑IQ测试或者美国学术能力评估测试的时候，同样的问题也会浮现在脑海里。

1702632931

1702632932 1.什么是权威人格？我们对这个概念的了解程度，还不及我们对体重的了解。实际的回答似乎是“就是F量表要度量的东西”。要评估这种度量是否有效，必须先知道F量表的高分数代表什么样的行为，也就是说它是否具有预测有效性。

1702632933

1702632934 2.权威人格这个叫法不好听，而且F代表了法西斯主义者（Fascist）。如同例11中第二个问题所暗示的那样，有传统宗教信仰的人和与其类似却没有宗教信仰的人比起来，前者较可能在F量表中得高分。测量工具是不是反映了其发明者自己的想法，而换个人是不是就能发明出不一样的工具呢？

1702632935

1702632936 3.我们自认为知道自己真实的体重是多少，那我的F量表的真实分数是多少呢？美国国家标准与技术研究院可以帮我们量出真实的体重，但没法帮我们得到真实的权威人格的分数。如果我们怀疑度量“权威人格”的工具有偏差，因为它对有宗教信仰的人不公平，我们要怎样去检验呢？

1702632937

1702632938 4.我们可以量很多次体重，来评估体重秤的可靠程度。如果我多次接受F量表的测试，我会记得我第一次写了些什么答案。也就是说，重复同一个心理测试很多次，并不能算真正的重复。所以，实际上很难检验心理测试的可靠程度。也许心理学家可以把同一个工具，转化成好几种不同的形式来实现重复度量。但是，我们又怎么知道这些不同形式的工具在效果上是不是真的一样呢？

1702632939

1702632940 我们的意思不是说心理学家对以上问题都给不出答案。前两个问题本来就有争议性，因为并不是所有心理学家对人类性格的思考路径都一样。后两个问题至少有部分答案，但答案并不简单。关键问题在于，在我们度量体重时，“度量”这个词的意义清楚明了，但在我们想要度量人类性格的时候，它却变得极其复杂。

1702632941

1702632942 当你看到诸如权威人格、智力水平以及适不适合上大学这类主题的相关统计数据时，一定要小心。数字看似很可靠，但数据是人生产出来的，因此会反映出人的欲望、偏见和弱点。如果我们对自己到底在度量什么都不了解，也未取得共识，数字就可能会引起争议，而不是解决问题。

1702632943

[ 上一页 ] [ :1.702632894e+09 ] [ 下一页 ]