打字猴:1.702632894e+09
1702632894 长期来讲,美国国家标准与技术研究院对时间的量度并没有偏差。美国国家标准与技术研究院的秒有时比国际计量局的短,有时比国际计量局的长,但不是一直较短或一直较长。美国国家标准与技术研究院的量度很可靠,但是从上面的数字还是可以看出有变异。世界上没有百分之百可靠的测量。多个测量值的平均值,比起单次的测量结果,可靠程度更高。这就是国际计量局要用很多原子钟的时间计算平均值的原因之一。
1702632895
1702632896 世界各地的科学家都通过反复测量,并且取多个测量值的平均值来得到比较可靠的结果,学生在做化学实验时也常常这样。就像比较大的样本可以减小样本统计量的变异性一样,用多个测量值的平均值,也可以减小度量结果的变异性。
1702632897
1702632898 用平均值来提升可靠程度
1702632899
1702632900 没有任何度量过程是百分之百可靠的。相比之下,重复度量同一个体再取测量值的平均值,会比单一测量值更可靠(变异性较小)。
1702632901
1702632902 不幸的是,没有一种这么直接的方法可用来减小偏差。偏差大小是由度量工具的好坏决定的。要减小偏差,你就需要用好的工具。美国国家标准与技术研究院的原子钟的准确程度是每600万年的误差为1秒,但要是把它放在你的床边,恐怕体积太大了些。
1702632903
1702632904 例10 再次度量失业率
1702632905
1702632906 统计失业率也是“度量”。就如同测量长度和时间一样,对测量失业率而言,偏差和可靠程度的概念同样适用。
1702632907
1702632908 美国劳工部劳工统计局会派监督员重新访问5%的样本,来检查他们测量的失业率是否可靠。这就是对同一个体的重复度量,就像学生在化学实验室里,多次测量一个物体的重量。
1702632909
1702632910 美国劳工部劳工统计局通过改善度量工具来减小偏差,1994年它对当前人口调查进行了50多年里的最大“翻新”。比如,度量失业率的旧系统低估了女性失业率,因为测量的细节没有随女性工作形态的转变而做出调整,新系统纠正了这个偏差。
1702632911
1702632912 请同情心理学家
1702632913
1702632914 统计学家是习惯性动物,他们对于度量的考虑,就和他们考虑抽样时差不多。两种情况下的主要问题都是:“如果我们重复多次,会发生什么?”在抽样时,我们需要估计总体参数值,但要担心估计值是不是有偏差,或者不同样本统计量的变异性是不是太大。现在,我们想要度量某个性质的真实值,又要担心我们的度量结果也许有偏差,或者当我们反复测量同一个体时测量值的差异太大。偏差是每一次测量都会发生的系统性误差;大偏差(低可靠程度)表示我们的测量结果因为不具重复性,所以不可信。
1702632915
1702632916 当我们在测量体重时,这样考虑问题是很直接的方式。我们对“真实体重”代表什么有很清楚的概念,我们也知道世界上有很好的体重秤,比如,我可以考虑去医院或者物理实验室测量。我们还可以把体重精确到我们想要的程度。可靠程度也很容易描述,在体重秤上上上下下很多次,看看读数的变化幅度有多大。
1702632917
1702632918 然而,当我们想度量“智力水平”或“是否能考上大学”的时候,若想要知道“如果我们重复多次,会发生什么”,却要困难得多。让我们来看看可怜的心理学家度量“权威人格”的例子。
1702632919
1702632920 例11 权威人格的度量
1702632921
1702632922 是不是有些人的性格使得他们的想法比较僵化,而且会追随权威的领导者?在第二次世界大战之后研究纳粹行为的心理学家认为的确如此。1950年,一群心理学家发明出“F量表”当作度量“权威人格”的工具。F量表会问测试对象,对以下叙述在多大程度上同意或不同意。
1702632923
1702632924 • 服从和尊敬权威人物是儿童最应该学习的美德。
1702632925
1702632926 • 科学的地位不容怀疑,然而世界上还有许多重要的事是人永远弄不懂的。
1702632927
1702632928 你要是非常赞同这类叙述,就会被视为有权威人格。F量表和权威人格这两个概念,在心理学中一直都很重要,尤其是在研究偏见和右翼极端分子行为的时候。
1702632929
1702632930 对于用F量表来度量权威人格,我们也许会问下面这些问题。当我们考虑IQ测试或者美国学术能力评估测试的时候,同样的问题也会浮现在脑海里。
1702632931
1702632932 1.什么是权威人格?我们对这个概念的了解程度,还不及我们对体重的了解。实际的回答似乎是“就是F量表要度量的东西”。要评估这种度量是否有效,必须先知道F量表的高分数代表什么样的行为,也就是说它是否具有预测有效性。
1702632933
1702632934 2.权威人格这个叫法不好听,而且F代表了法西斯主义者(Fascist)。如同例11中第二个问题所暗示的那样,有传统宗教信仰的人和与其类似却没有宗教信仰的人比起来,前者较可能在F量表中得高分。测量工具是不是反映了其发明者自己的想法,而换个人是不是就能发明出不一样的工具呢?
1702632935
1702632936 3.我们自认为知道自己真实的体重是多少,那我的F量表的真实分数是多少呢?美国国家标准与技术研究院可以帮我们量出真实的体重,但没法帮我们得到真实的权威人格的分数。如果我们怀疑度量“权威人格”的工具有偏差,因为它对有宗教信仰的人不公平,我们要怎样去检验呢?
1702632937
1702632938 4.我们可以量很多次体重,来评估体重秤的可靠程度。如果我多次接受F量表的测试,我会记得我第一次写了些什么答案。也就是说,重复同一个心理测试很多次,并不能算真正的重复。所以,实际上很难检验心理测试的可靠程度。也许心理学家可以把同一个工具,转化成好几种不同的形式来实现重复度量。但是,我们又怎么知道这些不同形式的工具在效果上是不是真的一样呢?
1702632939
1702632940 我们的意思不是说心理学家对以上问题都给不出答案。前两个问题本来就有争议性,因为并不是所有心理学家对人类性格的思考路径都一样。后两个问题至少有部分答案,但答案并不简单。关键问题在于,在我们度量体重时,“度量”这个词的意义清楚明了,但在我们想要度量人类性格的时候,它却变得极其复杂。
1702632941
1702632942 当你看到诸如权威人格、智力水平以及适不适合上大学这类主题的相关统计数据时,一定要小心。数字看似很可靠,但数据是人生产出来的,因此会反映出人的欲望、偏见和弱点。如果我们对自己到底在度量什么都不了解,也未取得共识,数字就可能会引起争议,而不是解决问题。
1702632943
[ 上一页 ]  [ :1.702632894e+09 ]  [ 下一页 ]