1702648434
量化数据分析:通过社会研究检验想法 信度
1702648435
1702648436
信度指测量的一致性。同一概念的不同测量,或在不同时间重复进行的同一测量应该产生同样的结果。例如,在种族间容忍度的测量中,如果一个人分值高而另一个人分值低,那么如果使用另一个不同的(但等效的)种族间容忍度测量,我们希望得到两个人之间同样的差异;在一定程度上,如果两次测量产生相似的结果,我们说两次测量是可信的。同样,如果同一受访者在两个时点被问及态度,我们希望得到同样的结果(假设他没有改变态度)。
1702648437
1702648438
从这个定义容易看到,为什么多题项测度通常比单题项测度更可信。由于一组题项中的每一个都是测量同样的潜在维度,当对每个题项的应答取平均值时,个人以特定方式来回答特定问题的这种特殊性就被“平均掉了”。当然,这只在测度的每个题项都反映同一潜在维度(即指向某一概念的变量)时才会如此。如果一个题项反映的是其他而非研究者感兴趣的潜在维度,或者它在反映了研究者感兴趣的潜在维度的同时还反映了其他某个潜在维度,那么它将削弱测度的信度(和效度)。例如,假设对“你是否愿意与不同种族的人做邻居”这个问题的回答反映了人们在经济层面上不同程度的担忧——有些人拒绝与不同种族的人做邻居并不是出于种族歧视而是因为担心房产会贬值(这种担心或许是对的,或许是错的)。我们不希望在种族容忍度测度中包含这个题项,因为它会使测度不太可信——因为这类在经济层面上有所担心的人在样本中的多少会在一定程度上决定测度的分值。
1702648439
1702648440
创建可信测度的一个重要原因是,在其他条件都相同的情况下,不可信测度与其他变量的相关性会较低。这源于不可信测度包含大量的“噪音”。我们可以将测度看作具有一个“真值”成分和一个“误差”成分。“真值”成分由观察测量与真实潜在维度的相关表示;此相关的大小说明了测度的信度。“误差”成分——与潜在维度不相关的部分——反映了观察测量的特殊决定因素。从此信度的定义出发,它意味着两次测量中任何一个的信度越低,它们观测值之间的相关性相对于潜在维度之间的真实相关性而言就越低。从形式上,只要知道观测值之间的相关和每个变量的信度,我们就能够估计变量之间的“真实”相关。真实相关由下面的方程给出:
1702648441
1702648442
1702648443
1702648444
1702648445
1702648446
1702648447
1702648448
1702648449
1702648450
这里,是真实得分之间的相关,rXY是X与Y之间的观测相关,和分别是X和Y的信度系数。方程11.1也可看作是对不可信所引起的衰减的修正公式。是修正衰减后X和Y之间的相关。例如,如果两个测度的信度都是0.7,且它们之间的观测相关是0.3,那么修正衰减后的相关将会是。显然,相关性受到变量信度的强烈影响。
1702648451
1702648452
评估信度的方法 有几种测量测度信度的方法:
1702648453
1702648454
·重测信度(test-retest reliability)是一个测度在两个不同时点上分值的相关性。
1702648455
1702648456
·复本信度(alternate-forms reliability)是测量具有同样潜在维度的两个不同测度之间的相关性。
1702648457
1702648458
·内在一致性信度(internal-consistency reliability)是一个测度的多个题项之间的相关函数。下面将讨论的克朗巴哈α信度系数(Cronbach’s alpha)就是一种内在一致性测量。
1702648459
1702648460
分析者有时候也会在着手进行多元回归分析之前对衰减相关进行修正,然后依据修正过的相关系数矩阵估计回归模型〔此类相关被广泛使用的例子见Jencks等(1972,1979)〕。当然,这只在分析者知道或能够估计信度系数的时候才有可能。Stata命令-eivreg-(含误差变量回归)提供了一种在回归估计中使用变量信度信息的简便方法。本章后面的一个具体例子阐述了此概念。
1702648461
1702648462
通常,测度的内在一致性信度取决于两个因素:题项数量和题项间的平均相关性。每个部分的增加都会使信度得到提升。有几种内在一致性信度测量,其中克朗巴哈α信度系数的应用最广:
1702648463
1702648464
1702648465
1702648466
1702648467
1702648468
这里,N是题项数量,是题项间的平均相关性。在表11-1中,我们能够看出题项间的平均相关分别为0.09、0.25和0.49(它们对应于平均因子负荷0.3、0.5和0.7)时对测度信度所带来的影响。
1702648469
1702648470
表11-1 不同题项数量组合下多题项测度的克朗巴哈α信度系数与题项间的平均相关性
1702648471
1702648472
1702648473
1702648474
1702648475
显然,即使题项间具有0.25这样低的平均相关,包含至少7或8个题项的测度也可能产生合理可信的结果。尽管如此,切记“合理可信的”并不等同于“高度可信的”是非常重要的。态度预测通常不令人信服的一个原因是,涉及态度测度的相关性因为信度问题而大大减弱了,尤其是测度中仅包括少数几个题项时。
1702648476
1702648477
为什么SAT和GRE考试包括几百个题项 一个测度中的题项数量对信度的影响清楚地说明,为什么诸如SAT和GRE之类的考试会包含几百个题项。因为大学或研究生院的招生和经济资助明显地受到考试成绩的影响,我们期望考试是非常可信的。如果同样的学生在两个月或三个月之后再参加一次考试(期间没有为考试做过准备),原则上这个考试会产生同样的学生排名。有趣的是,即使有几百道题,一个人在不同时候的SAT或GRE成绩经常差异极大,这大概是因为考试成绩受到诸如考试期间紧张和疲劳程度(当然还有准备程度)的影响。
1702648478
1702648479
1702648480
1702648481
[
上一页 ]
[ :1.702648433e+09 ]
[
下一页 ]