打字猴:1.702648399e+09
1702648399 量化数据分析:通过社会研究检验想法 [:1702644794]
1702648400 本章内容
1702648401
1702648402 我们在本章介绍如何通过构建多题项测度(multiple-item scale)来提高测量的效度和信度。我们介绍三种构建测度的方法:加总测度法(additive scaling)、以因子为基础的测度法(factor-based scaling)和效应比例测度法(effect-proportional scaling)。我们还将介绍回归分析的两种变体:含误差变量回归(errors-in-variables regression),即修正测量的不可靠性;以及似不相关回归(seemingly unrelated regression),即用来比较(部分或所有)自变量相同但因变量不同的回归方程。
1702648403
1702648404
1702648405
1702648406
1702648407 量化数据分析:通过社会研究检验想法 [:1702644795]
1702648408 量化数据分析:通过社会研究检验想法 引言
1702648409
1702648410 在社会研究中,我们经常希望研究那些不能直接、精确测量的概念之间的关系。例如,社会分层研究中的阶层、地位和权力,态度研究中的失范、疏离和权威主义,政治社会学研究中的自由主义和保守主义。很难想象任何单一的对人们信仰和行为的测量能够充分反映这类概念。例如,假如我们想根据国会议员投票记录的自由程度来对他们进行区分。我们几乎无法接受只用一种投票行为——比如说是否支持外国援助——来测量“自由(主义)投票”,将投赞成票的归为自由派,将投反对票的归为保守派。对于任何特定的投票,除“自由主义”或“保守主义”之外,有些因素也在起作用——对法规的特定语言表述持有异议,豁免政治债务的需求,困难时期资金最好用于家庭社会福利方面的观点,等等。尽管一些外在因素会影响特定的投票,但是,我们仍然期望“自由主义者”总体上比“保守主义者”会更倾向于支持外国援助、家庭福利、公民自由、投票权、反歧视行动等。(当然,我们也可能希望提炼出我们自己的概念,以区分自由主义或保守主义,例如,社会价值、财政政策、国际主义与孤立主义。但共同的基本点是:任何一个题项都将是对潜在概念的较差的测量,因为外在因素都会影响对单一题项的应答。)因此,一种构建潜在概念的操作性指标(operational indicators)的有用策略是创建多题项测度。也就是说,对被认为反映了一个潜在概念的一组题项来说,我们取(受访者)对每个题项应答的平均值来标示或测量(受访者)在这个概念上的认识程度。多题项测度应该满足两个标准:它们应该是有效的(valid)和可信的(reliable)。
1702648411
1702648412
1702648413
1702648414
1702648415 量化数据分析:通过社会研究检验想法 [:1702644796]
1702648416 量化数据分析:通过社会研究检验想法 效度
1702648417
1702648418 如果一个指标测量了它所应该测量的(即如果它充分测量了潜在概念),那么它就是有效的。遗憾的是,通常没有技术途径来评估某一测度的效度,尽管就像我们在本章后面讨论以因子为基础的测度法时将要看到的,通过考察它与其他变量之间是否存在我们在理论上所期望的关系,我们能够获得对该测度效度的信心。效度评估主要就是构建出一个概念与它的单个或多个指标之间以及这个概念与其他变量之间适当的理论关系。
1702648419
1702648420 在科学领域许多最重要的争论是有关测量效度的。这在社会科学中与在物理和生物科学中是一样的。因此,我推荐一本很好的书(Burgess,1978),它叙述了有关在火星上寻找生命的科学研究历程,生动地描绘了“有生命”阵营和“无生命”阵营之间对火星探测器发回的那些特定指标能否被有效地解释为火星上存在生命的证据而产生的持续不断的争论。
1702648421
1702648422 设计一个有效测量的首要条件是清楚你们要测量什么。这不像听起来那么简单。概念往往不是很清楚。例如,我们所说的“社会阶层”到底是什么意思?如果我们用马克思主义的方法,依据“与生产方式的关系”来定义阶层,我们仅仅是变换了问题,因为接下来,我们必须说明与生产方式的关系到底是指什么。如果我们用韦伯主义的方法,依据“市场位置”来定义阶层,我们会遇到完全相同的问题。
1702648423
1702648424 建议那些认为我在扎稻草人(即设定一个虚假的命题——译者注)的人们阅读Erik Olin Wright及其后继者们的著作,他们因在马克思主义框架下进行严谨的量化研究而受到赞扬(例如,见Wright et al.,1982;Wright,1985;Wright and Martin,1987)。Wright与他的团队的很大一部分论著主要致力于各种指标的效度研究。
1702648425
1702648426 在设计时,即使看似直截了当的变量通常也会遇到同样的困难。当设计教育获得测度时,我们试图测量的潜在概念是什么?技能、知识、文凭、价值、符合外在需求或其他?原则上,我们的理论——表现为对所感兴趣概念的明确说明——应该决定我们对于指标的选取。例如,如果我们对在获得特定工作的过程中教育的阈值功能(gatekeeping function)感兴趣,那么我们希望用某人的最高学历来测量教育获得。如果将学校教育看作是提高认知能力(的过程),那么我们会简单地计算某人的受教育年限。
1702648427
1702648428 当然,我们有时候会受到现存数据的制约,因而必须从相反的方向进行研究,即论证我们已有的测量所能代表的潜在概念。不管怎样,你的指标测量了什么概念,在你的头脑中必须十分清晰,反映在书面上也是如此〔关于不同类型效度的简要介绍,见Carmines和Zeller(1979:17-26)〕。
1702648429
1702648430
1702648431
1702648432
1702648433 量化数据分析:通过社会研究检验想法 [:1702644797]
1702648434 量化数据分析:通过社会研究检验想法 信度
1702648435
1702648436 信度指测量的一致性。同一概念的不同测量,或在不同时间重复进行的同一测量应该产生同样的结果。例如,在种族间容忍度的测量中,如果一个人分值高而另一个人分值低,那么如果使用另一个不同的(但等效的)种族间容忍度测量,我们希望得到两个人之间同样的差异;在一定程度上,如果两次测量产生相似的结果,我们说两次测量是可信的。同样,如果同一受访者在两个时点被问及态度,我们希望得到同样的结果(假设他没有改变态度)。
1702648437
1702648438 从这个定义容易看到,为什么多题项测度通常比单题项测度更可信。由于一组题项中的每一个都是测量同样的潜在维度,当对每个题项的应答取平均值时,个人以特定方式来回答特定问题的这种特殊性就被“平均掉了”。当然,这只在测度的每个题项都反映同一潜在维度(即指向某一概念的变量)时才会如此。如果一个题项反映的是其他而非研究者感兴趣的潜在维度,或者它在反映了研究者感兴趣的潜在维度的同时还反映了其他某个潜在维度,那么它将削弱测度的信度(和效度)。例如,假设对“你是否愿意与不同种族的人做邻居”这个问题的回答反映了人们在经济层面上不同程度的担忧——有些人拒绝与不同种族的人做邻居并不是出于种族歧视而是因为担心房产会贬值(这种担心或许是对的,或许是错的)。我们不希望在种族容忍度测度中包含这个题项,因为它会使测度不太可信——因为这类在经济层面上有所担心的人在样本中的多少会在一定程度上决定测度的分值。
1702648439
1702648440 创建可信测度的一个重要原因是,在其他条件都相同的情况下,不可信测度与其他变量的相关性会较低。这源于不可信测度包含大量的“噪音”。我们可以将测度看作具有一个“真值”成分和一个“误差”成分。“真值”成分由观察测量与真实潜在维度的相关表示;此相关的大小说明了测度的信度。“误差”成分——与潜在维度不相关的部分——反映了观察测量的特殊决定因素。从此信度的定义出发,它意味着两次测量中任何一个的信度越低,它们观测值之间的相关性相对于潜在维度之间的真实相关性而言就越低。从形式上,只要知道观测值之间的相关和每个变量的信度,我们就能够估计变量之间的“真实”相关。真实相关由下面的方程给出:
1702648441
1702648442
1702648443
1702648444
1702648445
1702648446
1702648447
1702648448
[ 上一页 ]  [ :1.702648399e+09 ]  [ 下一页 ]