打字猴:1.702648499e+09
1702648499 确定题项是否“相互矛盾”的一种有用的方法是采用因子分析(factor analysis)。因子分析〔或更准确地说是探索性因子分析(exploratory factor analysis)〕是实证性地确定一组观测到的具有合理精度的相关能否反映或生成少量假想因子的过程。因子分析是一套有许多变体的完善技术。然而,本章不去关注复杂的因子分析本身,而是注重它作为一种测度构建工具的应用。出于这个目的,最优方法是用带迭代的主成分因子分析(principal factor analysis)和最大方差旋转法(varimax rotation),然后检验旋转后的因子矩阵(rotated factor matrix)。最大方差旋转法使因子矩阵旋转,目的是使因子之间的对比最大化,当我们试图确定是否能够在一组较大量的备选题项中发现有特色的题项子集时,这正是我们想做的。然后,我们选取对某一因子具有高负荷、对其他剩余因子具有低负荷的题项。“高”负荷的标准是使负荷系数大于等于0.5(这与相关大约为0.52=0.25或更高相一致)。
1702648500
1702648501 变换变量以使“高”具有一致含义 在因子分析中,“高”指因子负荷的绝对值。因此,我们将负荷小于等于-0.5或者大于等于0.5视作“高”。然而,意识到一个负向的高负荷意味着此变量与潜在概念呈负相关是很重要的。正是出于这个原因,我们希望变换所有变量以使它们在概念上保持一致——即使一个变量的“高”值表示潜在维度的水平较高(经过这种变换之后,所有的指标应该都呈正相关)。例如,考虑GSS中的题项SPKCOM(“假如这个公认的共产主义者想在你们社区演讲,是允许还是不允许?”)和COLCOM(“假如他在一所学院教书,是解雇他还是不解雇他?”)。显然,对第一个题项的肯定回答和对第二个题项的否定回答都表示支持公民自由。因此,为了使因子分析的解释较为清楚,我们期望保留第二个题项的测度。这很容易,通过使用关系式X′=(k+1)-X,就可以将初始变量X变换成逆测度变量X′,这里,k指有k个应答分类。类似的变换在任何多元分析中都是有帮助的。
1702648502
1702648503 然后我们选取满足这两个标准——高负荷因子和与因变量存在相似的相关关系——的题项并通过将它们标准化(减去均值并除以标准差)将其合并成一个因子,再对它们求均值。这些步骤所生成的测度一般来说其均值接近0,取值范围为从负数-2.x或-3.x到相应大小的正数。为方便解释,将测度变换成取值范围在0~1之间是很有用的,因为测度所对应的系数给出了因变量在测度取最小值和最大值时的期望(净)差异。这种变换很容易实现,就像中学代数中对两个未知数求解两个方程一样:
1702648504
1702648505 1=a+b(max)
1702648506
1702648507 0=a+b(min)      (11.3)
1702648508
1702648509 这里,“max”是数据中某一测度S的最大值,而“min”是数据中S的最小值。这将产生a和b,用这两个值将S变换成新变量S′,形式如下:
1702648510
1702648511 S′=a+b(S)      (11.4)
1702648512
1702648513 用不完整信息构建测度 当你们构建多题项测度时,计算测度得分经常是有意义的,即使是在一些题项信息缺失的时候,(因为)这会减少缺失样本的数量。例如,如果我正在构建一个含有5个题项的测度并且至少有3个题项数据完整,那么我就可以计算平均值。这在Stata中是很容易完成的,用-rowmean-命令计算均值,用-rowmiss-命令计算缺失题项的数量。如果缺失题项的数量超过了你们设置的上限——在当前的例子中5个题项的缺失上限是2个——可以用缺失值编码来替代测度得分。
1702648514
1702648515 如果在因子分析中出现了多个因子,我们当然能够构建多个测度。这里将再次出现效度问题。因为我们通常从一组备选题项开始,我们先验地认为这组题项测量了单一的潜在概念。如果只出现一个因子,我们就得到了强有力的支持;如果出现了一个以上的因子,我们就得考虑每个因子所测量的概念是什么。从指标到概念的研究方法将我们置于这样的现实危险中,即我们的社会学想象将超越我们自己,我们创建了概念,用以解释一系列相关关系,然而这些相关关系只是反映了抽样误差而非潜在现实。如果我们忘记了我们创建概念是用以解释数据,并且将它视作一个独立的现实世界——如果我们使概念具体化,这种危险就变得复杂了。为了确信我们实际上已经发现了一些潜在的事实,我们应该在一些独立的数据集中重复这些题项和测度(可能用随机选取的一半样本来构建测度并拟合模型,然后用另一半样本核实测度和模型的妥当性)。不幸的是,我们很少这样做,因为无论样本有多大,我们通常都希望样本再大些。然而,GSS提供了这种可能性,因为使用某一年的数据进行的分析可以用之前或之后年份的数据复制。我非常鼓励做这种独立检验。
1702648516
1702648517 熟悉因子分析的读者可能会感到疑惑,为什么我建议先选取一组备选题项,再赋予同样的权重,最后计算它们的均值,而不是用因子得分(factor scores)为权重来构建测度。其原因是,使用因子得分使假设的潜在概念与用样本构建的测度之间的相关最大化了。也就是说,它利用了抽样变异。结果是,如果用不同的数据集重复同样的分析,用此种方法构建的测度与其他变量之间的相关性可能非常小。相比较而言,对所有题项赋予相同权重的以因子为基础的测度法不太容易产生这种相关性在不同样本之间减小的问题。从这个意义上说,以因子为基础的测度比用因子得分做权重构建的测度可信得多。
1702648518
1702648519 例子:宗教信仰虔诚度与对堕胎的态度(再次讨论)
1702648520
1702648521 近年来,堕胎已经成为越来越突出并在情感层面上极具争议的议题。正统基督教徒(等)反对堕胎并视之为“谋杀”,而女权主义者(等)则为妇女对自己身体的支配权而辩护。尽管在堕胎上的观点极端对立,事实上,大多数美国人都赞成至少在某些条件下允许合法堕胎。许多人认为出于医学或治疗原因的堕胎是可以接受的,但他们反对出于个人偏好或个人利益的堕胎。考虑到“生存权”运动的神学基础——胎儿是人,因而堕胎等同于谋杀——我们认为宗教信仰强烈的群体会坚定地反对以个人偏好为由的堕胎,但需要在胎儿的“生存权”和母亲的健康安全之间权衡时,不会过于反对出于治疗原因的堕胎。相比较而言,对那些宗教信仰不太强烈的人,我们估计其在出于个人偏好和以治疗为由的堕胎的接受性上不会存在明显区别。如果这些推测正确,则我们期望宗教信仰虔诚度对治疗型堕胎的态度影响要比对个人偏好型堕胎的态度影响弱。
1702648522
1702648523 我用1984年GSS数据来检验这个假设,使用的是1473名美国成年人的代表性样本(计算的细节参见下载文件“ch11.do”和“ch11.log”)。之所以使用1984年的调查,是因为它包含适合构建宗教信仰虔诚度测度的题项(后面会讨论)。具体来讲,我会比较两个回归方程的系数:
1702648524
1702648525
1702648526
1702648527
1702648528 其中,T、P和F分别是对治疗型堕胎的接受测度、对个人偏好型堕胎的接受测度,以及宗教信仰虔诚度。E是受教育年限,众所周知,对堕胎的接受程度随受教育程度的提高而提高,而正统基督教信仰在美国与受教育水平呈负相关,因此我们将其作为控制变量引入。
1702648529
1702648530 三种测度都是用能代表该维度的因子分析题项构建的,我们删除了那些低因子负荷的题项,并将每个题项转换成标准分形式再求均值。为了方便对回归系数进行解释,我们将这些测度转换为0(宗教信仰虔诚度最低及对堕胎的接受程度最低)到1(宗教信仰虔诚度最高及对堕胎的接受程度最高)之间的变量。
1702648531
1702648532 正统基督教信仰测度的备选题项包括:
1702648533
1702648534 1.ATTEND:您经常参加宗教活动吗?(选项范围:从不参加……一周几次)
1702648535
1702648536 2.POSTLIFE:您相信死后能重生吗?(不相信,相信)
1702648537
1702648538 3.PRAY:您经常祈祷吗?(选项范围:从不祈祷……一天几次)
1702648539
1702648540 4.RELITEN:您认为自己的宗教信仰强烈吗?[依据受访者对有关宗教信仰问题的回答来确定问法](不强烈、有点强烈、强烈)
1702648541
1702648542 5.BIB:我们对样本的三分之二和三分之一分别询问了该问题的两个版本:
1702648543
1702648544 I.下面哪种说法最接近您对《圣经》的感受?
1702648545
1702648546 a.《圣经》是上帝的真实话语,应该被逐字逐句领会。
1702648547
1702648548 b.《圣经》是上帝授意的话语,并不需要逐字逐句地记住其中的一切。
[ 上一页 ]  [ :1.702648499e+09 ]  [ 下一页 ]