打字猴:1.702650608e+09
1702650608 量化数据分析:通过社会研究检验想法 [:1702644842]
1702650609 本章内容
1702650610
1702650611 本章将对研究设计的各个方面进行综述,其中有些方面在前面已经提到,而另外一些则是新的。在介绍过程中,我在本书已涵盖内容的基础上再简要讨论一些高级统计技术和方法。这些方法可帮助你们充实数据分析的“工具箱”(tool kit),了解社会科学中进行数据分析的最新技术,这也是你们现在能够解决的问题。然后,我对概率抽样的重要性和考虑总体的各类方法给予评论。最后,我以如何做好实际研究的一些建议结束。
1702650612
1702650613
1702650614
1702650615
1702650616 量化数据分析:通过社会研究检验想法 [:1702644843]
1702650617 量化数据分析:通过社会研究检验想法 研究设计问题
1702650618
1702650619 在本节中,我通过用非实验数据回答研究问题介绍一些有关恰当的分析设计方案的问题。
1702650620
1702650621 比较是核心
1702650622
1702650623 采取下列表达形式的写作计划并不少见:我想研究护理人员,并且我找到一个用来分析的护理人员样本;或我想评估某学校实施的一个新教育项目,我有一个来自那个学校的学生样本。这些计划面临的问题是你不能研究常量。例如,如果你想知道护理人员是否更加容易抑郁,那么你就需要找一个包括护理人员和非护理人员的样本。类似地,如果你想知道是什么因素促使人们迁移,那么你就需要找一个包括移民和非移民的样本。如果你想评估某一项目的效果,你就需要找一个包括已实施的项目和未实施项目的样本(或者实施项目前后的数据——尽管跨时期比较存在一些特殊问题,本章稍后会讨论这些问题)。这是一个极为简单却经常在数据收集时被忽略的要点。例如,如果你有一个移民或罪犯或护理人员的样本,那么你只能研究移民或罪犯或护理人员的不同类别之间的内变异(internal variations),而这些可能不是你真正感兴趣的。
1702650624
1702650625 如果你只从感兴趣的总体中进行抽样,那么你就得依赖研究之外的数据做比较,这经常需要尝试与不可比的数据进行比较。在这种情况下,研究者有时候将来自某一特定总体的样本数据与被假设适用于某个标准总体的模式相比较。例如,最近一项关于北京流动儿童上学的研究(Chen and Liang,2007)是基于一项有学龄儿童的迁移家庭户的调查。依据这个调查数据,研究者计算和报告了这些孩子中不在学的比例。这里,不言而喻的——只是没有明说的——比较对象是所有不是迁移者的北京儿童都上学。但是,我们没有特别的理由来假定这一点。其实,社会科学家对自己社会所做的那些假设经常被证明是错误的。因此,我强烈建议采用明确可比的数据。
1702650626
1702650627 如果比较是分析的核心,那么接下来的问题显然是:什么样的比较适合于什么样的研究目的呢?
1702650628
1702650629 总体分组、总体和历史时期 在社会科学中,一个常见的研究问题是总体分组(男性与女性、种族分组等)是否在某一结果和影响此结果的因素方面存在差异。在第6章的“组间比较的方法”一节中,我们看到了如何处理这种分析性问题。我在这里简要回顾一下此方法。
1702650630
1702650631 为了判断一组预测变量X和某个结果变量Y之间的关系是否在某一总体的所有分组中都存在,或者组间是否存在差异,我们来估计三个预测方程(它们可以是OLS方程或适合于某些非线性模型——例如,某些形式的逻辑斯蒂回归模型——的方程):
1702650632
1702650633
1702650634
1702650635
1702650636
1702650637
1702650638
1702650639 在方程16.1至方程16.3中,Xi是预测变量,而Gi是总体分组,每一组(除了第一组)由一个编码为1的虚拟变量表示,属于此分组编码为1,否则为0。为了判断我们是否需要假设在不同分组中Xi和Y存在不同关系,我们比较模型3(方程16.3)和模型1(方程16.1)(我们通过评估R2增量的显著性来实现,或者同样可以通过评估模型3中的c′i和dij是否全部不显著地不等于0来实现)。如果模型3比模型1显著地拟合得更好,那么我们得出结论,所研究的社会过程存在组间差异并且问一个附属问题:这种差异是仅仅截距项不同,还是斜率也存在差异?(我们通过评估模型3和模型2之间R2增量的显著性来实现,或等价地通过评估模型3中的dij是否全部不显著地不等于0来实现。)注意,此方法只适用于组别能被看作是外生于研究结果时的情形,即适用于性别、种族等分组变量。在控制了模型中的其他预测变量后,如果进入某组别与结果相关,那么OLS回归中预测变量与误差无关的假设就被违背。此时,应该用本章后面讨论的内生变换回归(endogenous switching regression)方法,这样能得到各效应的无偏估计。
1702650640
1702650641 如果模型3或模型2被证明是更合适的模型,那么就可能对各组在平均结果上的差异进行分解,可运用第7章讨论的分解均值之差的方法。注意,在第7章介绍的分解方法是在OLS回归背景下讨论的。同样的方法可以被用于分解因变量的对数或对数比率的差异〔以Treiman和Roos(1983:636-640)的研究为例〕,但分解的结果在直观上没那么容易理解。
1702650642
1702650643 评估组间差异的另一种方法可以从下面的一个方程开始:
1702650644
1702650645
1702650646
1702650647
1702650648 因为在方程16.4中Y的预测值只是每个组中Y的均值,在比较方程16.3和方程16.4(或方程16.2和方程16.4)时,要回答的问题是,各组在结果上的差异在多大程度上可以被其他预测变量的组间差异解释。
1702650649
1702650650 同样的方法也可以被用来进行不同时期的比较。例如,我们想知道政治态度(自由主义与保守主义)与接受堕胎之间的关系在20世纪70年代和21世纪初是否一样。在前一时期罗诉韦德案(Row v.Wade)使堕胎第一次合法,在后一时期反对堕胎已成为共和党候选人在竞选总统时的必要表态。在这种情况下,在方程16.1到方程16.3中G变量是时间,X变量是政治态度。当然,同样的逻辑也适用于对组间差异在不同时点之间变化的比较,但这需要考虑三维交互项,因而其复杂性有所增加。例如,我在第6章介绍组间比较方法时,所用的例子是1974年时受教育程度和宗教派别的交互项对接受堕胎的影响,同样的分析可以用2006年的数据重复再做,这样可以评估“堕胎之争”在过去32年是怎样影响人们观念的。
1702650651
1702650652 某些跨时期比较对估计问题很敏感,因为不同时期的数据之间可能不独立。诸如平均受教育水平等汇总测量就存在这样的问题。由2005年美国数据计算的此变量数值几乎与2000年的数值没有区别,因为两次计算都是基于差不多一样的人口。因此,这两次的观测值之间不独立。处理观测值之间不独立——称为自相关(autocorrelation)——的方法,以及处理其他时间序列数据(time-series data)特殊特征的方法都得到了很好的发展;见Stata手册的Time Series[TS](StataCorp,2007)。时间序列方法在经济学中被广泛使用。另一种源自追踪研究——追踪研究是指同批个体被调查两次或以上,通常是间隔几个月或几年——的数据,在经济学和其他社会科学中也被广泛使用。这种结构的数据提供了执行前一章讨论过的FE和RE分析的基础。这些技术和其他处理观测值的非独立性技术被称为XT〔截面时间序列(cross-sectional time series)〕模型。这类模型超出了本书所能考虑的范畴。对它们的规范介绍,请参考Stata 10.0手册的Longitudinal/Panel Data[XT](StataCorp,2007)和Sayrs(1989)、Wooldridge(2002)、Hsiao(2003)、Baltagi(2005)及Greene(2008)的教材。Sayrs的教材十分容易理解,Greene的教材也较容易理解,其他三本有点难度。
1702650653
1702650654 当然,截面比较(cross-sectional comparisons)和跨时期比较(cross-temporal comparisons)可以扩展到两个以上的比较(两组以上或两个以上的时点),而且分组可以是一个国家的子人群或不同国家的人群。以后者为例,见Erikson和Goldthorpe(1987a;1987b)。
1702650655
1702650656 进行跨人群或跨时期比较的原因是要检验一些有关不同人群或子人群如何不同或如何随时间变化的假设。如果你有一个先验假设,那么这是一个合理的策略。但是,你的结论很容易被反驳,即你假设的和观测到的差异是虚假的,因为它们反映的是组间或时期间的差异,而这些差异同时影响自变量和因变量。二分比较对此反驳非常敏感,因为任何其他因素都可能解释此差异。
1702650657
[ 上一页 ]  [ :1.702650608e+09 ]  [ 下一页 ]