1702650639
在方程16.1至方程16.3中,Xi是预测变量,而Gi是总体分组,每一组(除了第一组)由一个编码为1的虚拟变量表示,属于此分组编码为1,否则为0。为了判断我们是否需要假设在不同分组中Xi和Y存在不同关系,我们比较模型3(方程16.3)和模型1(方程16.1)(我们通过评估R2增量的显著性来实现,或者同样可以通过评估模型3中的c′i和dij是否全部不显著地不等于0来实现)。如果模型3比模型1显著地拟合得更好,那么我们得出结论,所研究的社会过程存在组间差异并且问一个附属问题:这种差异是仅仅截距项不同,还是斜率也存在差异?(我们通过评估模型3和模型2之间R2增量的显著性来实现,或等价地通过评估模型3中的dij是否全部不显著地不等于0来实现。)注意,此方法只适用于组别能被看作是外生于研究结果时的情形,即适用于性别、种族等分组变量。在控制了模型中的其他预测变量后,如果进入某组别与结果相关,那么OLS回归中预测变量与误差无关的假设就被违背。此时,应该用本章后面讨论的内生变换回归(endogenous switching regression)方法,这样能得到各效应的无偏估计。
1702650640
1702650641
如果模型3或模型2被证明是更合适的模型,那么就可能对各组在平均结果上的差异进行分解,可运用第7章讨论的分解均值之差的方法。注意,在第7章介绍的分解方法是在OLS回归背景下讨论的。同样的方法可以被用于分解因变量的对数或对数比率的差异〔以Treiman和Roos(1983:636-640)的研究为例〕,但分解的结果在直观上没那么容易理解。
1702650642
1702650643
评估组间差异的另一种方法可以从下面的一个方程开始:
1702650644
1702650645
1702650646
1702650647
1702650648
因为在方程16.4中Y的预测值只是每个组中Y的均值,在比较方程16.3和方程16.4(或方程16.2和方程16.4)时,要回答的问题是,各组在结果上的差异在多大程度上可以被其他预测变量的组间差异解释。
1702650649
1702650650
同样的方法也可以被用来进行不同时期的比较。例如,我们想知道政治态度(自由主义与保守主义)与接受堕胎之间的关系在20世纪70年代和21世纪初是否一样。在前一时期罗诉韦德案(Row v.Wade)使堕胎第一次合法,在后一时期反对堕胎已成为共和党候选人在竞选总统时的必要表态。在这种情况下,在方程16.1到方程16.3中G变量是时间,X变量是政治态度。当然,同样的逻辑也适用于对组间差异在不同时点之间变化的比较,但这需要考虑三维交互项,因而其复杂性有所增加。例如,我在第6章介绍组间比较方法时,所用的例子是1974年时受教育程度和宗教派别的交互项对接受堕胎的影响,同样的分析可以用2006年的数据重复再做,这样可以评估“堕胎之争”在过去32年是怎样影响人们观念的。
1702650651
1702650652
某些跨时期比较对估计问题很敏感,因为不同时期的数据之间可能不独立。诸如平均受教育水平等汇总测量就存在这样的问题。由2005年美国数据计算的此变量数值几乎与2000年的数值没有区别,因为两次计算都是基于差不多一样的人口。因此,这两次的观测值之间不独立。处理观测值之间不独立——称为自相关(autocorrelation)——的方法,以及处理其他时间序列数据(time-series data)特殊特征的方法都得到了很好的发展;见Stata手册的Time Series[TS](StataCorp,2007)。时间序列方法在经济学中被广泛使用。另一种源自追踪研究——追踪研究是指同批个体被调查两次或以上,通常是间隔几个月或几年——的数据,在经济学和其他社会科学中也被广泛使用。这种结构的数据提供了执行前一章讨论过的FE和RE分析的基础。这些技术和其他处理观测值的非独立性技术被称为XT〔截面时间序列(cross-sectional time series)〕模型。这类模型超出了本书所能考虑的范畴。对它们的规范介绍,请参考Stata 10.0手册的Longitudinal/Panel Data[XT](StataCorp,2007)和Sayrs(1989)、Wooldridge(2002)、Hsiao(2003)、Baltagi(2005)及Greene(2008)的教材。Sayrs的教材十分容易理解,Greene的教材也较容易理解,其他三本有点难度。
1702650653
1702650654
当然,截面比较(cross-sectional comparisons)和跨时期比较(cross-temporal comparisons)可以扩展到两个以上的比较(两组以上或两个以上的时点),而且分组可以是一个国家的子人群或不同国家的人群。以后者为例,见Erikson和Goldthorpe(1987a;1987b)。
1702650655
1702650656
进行跨人群或跨时期比较的原因是要检验一些有关不同人群或子人群如何不同或如何随时间变化的假设。如果你有一个先验假设,那么这是一个合理的策略。但是,你的结论很容易被反驳,即你假设的和观测到的差异是虚假的,因为它们反映的是组间或时期间的差异,而这些差异同时影响自变量和因变量。二分比较对此反驳非常敏感,因为任何其他因素都可能解释此差异。
1702650657
1702650658
实际上,社会科学领域的每位研究生对任何观测到的差异都可以编造一个事后解释!如果你们不相信我,只需对你们的朋友做一个简单的测试:编造一个他们不知道或不了解的有关某社会或人口的研究结果,或者更巧妙地以相反或改变结果的方式报告某个发现,然后等着看他们给你们的解释是多么五花八门。我曾在鸡尾酒会上这样做过,我发现每个人都认为我对职业声望分层在世界各国基本一致的发现(Treiman,1977)是一个显而易见的事实。然后,我开始告诉他们职业声望分层在俄罗斯就非常不一样,接着就得到各种各样有趣的解释来说明俄罗斯显然应该不同(尽管根本没有不同)。三组(时点)比较比两组(时点)比较的限制更大,进行更多组(时点)比较就更是如此了。
1702650659
1702650660
作为一个恰当的例子,我们来考虑历史性的比较。Nee(1989;1996)认为中国向市场经济转型降低了干部的权力而提高了“直接生产者”的权力。正如Walder在一篇评论(1996:1064)中指出的,其难点是许多事情随时间发生了变化:
1702650661
1702650662
时间(作为一个测量指标)的问题是许多其他变化在概念上与市场扩散截然不同,而它们也可能影响权力和收入的分配,也会随时间发生变化,并在不同区域以不同速率发生。某些新兴市场经济发展很快,而其他一些则不然;国家政策可能仅在某一时期给谷物生产者提供了额外利润;民营企业可能在某些区域迅速发展但在其他区域仍处于边缘;资本可能高度集中在某些区域,而在其他区域却更加分散或缺乏。所有这些进程都影响权力和收入的分配;对市场分配的任何依赖时间的测量必须谨慎地控制以上的进程。
1702650663
1702650664
这个难点常见于两个个案之间的比较,包括跨时期和截面比较。这个难点有时也被称为“太多自由度”问题,因为对所观测到的现象有太多五花八门的解释。基于此原因,小规模比较在证明相似性方面比在解释差异方面更加有帮助。有时候展示某一社会或某一时点的发现也在其他不同时间和地方存在也是有帮助的。如果是这样,我们可以更加有信心认为我们验明了一个一般现象而不只是一个特殊结果。
1702650665
1702650666
相比之下,考虑由Almond(2006)进行的对“胎儿的初始状态”假设(Barker,1998)的检验。假设认为妇女在怀孕时经历的有害事件对出生的孩子有长期影响。用1960年、1970年和1980年人口普查测量的教育获得、职业地位、收入、残疾,以及其他结果,Almond分析了1918年流感大流行的后果来验证这个推断。他发现存在很强的效应,其中一个如图16-1所示。图16-1给出了按1918~1920年间出生季度分布的1980年时男性的残疾率。因为只有在流感大流行时在子宫内的人的残疾率明显更高,而在此之后出生的人的残疾率又回到原来的趋势线,我们可以排除未被测量的、与流感开始流行一同发生的其他变化。更确切地说,任何其他解释都得给出完全与流感一致的时间模式,在此案件中这是极不可能的。
1702650667
1702650668
1702650669
1702650670
1702650671
图16-1 1980年男性分出生季度的残疾情况(因肢体伤残而不能工作)
1702650672
1702650673
资料来源:Almond(2006),图2。
1702650674
1702650675
自然实验 这类分析是非常令人信服的,因为它们构成了自然实验(natural experiments)。正如我们已经看到的,绝大多数非实验研究的难点是我们可能忽略了那些同时影响结果和预测变量的变量,因而使估计值产生偏误。自然实验通过关注在总体中可被认为是随机分布的自然事件而减小或排除了忽略变量偏误(omitted variable bias)。因为在1918年10月流感大流行没有任何征兆,到1919年初基本结束,我们因此有理由将那些在流感大流行月份内仍在子宫内的人看作实验组,而将那些在流感大流行之前和之后在子宫内的人看作控制组。除了那些在流感大流行期间正好在子宫内的人运气不好外,在这些组间没有差异,我们可以合理地推断其结果的差异是由于受到流感大流行的影响。当然,不是所有的怀孕母亲都感染了流感。但是,我们知道大约三分之一的育龄妇女确实被感染了,如果流感确实有影响,此比例对揭示受到影响的结果差异而言已经足够大。Almond的文章也探索了流感大流行的严重性在州与州之间的差异(state-to-state variation),他的文章是如何做这类分析的典型。
1702650676
1702650677
对于自然实验的其他例子,其中一些在如何彻底地克服潜在忽略变量偏误方面比另一些更具说服力,见Deng和Treiman(1997),Ansolabehere、Snyder和Stewart(2000),Abadie和Gardeazabal(2003),Lassen(2005),Oster(2005),Treiman(2007a;也可见第7章对此例子的讨论),以及Lu和Treiman(2008)。
1702650678
1702650679
多层分析 当你们有许多比较组(许多时点、许多国家等)时,从将每组看作一个离散点(通过在模型中纳入一组代表各组的虚拟变量)转向从不同维度(如用经济发展水平、城市化程度等来描述各国的特征)给每组赋值是很有意义的。其中最好的方法是在两个或更多层上进行分析。在后面这种方法中,我们定义了宏观社会“环境”(例如,在教育研究中的班级或学校,或两者;在跨国研究中的社会;在跨时期比较中的出生队列或历史时期;等等)。然后,对每种环境分别估计一个微观方程(代表某些社会过程),而且代表微观过程的系数变异根据环境特征来预测。
1702650680
1702650681
举例来说,假设你希望检验兄弟姐妹数对教育获得的负效应在学费占家庭总收入比例较高的家庭中是较强的。下面是针对这一分析的典型设置:
1702650682
1702650683
Yij=aj+bjXij+εij (16.5)
1702650684
1702650685
其中
1702650686
1702650687
aj=η00+η01Gj+α0j
1702650688
[
上一页 ]
[ :1.702650639e+09 ]
[
下一页 ]