1702649760
1702649761
续表
1702649762
1702649763
1702649764
1702649765
1702649766
对分布进行平滑处理(smoothing distributions) 平滑是指通过排除“噪音”——由抽样误差或个性因素引起的与潜在趋势的偏差——而使某一分布的整体形态清晰的一种技术。最简单的平滑方法或许是移动平均法(moving average)。移动平均法是取几个连续数据点的平均值。就本节的例子而言,在每个年龄点的期望结婚概率的三年移动平均值可以这样求得:先对15、16和17岁的期望概率求平均值;再对16、17和18岁的期望概率求平均值;依此类推。一旦建立了初婚年龄的所有数据点,就可以在Stata的-egen-命令中使用子命令-ma-(“移动平均”)。但是,这个子命令在Stata 10的使用手册中不再存在(虽然它仍然可用),已经被-smooth-取代,它产生的是给定数据点的中位值而不是平均值。Stata中的另一种平滑方法是-lowess-。
1702649767
1702649768
尽管表13-6在做特定的比较时很有用,但却很难看出系数所暗示的总体模式。再次提醒一下,此时作图助于理解。图13-4和13-5是黑人和非黑人按历险年龄分的初婚期望概率的三年移动平均值。在每张图中,曲线分别表示母亲受12年和16年教育的男性和女性(这样可以在视觉上方便地表示母亲受教育程度的影响)。对移动平均值作图是因为在每个年龄点上存在大量的“上下浮动”,这可以通过查看表13-6中的系数得知(关于如何计算移动平均值的详细内容见可下载的文件“ch13_2.do”)。
1702649769
1702649770
1702649771
1702649772
1702649773
图13-4 1994年美国非黑人成年人按历险年龄、性别和母亲的受教育年限(受12和16年教育)分的初婚期望概率
1702649774
1702649775
1702649776
1702649777
1702649778
图13-5 1994年美国黑人成年人按历险年龄、性别和母亲的受教育年限(受12和16年教育)分的初婚期望概率
1702649779
1702649780
查看图13-4和13-5,我们看到黑人与非黑人的结婚率显著不同,总的来讲黑人比非黑人结婚的可能性低。而且非黑人女性(特别是那些母亲只有高中受教育程度的人)在19~25岁时的结婚率尤其高;非黑人男性结婚稍晚而且较少集中在某一短时期内。相反,黑人的结婚率分散在一个较长的时期,而且男性在30多岁时的结婚率急剧上升,特别是那些母亲只有高中受教育程度的人。无论是黑人还是非黑人,男性都倾向于比女性晚婚,其结婚率从30岁左右才开始高于女性。最后,在所有的种族—性别组中,那些母亲只有高中受教育程度的人比那些母亲是大学毕业的人更可能结婚。
1702649781
1702649782
如果我准备发表这些结果,我可能只给出刚才讲解的表和图的一部分而不是全部。当然,这里的目的是为你们在呈现自己的分析时提供可参考的不同选择。离散时间风险率模型的应用例子包括Astone等(2000)、Dawson(2000)、Lewis和Oppenheimer(2000)及Sweeney(2002)。
1702649783
1702649784
1702649785
1702649786
1702649788
量化数据分析:通过社会研究检验想法 第四个具体例子(案例—对照模型):在俄罗斯,谁被任命为政党当权人物?
1702649789
1702649790
当因变量是一个罕见事件时,从处于该事件风险的总体中抽取一个有代表性的样本是很难的,因为样本规模必须要极大才能获得足够多的“正的(属于该类别的)”样本用于分析。这在流行病学对疾病事件的研究中是经常发生的事情,但在社会科学中也会出现这种情况。例如,如果我们有兴趣研究是什么因素决定了谁被选为国会议员,我们很难通过从总体中抽取一个代表性样本然后再从中寻找国会议员来研究。我们在研究犯罪、犯罪受害人、同性恋以及其他相对不那么常见的现象时也会遇到类似问题。解决此类问题的一种方法是对因变量抽样(也就是说,抽取一个由国会议员、犯人或同性恋者构成的样本),收集样本的有关信息,再对未经历该事件(这里所说的事件就是成为国会议员、犯人或同性恋者)总体的代表性样本收集相应的信息,然后将这两个样本合并,最后建构该事件的发生比率模型。这在流行病学文献中被称为案例—对照抽样(case-control sampling)〔对有关统计方法的优秀评述,见Breslow(1996)〕。
1702649791
1702649792
案例—对照抽样充分利用了比率比不随数据分布的变化而变化的性质。比率比的这一非常重要的特征使合并自变量和因变量分布非常不同的数据成为可能,如此才能对罕见事件进行建模。OLS回归不具备这种特点,因为OLS系数会受到模型中变量分布的影响。
1702649793
1702649794
为了解案例—对照方法在实际研究中是如何操作的,让我们来研究在共产主义时代后期,是哪些因素影响了成为俄罗斯政治精英的比率。在“1989年之后东欧的社会分层”研究项目中(Treiman and Szelényi,1993),我们有2个俄罗斯的代表性样本:一个成年人口的概率样本(N=5002)和一个在1988年1月政党当权人物的随机样本(N=850)(见附录A对数据的介绍以及如何获取数据的方法)。政党当权人物是那些需要得到共产党中央委员会任命的。他们中上有职位很高的政府官员(如政治局成员),下有重要组织的领导——例如,大学校长、重要报纸的主编和大型企业的领导。
1702649795
1702649796
一般的总体人口样本在两个方面不服从案例—对照抽样的假设,但从实际应用的角度讲,这两点都不重要。首先,它是1993年而非1988年人口的一个概率抽样。但是,抽样框依据的是1989年人口普查,因此样本对1988年人口的代表性与对1993年人口的代表性差不多,主要(但可能不是很大)的差异来自1988~1993年间不同社会经济地位的人在死亡率上的差异。其次,一般的总体人口样本并不严格符合从非政党当权人物中抽样的要求。但是,政党当权人物在俄罗斯是非常少的(在将近1亿成年人中大约有1万人,这意味着在一般的总体人口样本中大约会有0.5人),以至于这些差别微不足道;事实上,在这个一般总体人口样本中没有人是政党当权人物。
1702649797
1702649798
两个样本数据是在1993年收集的,使用几乎一样的问卷。我将分析限定在1988年时年龄为20~64岁且所有变量都有完整信息的样本(1988年政党当权人物样本是777人,一般的总体人口样本是2369人)。我接着将两个样本合并成一个样本,并进行逻辑斯蒂回归,用一组常规自变量预测成为政党当权人物的对数比率:受教育年限、性别、年龄,父亲的受教育年限、职业地位和共产党员身份。为了调整家庭户规模的差异和样本设计中的特定偏差(见Treiman,1994,I.G部分),我对一般的总体人口样本进行加权。因为政党当权人物样本是1988年政党当权人物的一个随机样本,所以没有必要对其进行加权——所有政党当权人物的权重都为1。此处没有Stata日志文件,因为一旦合并了两个样本,我们就可以像平常那样执行二项逻辑斯蒂回归。计算结果被列在表13-7中。
1702649799
1702649800
表13-7 1988年俄罗斯政党当权人物资格决定因素的模型系数
1702649801
1702649802
1702649803
1702649804
1702649805
在对结果进行解释之前,我们应该注意到案例—对照分析和常规二项逻辑斯蒂回归的一个区别:在案例—对照分析中截距项是没有意义的,在逻辑斯蒂回归中截距项表示因变量的取值为“正的”样本比例。但是,在案例—对照设计中该比例在抽样时就已经确定了,因此,此系数没有意义。
1702649806
1702649807
查看表13-7中的系数,我们看到有些变量有非常大的影响,但没有出人意料的结果。受教育年限每增加一年使成为政党当权人物的比率提高70%以上。因此,在所有其他因素都相同的情况下,大学毕业生(在俄罗斯他们的受教育年限通常是15年)被任命为政党当权人物的可能性是高中毕业生(受教育年限为10年)的15倍以上(确切地说是15.32=1.726(15-10))。性别的影响是极大的:男性被任命为政党当权人物的可能性是女性的17倍以上。年龄的影响也极大:在所有其他因素都相同的情况下,每增加1岁,被任命为政党当权人物的比率提高约14%。比如,50岁的人被任命为政党当权人物的可能性是35岁的人的7倍以上(确切地说是7.23=1.141(50-35))。更有趣的或许是,即使是在受教育程度相同的人群中,社会出身的影响也不容忽视。在其他因素都相同的情况下,来自父亲是共产党员家庭的人被任命为政党当权人物的机会增大约50%。同样,父亲的受教育年限每增加一年,其被任命为政党当权人物的比率提高约11%,因此拥有大学学历(接受15年教育)的知识阶层的后代被任命为政党当权人物的可能性是那些只有小学受教育程度阶层后代的约3倍(确切地说是2.94=1.114(15-5)),不论他们自身的受教育程度如何。在所有我们考虑的变量中,只有父亲的职业地位对被任命为政党当权人物的比率没有影响。
1702649808
1702649809
[
上一页 ]
[ :1.70264976e+09 ]
[
下一页 ]