打字猴:1.702646787e+09
1702646787 量化数据分析:通过社会研究检验想法 [:1702644761]
1702646788 量化数据分析:通过社会研究检验想法 组间比较的方法
1702646789
1702646790 我们的首要任务是在方程6.16至方程6.18表示的模型之间进行抉择。在这种情况下,我们将估计在某些社会过程中是否存在组间差别,我们一般倾向于选择最简约的模型(除非我们有很强的理论假设认为存在组间差异,或者正如前面讨论量测回归系数那节所提到的,当我们质疑存在省略变量偏误的问题时)。也就是说,只有在更复杂的模型解释因变量(接受堕胎)的变异时表现得明显更好,我们才选择更复杂的模型。我们通过比较每个模型的判定系数选择模型。如果一个较复杂的模型解释了因变量方差的更多部分,那么我们就接受此模型,否则我们接受较简单的模型。(这是经典的或频率论者的方法。下一节我们讲解另一种评估模型的方法,即基于贝叶斯方法比较BIC值。)
1702646791
1702646792 我们从比较第一和第三个模型开始。也就是说,我们将一个假设没有宗教信仰差异但只有受教育年限差异的模型,与另一个假设受教育年限和接受堕胎的关系在宗教信仰群体之间不同的模型进行比较。为了评估R2差异的显著性,我们计算F比率(F-ratio):
1702646793
1702646794
1702646795
1702646796
1702646797 这里,R2B是被较复杂模型解释的方差(方程6.18);R2A是被较简单模型解释的方差(方程6.16);N是样本数;k是较复杂模型中自变量的数量;m是较复杂模型与较简单模型之间自变量数量的差异;分子的自由度=m;分母的自由度=N-k-1。对于我们的例子有:
1702646798
1702646799
1702646800
1702646801
1702646802 其自由度是6和1473。为了判断F比率是否显著,我们查看对应于分子和分母自由度的F比率的p值(p-value)。如果p值小于某个判别值(常用的是0.05),那么我们拒绝零假设(模型1)而接受另一个假设(模型3)。当前的例子就属于此种情况,因为F(6;1473)=11.96,意味着p<0.0000。
1702646803
1702646804 通过Stata软件获得p值 直到最近,我们都只能像方程6.20那样先用手工计算,然后在各种统计课本后面的统计表中查对应的p值。但这已经不再必要,并且已经是过时的方法。Stata提供各类内置的统计表,包括一张与F比率有关的概率表。给定F比率的概率可通过执行命令-display fprob(df_1,df_2,F)-计算获得,其中df_1是分子的自由度,df_2是分母的自由度,而F是计算出来的F比率。
1702646805
1702646806 用Stata比较回归模型的拟合优度 对R2增量的F检验(F-test)相当于Wald检验,即检验包含在较复杂模型但不在较简单模型中的一组变量的系数显著地不为0。因此,能在模型估计后执行Wald检验的软件(如Stata中的-test-和-testparm-)可用来进行F检验。我们会发现,当在回归方程中增加一个变量时,所增加变量的t比率(t-ratio)等于针对R2增量的F比率的平方根,且t比率和F比率具有同样的概率分布。因此,当两个方程的差别只是一个变量时,它们可以用检验t比率的显著性进行简单的比较,而t比率通常作为回归结果的一部分出现。
1702646807
1702646808 现在可以确定已经排除了我们不能够假设一个针对所有宗教信仰群体的受教育年限和接受堕胎之间关系的简单模型,下面我们研究是否有必要假设各宗教信仰群体在受教育年限和接受堕胎之间的关系上不同,或者各宗教信仰群体在接受堕胎方面不同,但对所有宗教信仰群体来说受教育年限和接受堕胎之间的关系相似,即我们想知道在各宗教信仰群体之间是斜率和截距都不一样,还是仅有截距不一样。为了回答此问题,我们比较模型3(方程6.18)和模型2(方程6.17)的R2,用方程6.19估计F比率。对于当前的例子,我们有:
1702646809
1702646810
1702646811
1702646812
1702646813 其自由度为3和1473。因为F(3;1473)=4.35,这意味着p=0.0046,所以我们拒绝零假设(即各宗教信仰群体间仅仅在接受堕胎方面存在差异,而受教育年限和接受堕胎之间的关系在各宗教信仰群体间是一样的),而是接受另一个假设,即受教育年限和接受堕胎之间的关系在各宗教信仰群体间不一样。总而言之,我们选择的模型是假设受教育年限和宗教信仰都影响对堕胎的态度并且在宗教信仰群体之间受教育年限的影响不一样(同理,不同受教育年限对宗教信仰的影响也不同)。
1702646814
1702646815 R.A.(RONALD AYLMER)FISHER(1890~1962) 是一位英国统计学家,他对生物学很感兴趣〔他与Sewall Wright——见第16章Wright的介绍——和J.B.S.Haldane是理论人口遗传学(theoretical population genetics)的奠基人〕。他是实验设计发展的推动者,引入了在不同干预中随机分配样本的概念,并展示了如何使用他创建的方差分析来评估每个因素对结果变量的影响。这种方法极大地提高了实验设计的效力,F分布就是以他的名字命名的。他还创建了最大似然概念并对评估小样本的统计方法做出了主要贡献。他的著作《研究者的统计方法》(Statistical Methods for Research Workers)在1925年第一次出版后被广泛使用,尤其是作为实验设计和分析的手册,到1970年共出版了14版。
1702646816
1702646817 Fisher出生在伦敦,是艺术品经销商和拍卖商的儿子。他是一个能力超强的学生,16岁时在哈罗公学获得尼尔德奖章(Neeld Medal)(数学论文竞赛奖)。(因为视力不好,他在数学上接受的是不用纸和笔的训练,这大大发展了他在脑中使问题以几何术语形象化的能力,而不是用代数计算。他以能够不通过中间步骤而获得计算结果而名扬四海。)Fisher在剑桥大学学习数学,毕业后有一段时间在加拿大的一个农场工作。第一次世界大战时他试图入伍,但因视力不好被拒绝,随后在中学教了几年数学。战争结束后,他在由Karl Pearson(见第5章的介绍)领导的Galton实验室获得一个职位,但由于与Pearson的竞争而拒绝此工作,转而在一个小农业试验站(Rothamsted)接受了一个职位。在那里,他一直工作到1933年被伦敦大学学院聘为优生学教授,随后于1943年在剑桥大学成为遗传学Balfour讲座教授。自1957年从剑桥大学退休后,在他生命的最后三年,他作为高级研究员在澳大利亚阿德莱德的联邦科学与工业研究组织工作。Fisher对遗传学和统计学的重要贡献正如著名统计学家Leonard J.Savage(1976)的评论所强调的:“我偶然会遇到一些遗传学家,他们问我伟大的遗传学家R.A.Fisher是不是也是一位重要的统计学家。”
1702646818
1702646819 习惯做法是报告每个模型的估计系数,而不只是最后选择的模型。这些结果呈现在表6-3中。
1702646820
1702646821 表6-3 1974年美国成年人接受堕胎模型的系数(括号中是标准误)(N=1481)
1702646822
1702646823
1702646824
1702646825
1702646826 让我们看一下如何描述每个模型。模型1就是我们在前一章遇到的那类双变量回归方程,这里不必再作说明。正如我们讲过的,模型2假设在所有宗教信仰群体中受教育年限和接受堕胎之间的关系相同,但在给定受教育程度后各宗教信仰群体对堕胎的接受程度不同。对堕胎接受程度的不同“横跨”(across-the-board)所有宗教信仰群体的含义由方程6.17表达得很清楚。对于新教徒,我们有:
1702646827
1702646828
1702646829
1702646830
1702646831 对于天主教徒,我们有:
1702646832
1702646833
1702646834
1702646835
1702646836 对于犹太教徒,我们有:
[ 上一页 ]  [ :1.702646787e+09 ]  [ 下一页 ]