打字猴:1.70264692e+09
1702646920
1702646921
1702646922
1702646923
1702646924 通过审视方程6.31至方程6.34我们可以很清楚地看到,在方程6.30的设定中,每个宗教信仰群体的截距项不同;对天主教徒和犹太教徒来说,受教育年限与接受堕胎的关系的斜率为0;对新教徒和其他宗教信仰群体来说,斜率是一样的。为了检验这种受约束的设定是否足以反映数据,我们不能计算模型3的R2相对模型3′的增量,因为两个模型没有嵌套关系:在约束模型中没有受教育年限的主效应。那么,应该怎么做呢?幸运的是,我们有一种解决此问题的方法。
1702646925
1702646926
1702646927
1702646928
1702646929 量化数据分析:通过社会研究检验想法 [:1702644762]
1702646930 量化数据分析:通过社会研究检验想法 比较模型的贝叶斯方法
1702646931
1702646932 我们可以使用比较模型的另一种方法,即贝叶斯信息准则(Bayesian Information Criterion,BIC),由统计学家Adrian Raftery在做对数线性分析时(1986)引入社会学文献,并在一篇发表在《社会学方法》(Sociological Methodology)上的重要文章中扩展至多种应用〔Raftery,1995a;也可见Gelman和Rubin(1995)的评论、Hauser鉴赏性的评论(1995),以及Raftery对两人的回应(Raftery,1995b),还有1999年2月的期刊——《社会学方法和研究》(Sociological Methods and Research),该期内容全部都是对BIC的评价〕。从某种意义上讲,BIC与传统的显著性检验的操作原则相反。它是似然比测量,即告诉我们基于数据,哪个模型最可能是真实的(关于最大似然估计的简要介绍,见附录12.B);相反,经典的推论告诉我们,基于理论模型(零假设),由抽样误差生成观测数据的可能性有多大。
1702646933
1702646934 BIC相比前面介绍的F检验有三个重要优点。第一,跟F比率不同,BIC可用来比较非嵌套模型。任何两个描述同一现象的模型都可以进行比较。第二,如果样本量足够大,事实上任何R2的增量都会是显著的,即使该增量很小且无实质重要性。BIC可以对大样本的影响进行校正。要生成特定的BIC值,对大样本R2增量的要求会比小样本大。因此,BIC反映出传统建议,即当样本大时应选择较小的概率值。第三,BIC使复杂模型处于不利位置。因此,如果要引入很多变量才能产生一定的R2增量,BIC比F检验更可能建议我们选择简单的模型。有几种具体计算BIC值的方法,这取决于所分析的特定统计量。要比较回归模型,我们可以用Raftery的方程26:
1702646935
1702646936 BICk=N[ln(1-R2k)]+pk[ln(N)]      (6.35)
1702646937
1702646938 这里,R2k是模型k的R2值,pk是模型k的自变量数量,且N=分析的样本数。BIC为负值表示所设定的模型与自变量和因变量没有关系的基准模型相比更可能是真的。为了比较两个模型,我们对每个模型估计BIC,并选择BIC的负值更大的模型。Raftery(1995a:表6)给出了一个比较BIC的习惯原则:BIC的差异在0~2之间表示两个模型孰优孰劣的证据“很弱”;差异在2~6之间表示有“一定”的证据;差异在6~10之间表示有“强有力的”证据,差异大于10表示有“很强”的证据。然而,因为BIC随样本的增大而变大,Raftery的习惯原则最适用于相对较小的样本。
1702646939
1702646940 要了解如何使用BIC,让我们计算表6-3中三个模型的BIC值。对模型1,我们有:
1702646941
1702646942 BIC1=1481×ln(1-0.053)+1×ln(1481)=-73.4      (6.36)
1702646943
1702646944 对模型2,我们有:
1702646945
1702646946 BIC2=1481×ln(1-0.089)+4×ln(1481)=-108.4      (6.37)
1702646947
1702646948 对模型3,我们有:
1702646949
1702646950 BIC3=1481×ln(1-0.097)+7×ln(1481)=-100.3      (6.38)
1702646951
1702646952 从三个模型的BIC比较中,我们得出结论,数据与模型2最一致,它假设受教育年限对接受堕胎的影响在所有宗教信仰群体中都是一样的,且不同宗教信仰群体在接受堕胎上保持固定的差异(即在每个受教育水平上差异不变)。由BIC差异的大小,我们得出结论,数据“很强有力”地支持模型2而非模型1,“强有力”地支持模型2而非模型3。
1702646953
1702646954 注意,这些结果与我们在前面用F检验通过比较R2获得的结果不一致。对此我们应如何理解呢?这没有明确的答案。我的建议是,首先,跟着理论走。如果你们有理论上的理由认为某一模型比另一个模型合适,那么就选择它。这个建议与Weakliem(1999)对BIC的批评之一相一致——BIC假设“单元优先”。BIC是贝叶斯因子的一个近似值,包含模型之间的一种后似然比较,此处,“后似然是数据似然和研究者的先验值的简单乘积。之后研究者选择似然最大的模型,即基于研究者的先验值和数据,选择具有最大概率为真模型的模型”(Winship,1999a:356)。如果没有明确的理由认为结果会不同于零假设,“单元优先”是合理的——它意味着我们没有关于可能的结果的信息。但是,如果我们有很强的理论上的理由认为存在某种关系,BIC可能就过于保守。在这种情况下,经典的推论似乎是较好的工具,除非我们用别的方法修正BIC——这已经超出本书的范围。我们将在第12章和第13章讨论似然问题。
1702646955
1702646956 缺乏强有力的理论,选择简约的模型,这是BIC通常的做法。在当前的例子中,我倾向于选择模型3,因为我想有理由认为不管受教育水平如何,天主教徒和犹太教徒对堕胎的反应都不会变(天主教徒反对堕胎是因为堕胎被教会禁止,而犹太教徒接受堕胎是因为犹太人社区具有更高的通识教育水平,并且缺乏良好教育的犹太人更可能是移民,他们本身就具有受教育程度较高者的价值观),以及如果新教徒和其他宗教信仰群体受过良好的教育,则他们更容易接受堕胎(因为教育让人能理解更多的事情)。但是,如果我对宗教信仰差异没有很强且条理清晰的解释,我就会选择模型2。
1702646957
1702646958 当然,我们也可以针对由数据推导出的约束模型计算BIC:
1702646959
1702646960 BIC3′=1481×ln(1-0.096)+4×ln(1481)=-121.0
1702646961
1702646962 与模型1、模型2、模型3中的任何一个相比,BIC的负值都很大,因此“很强”地建议我们,对这些数据来说,约束模型更好。
1702646963
1702646964 估计BIC的其他方法 即使有一个给定的统计量,也还有其他版本的BIC。我喜欢Raftery的公式,因为它们内在地与基准模型相比较。因此,我编写了一个小的-do-文件-bicreg.do-,按Raftery的原则计算BIC:
1702646965
1702646966 *BICREG.DO(Updated for Stata 7.0 11/11/01.)
1702646967
1702646968 version 7.0
1702646969
[ 上一页 ]  [ :1.70264692e+09 ]  [ 下一页 ]