打字猴:1.702648156e+09
1702648156 量化数据分析:通过社会研究检验想法 [:1702644784]
1702648157 量化数据分析:通过社会研究检验想法 结论
1702648158
1702648159 从本章的各个分析实例中我们发现,如果不考虑大型抽样调查常常使用多阶段抽样设计这一事实,不对其导致的观察样本的明显的整群效应进行修正,我们就可能很糟糕地低估抽样误差。注意,这不仅对区域概率样本适用,而且也同样适用于从组织中所抽取的样本,如学生样本(经常是先抽取学校,再抽取班级,然后是班级中的个人)、医院或诊所的病人样本等。这类调查的分析也应该使用调查估计方法。
1702648160
1702648161 即使不能获得抽样设计的完整信息——尽管无奈,但这也十分常见——在某些情况下,我们也可以利用访谈地址的信息去估计抽样设计信息,毕竟,几乎所有的调查都是根据其地址而呈现整群分布的。分析者应在数据中充分收集信息,以尽量了解抽样设计,从而使用Stata中基于抽样设计的估计方法,并避免高估其结论的信度。低估抽样误差,因而增加犯第I类错误的概率(错误地拒绝本来真实的零假设),这是将多阶段样本看作简单随机样本的通常结果。
1702648162
1702648163 本书中介绍的大多数标准统计程序都有调查估计的版本。一旦可能,我们就应该使用调查估计。而对于那些还没有调查估计命令的统计程序,我们也可以按照本章的建议使用[pweights]和-cluster-选项进行近似的调查估计。在只有一个抽样阶段且没有任何有关层变量的信息时,-cluster-选项与非调查估计方法一起使用会产生与本章所讨论的调查估计方法一致的结果(除了在分析次级总体时,仍需要使用调查估计方法)。
1702648164
1702648165
1702648166
1702648167
1702648168 量化数据分析:通过社会研究检验想法 [:1702644785]
1702648169 量化数据分析:通过社会研究检验想法 本章小结
1702648170
1702648171 本章带领我们跳出“教科书”式的分析(即基于简单随机抽样假设的分析),进入社会调查实际使用的样本分析中,并在统计分析时考虑抽样设计。我们回顾了样本的主要类型,并重点讨论了多阶段概率样本;探讨了样本分层的意义——它不仅能减少抽样误差,而且保证我们获得小群体的可供单独分析的足够样本;说明了加权估计适用的条件;之后我们转向调查估计,它是在考虑抽样设计,尤其是样本整群效应时正确估计标准误的一套方法。最后我们介绍deff和meff这两个统计量,它们是对偏离随机样本时的抽样误差的量化。
1702648172
1702648173
1702648174
1702648175
1702648176 量化数据分析:通过社会研究检验想法 [:1702644786]
1702648177 量化数据分析:通过社会研究检验想法 第10章 回归诊断
1702648178
1702648179 量化数据分析:通过社会研究检验想法 [:1702644787]
1702648180 本章内容
1702648181
1702648182 在分析中,我们常会因一些问题数据而导致错误的统计推断,因此如何识别这些问题数据显得尤为重要。针对这一点,我们在本章会介绍有关模型的识别方法以及在某些条件下的修正方法。为熟悉如何应用和解释各类回归诊断工具,我们将以分析我之前发表的一篇文章为例。
1702648183
1702648184 如前一章所述,如果我们不对复杂样本设计的标准误估计量进行修正会导致错误推断,不仅仅如此,还有许多其他的情况会导致错误的统计推断。即便是完全注意到样本的复杂性,我们也仍会犯错。原因在于我们可能设定了错误的模型或者在分析中包括了那些反常的观测样本,有关这一点在第5章已经简要地提及。在本章,我会更深入地阐述该问题。
1702648185
1702648186 我要讨论这些可能性的原因之一在于,在某些情况下,同样一组观测样本在某些社会过程的假设下可能是反常的,或者它满足其他一些过程,但这些过程需要通过引入新变量或改变含一个或多个预测变量的函数形式才能揭示出来。另一个原因是这两个问题可以用同样的方法发现和修正。在这里,我们首先介绍回归诊断技术——发现问题的方法。然后,我们将介绍稳健回归——一种修正问题的方法。有关各类回归诊断的讨论主要引自Fox(1997,chap.11-12)和Stata 10.0中“回归事后估计”(regress postestimation)(StataCorp,2007)的相关章节。
1702648187
1702648188
1702648189
1702648190
1702648191 量化数据分析:通过社会研究检验想法 [:1702644788]
1702648192 量化数据分析:通过社会研究检验想法 引言
1702648193
1702648194 为了举例说明缺乏经验的研究人员因忽视数据特征经常发生的问题,我们先来看四幅散点图(见图10-1)。这些图均是为产生一致的回归估计量(斜率和截距)、一致的变量间的相关关系和一致的回归系数标准误而专门设计的。但是,只有图(a)是一条合理的线性回归直线。图(b)展示了一种曲线关系。图(c)描述了一种受到一个数值干扰的线性关系,如果没有这一数据点,其线性关系将会非常完美。图(d)展示了一个其X的方差和表示Y与X关系的斜率完全由一个点决定的数据集(其中,X是横坐标,Y是纵坐标)。很明显,从这四幅散点图中,我们可以发现,通过这样直观地检查变量间的关系来保证识别模型是否充分反映了数据的真实关系是一个非常好的想法。
1702648195
1702648196
1702648197
1702648198
1702648199 图10-1 四幅具有同样线条的散点图
1702648200
1702648201 资料来源:Anscombe,1973:19-20。
1702648202
1702648203 除了上述例子,我们仍然需要对有关回归模型没有充分表达数据观测到的关系的其他方法保持敏感,尤其是一些可能被模型忽略的重要变量,如图10-2所示。这里,Y对X的回归显然是错误的,因为三个中间观测值对应的Y值比左边和右边的数据点都大。很明显,该关系可以表示成如下形式的方程:
1702648204
1702648205
[ 上一页 ]  [ :1.702648156e+09 ]  [ 下一页 ]