打字猴:1.702646987e+09
1702646987 量化数据分析:通过社会研究检验想法 [:1702644763]
1702646988 量化数据分析:通过社会研究检验想法 独立检验
1702646989
1702646990 注意,我说过“对这些数据”而言约束模型是较好的。这是因为我们是通过审查数据而不是从事先的理论假设那儿得到一个新模型。因此,这样做我们会很容易犯错误,即受到抽样误差的影响。要确切地做出选择此约束模型的结论,我们需要证明它对另一个独立数据集来说也是较好的模型。如果样本大小允许,我们可以用一半数据来进行所有探索性分析,然后用其余一半数据再来估计最终模型(和它的竞争模型)。GSS对此想法提供了一个非常好的模拟,因为它在连续几次调查中重复使用相同的问题,并实施同样的抽样步骤。因此,将邻近年份的调查看作来自同一总体的独立样本是合理的,至少对不会在短期内波动的现象来说是可以的。这样做的意义是:我们能够对一年的数据进行所有的探索性分析,然后用前面或后面年份的数据证实我们结论的有效性。
1702646991
1702646992 我们在这里可以用这种方法使用GSS数据,用1973年的GSS数据重新估计赞成堕胎合法的态度的四个模型。如果我们假设赞成堕胎合法的态度在1973年和1974年人口总体之间不发生变化,用1973年的GSS数据重新估计模型,则构成一个更好地对“约束”模型的独立性检验。表6-4显示的是基于1973年数据的所有四个模型的BIC和R2值,以及模型之间的比较值——只要这些是比较有意义以及合适的。事实上,结果与基于1974年数据所得的结果是一样的:按照经典的统计推论准则,模型3比模型1和模型2好;然而,按照BIC准则,模型2比模型3好;按照BIC准则,约束模型是最好的。因此,我们可以得出结论,通过审查数据我们选择的约束模型是有效的。
1702646993
1702646994 表6-4 1973年美国成年人的宗教信仰、受教育年限和接受堕胎之间关系的不同模型的拟合优度统计量(N=1499)
1702646995
1702646996
1702646997
1702646998
1702646999 续表
1702647000
1702647001
1702647002
1702647003
1702647004
1702647005
1702647006
1702647007 量化数据分析:通过社会研究检验想法 [:1702644764]
1702647008 量化数据分析:通过社会研究检验想法 本章小结
1702647009
1702647010 在本章,通过中国识字水平决定因素的具体例子,你们学习了如何进行多元回归和相关分析,以及如何解释所得到的系数。然后,用一个分析接受堕胎的态度的具体例子,我们集中讨论了虚拟变量(一组代表分类变量的二分变量)的处理,特别是虚拟变量与其他变量之间的交互作用。作为被经典统计推论所使用的传统拟合优度测量之外可供选择的方法,我们也介绍了如何使用拟合优度测量BIC。使用这些工具,我们探索了一种组间比较方法,它能使我们决定某一特别的社会过程是否在不同组间相似(例如,基于种族、宗教信仰、性别等的分组)。最后,我们尝试用一个独立数据集来验证结果的有效性,并以使用一套重复截面调查的GSS数据为例了解如何操作。
1702647011
1702647012 为了提高它们的灵活性及探索社会科学中实际问题的准确性,我们在下一章介绍设定多元回归方程的各类方法。
1702647013
1702647014
1702647015
1702647016
1702647017 量化数据分析:通过社会研究检验想法 [:1702644765]
1702647018 量化数据分析:通过社会研究检验想法 第7章 多元回归技巧:处理特殊分析问题的技术
1702647019
1702647020 量化数据分析:通过社会研究检验想法 [:1702644766]
1702647021 本章内容
1702647022
1702647023 本章介绍社会研究者在多元回归框架中处理所面对的具体分析问题时所用的各种“技巧”。本章所有实际例子的Stata-do-和-log-文件都可从网上获得。说具体些,我们将介绍因变量和自变量的非线性转换,检验方程中系数是否相等的方法,以一项趋势分析为例介绍如何评估某一关系的线性假设是否成立,如何构建和解释反映斜率突然变化的线性样条,表示虚拟变量系数的不同方法,以及分解两个均值差异的方法。
1702647024
1702647025
1702647026
1702647027
1702647028 量化数据分析:通过社会研究检验想法 [:1702644767]
1702647029 量化数据分析:通过社会研究检验想法 非线性变换
1702647030
1702647031 在做回归分析时,我们经常有理由怀疑某些特殊的自变量与因变量之间的关系是非线性的。此时,对自变量与因变量之间的关系进行线性估计将不能很好地反映研究样本中的关系。你们已经在第5章的图5-4(c)中见过这一实例,它显示两个变量之间存在一种完美的抛物线关系,但是当我们用线性方程估计时,得到的斜率和相关系数为0。幸运的是,有一个解决此类问题的简单方法——你们可以将一个或多个变量进行变换,使得因变量与自变量之间呈线性函数关系。这里有几个例子,我同时给出一些解释技巧。
1702647032
1702647033 曲线关系:年龄和收入
1702647034
1702647035 在截面数据中,收入通常随年龄增长到中年的某一个峰值,随后开始下降。表示这种曲线关系的一种合理方法是估计下面形式的方程:
1702647036
[ 上一页 ]  [ :1.702646987e+09 ]  [ 下一页 ]