打字猴:1.702648363e+09
1702648363 量化数据分析:通过社会研究检验想法 [:1702644791]
1702648364 量化数据分析:通过社会研究检验想法 自举法和标准误
1702648365
1702648366 包括常规最小二乘回归和稳健回归在内,许多统计方法都具有一个重要性质:即使观测值不符合正态分布,误差分布仍是渐进正态的——也就是说,当样本规模增大时,误差分布趋近正态。然而,对小样本情况(N-k<30,这里N是观测值数量,k是自变量数量),这种近似趋势不成立,这意味着分析推导出的标准误经常是不正确的。
1702648367
1702648368 一种解决此问题的方法是用自举法(bootstrap)估计标准误。原则上,如果我们可以接触到样本所在的总体,那么我们就可以对该总体进行重复抽样(放回抽样);然后对每个样本估计任意感兴趣的统计量,例如,一个回归系数;同时估计统计量的标准误,该标准误是从重复抽样中得到的估计值的标准差。但是,我们不可能对一个给定总体进行大量的重复抽样;此外,这18个国家“样本”所在的“总体”实际上并不存在,因为对该例来说我们已经包括了所有可以获得数据的国家,因此,借助于一种近似方法就显得尤为必要。
1702648369
1702648370 自举法近似于再抽样,即将观测样本看作总体的一个替代物并进行可重复放回型抽样,其中,观测资料来自观测样本。在当前的例子中,我们可以从18个观测样本中随机抽取第一个含有18个事件的样本(可放回),即挪威、荷兰、印度、爱尔兰、奥地利、美国、芬兰、菲律宾、丹麦、意大利、中国台湾、瑞典、印度、爱尔兰、芬兰、丹麦、丹麦和中国台湾。注意,英格兰、德国、匈牙利、日本、北爱尔兰和波兰没有进入样本;奥地利、意大利、荷兰、挪威、菲律宾、瑞典和美国进入一次;芬兰、爱尔兰、印度和中国台湾进入两次;而丹麦进入三次。对这个样本,我们可以估计出一个回归方程并记录其系数。然后,我们进行第二次、第三次以及更多次数的重复放回型抽样。每个系数都是一个包含数个数值的分布,其中,数值数量等于我们抽样中样本的大小。之后,我们再从这个分布中估计标准误作为分布的标准差。〔有关自举法的进一步讨论,见Fox(1997:493-514)、Stine(1990)、Hamilton(1992a;1992b:313-325),以及Stata 10.0手册中的-bootstrap-条目。〕
1702648371
1702648372 如果样本确实代表了其所来自的总体,且产生的分布近似于正态,那么此方法就提供了一个很好的统计量标准误估计。对有异常值和高杠杆点且样本量很小的样本来说,如同我们这里的情况,每次抽样容易产生很大的变异性。因此,一种比较明智的做法是通过多次抽样来获得抽样分布的稳健估计。针对当前的例子,我们抽样2000次来估计表10-1中每一列的标准误(见下载文件“ch10.do”中“Bootstrapped Standard Errors”部分)。我尝试过较少次数的抽样实验,但在标准误的估计中没有得到满意的变异性。经过2000次重复抽样,所估计出的标准误趋于稳定,但很难达到正态分布(如图10-11所示)。这些分布中的异常值来自多次出现的随机缺失或高杠杆观测值。〔在可重复放回抽取的17个观测值中,某一给定国家从某一特定样本中被删除的概率是0.36——更准确地说是0.357=(1-1/N)N=(1-1/17)17。〕
1702648373
1702648374 注意,标准误有时比表的注释中所报告的相应渐进标准误大很多,尤其是那些对教育不平等的测量。这种结果提醒我们,轻信一般统计程序计算的标准误是很危险的,尤其是当处理小样本的时候。另一方面,对于当前的例子,由于我们的“样本”很小且几乎不可能是总体的一个概率样本,正如前面所提及的,标准误究竟是多少我们并不清楚。因此我们暂时接受当前的估计模型,也就是表10-1第4列中报告的对17个国家的稳健回归估计,它们具有比相应OLS估计小得多的标准误。尽管如此,我们也必须明白,该结果只是提示性的,如果要确定这些结果的最终可靠性,我们需要更多、更好的数据来加以证实。
1702648375
1702648376 然而,当我们有较大总体的真实概率样本时,标准误和置信区间所隐含的信息就显得更加重要。利用自举法来计算恰当的置信区间仍是一个未有定论和正在进行统计研究的领域。基于不同假设,Stata提供了4种不同的95%置信区间。对哪种估计最好地涵盖了真实标准误仍存在相当大的争议。但是,目前的证据偏向于支持偏误修正估计(bias-corrected estimates),这也是Stata的默认设置。
1702648377
1702648378
1702648379
1702648380
1702648381 图10-11 对17个国家经稳健回归估计的扩展模型自举法系数(重复2000次)的抽样分布
1702648382
1702648383 注:这些是表10-1第4列的自举法系数。
1702648384
1702648385
1702648386
1702648387
1702648388 量化数据分析:通过社会研究检验想法 [:1702644792]
1702648389 量化数据分析:通过社会研究检验想法 本章小结
1702648390
1702648391 我们在本章介绍了如何检查数据中的反常观测和违反OLS回归假设的现象,如何利用所获得的信息建立新假设,如何利用稳健回归方法获得标准误较小的估计,以及在样本统计量服从正态分布的假设得不到满足的条件下,如何利用自举法步骤计算标准误。本章的主要经验是,我们常常可以通过图示数据中的关系对研究问题获得更多的了解。因此,理解数据的最好的方法经常是图示所观察到的现象。通过图示得到的结果经常是令人吃惊的,而且涵盖了很多信息。
1702648392
1702648393
1702648394
1702648395
1702648396 量化数据分析:通过社会研究检验想法 [:1702644793]
1702648397 量化数据分析:通过社会研究检验想法 第11章 测度构建
1702648398
1702648399 量化数据分析:通过社会研究检验想法 [:1702644794]
1702648400 本章内容
1702648401
1702648402 我们在本章介绍如何通过构建多题项测度(multiple-item scale)来提高测量的效度和信度。我们介绍三种构建测度的方法:加总测度法(additive scaling)、以因子为基础的测度法(factor-based scaling)和效应比例测度法(effect-proportional scaling)。我们还将介绍回归分析的两种变体:含误差变量回归(errors-in-variables regression),即修正测量的不可靠性;以及似不相关回归(seemingly unrelated regression),即用来比较(部分或所有)自变量相同但因变量不同的回归方程。
1702648403
1702648404
1702648405
1702648406
1702648407 量化数据分析:通过社会研究检验想法 [:1702644795]
1702648408 量化数据分析:通过社会研究检验想法 引言
1702648409
1702648410 在社会研究中,我们经常希望研究那些不能直接、精确测量的概念之间的关系。例如,社会分层研究中的阶层、地位和权力,态度研究中的失范、疏离和权威主义,政治社会学研究中的自由主义和保守主义。很难想象任何单一的对人们信仰和行为的测量能够充分反映这类概念。例如,假如我们想根据国会议员投票记录的自由程度来对他们进行区分。我们几乎无法接受只用一种投票行为——比如说是否支持外国援助——来测量“自由(主义)投票”,将投赞成票的归为自由派,将投反对票的归为保守派。对于任何特定的投票,除“自由主义”或“保守主义”之外,有些因素也在起作用——对法规的特定语言表述持有异议,豁免政治债务的需求,困难时期资金最好用于家庭社会福利方面的观点,等等。尽管一些外在因素会影响特定的投票,但是,我们仍然期望“自由主义者”总体上比“保守主义者”会更倾向于支持外国援助、家庭福利、公民自由、投票权、反歧视行动等。(当然,我们也可能希望提炼出我们自己的概念,以区分自由主义或保守主义,例如,社会价值、财政政策、国际主义与孤立主义。但共同的基本点是:任何一个题项都将是对潜在概念的较差的测量,因为外在因素都会影响对单一题项的应答。)因此,一种构建潜在概念的操作性指标(operational indicators)的有用策略是创建多题项测度。也就是说,对被认为反映了一个潜在概念的一组题项来说,我们取(受访者)对每个题项应答的平均值来标示或测量(受访者)在这个概念上的认识程度。多题项测度应该满足两个标准:它们应该是有效的(valid)和可信的(reliable)。
1702648411
1702648412
[ 上一页 ]  [ :1.702648363e+09 ]  [ 下一页 ]