打字猴:1.70264637e+09

1702646370

1702646371 在b和β之间可以方便地进行换算，公式〔这也适用于多元回归（multiple regression）系数〕为：

1702646372

1702646373

1702646374

1702646375

1702646376 这里，sX和sY分别是X和Y的标准差。

1702646377

1702646378

1702646379

1702646380

1702646381 量化数据分析：通过社会研究检验想法 [:1702644753]

1702646382 量化数据分析：通过社会研究检验想法影响相关（和回归）系数大小的因素

1702646383

1702646384 我们知道了如何解释相关和回归系数，现在需要考虑潜在的问题——有些因素会影响系数的大小，如果不小心就会导致不正确的解释和错误的推论。

1702646385

1702646386 异常值和杠杆点

1702646387

1702646388

1702646389 正如前面提到的，相关和回归统计量对严重偏离特定模式的观测值非常敏感。这是采用最小二乘法这一标准的结果——因为“误差”（因变量的观测值与预测值之间的差异）被取了平方，误差越大，它对误差平方和的影响相对于误差的绝对值来说就越大。因此，相关系数很可能会受到异常值的显著影响，此时回归斜率会被硬拉向它们，产生误导性的结果。要了解这一点，请看下面图5-5描述的例子。假设在我们有关教育代际传递的例子中，第4个样本值为（13，0）（用一个空心圆套一个实心圆来表示）而不是（13，13）（用一个空心圆来表示）。也就是说，假设第4个样本的情况是父亲受过13年教育而孩子没有受过教育（本来的情况是父子都受过13年教育）——也许是因为孩子的智力受到了损伤。只要改变一个点，从（13，13）改为（13，0），就极大地改变了回归线，并歪曲了父亲的受教育年限和受访者的受教育年限之间的特定关系，使它们表现出根本没有关系的样子〔将（13，0）作为第4个值的10个数据点的回归方程为；r2=0.002〕。

1702646390

1702646391

1702646392

1702646393

1702646394 图5-5 单一异常值（高杠杆点）的影响

1702646395

1702646396 这个例子说明了异常值产生影响的条件，也就是说，它们要具有高“杠杆”性。高杠杆性是当数据点远离多变量分布的中心时产生的。如果异常值接近分布的中心，例如图5-5中的点（8，13），则其影响就较弱，因为虽然它们能够将回归线上下拉动，但是它们对斜率的影响相对来说很小。我们将在第10章进一步讨论这一点。

1702646397

1702646398 最直接的解决方案是删除这些异常的样本。当这样做的时候，穿过剩余9个数据点的回归线非常接近含（13，13）等10个数据点的回归线。然而，一般来说这种做法并不可取，因为这是在诱导人们着手“清理”数据，即删除所有可能远离回归平面的样本。在第7章和第10章我们将详细介绍两种更好的策略：①仔细想一下，异常值是否由处理剩余数据的不同方法导致的，当你怀疑有这种可能性时，就应明确地对此过程建模；或②用稳健回归方法来降低较大异常值的影响权重。幸运的是，异常值的影响会随着样本量的增加而减弱。然而，即使有大样本，极端异常值仍然会歪曲结果——例如，数以百万美元的收入。处理单变量分布上的极端值的一个简单方法是对分布进行删截，例如，在2006年的美国数据中，直接用150000美元代表150000美元或以上的收入（GSS正是这样做的；在2006年，只有2%的GSS样本有如此高的收入）；但这会产生它自身的问题，正如我们在下面将会看到的那样。一个更好的处理方法可参见第14章，即用间距（变量）回归（tobit回归的一个详细版本）来正确地识别类别数值。

1702646399

1702646400 删截

1702646401

1702646402 研究者有时试图基于自变量或因变量或与自变量/因变量密切相关的变量的取值将他们的研究总体进行分组。例如，如果一名研究者推测收入在非体力职业中比在体力职业中更多地取决于受教育年限，他/她可能试图通过分别在非体力工人和体力工人这两个群体中考察受教育年限与收入的相关性来检验这一假设。这个想法并不好，因为收入与职业地位相关；因此，在其他因素不变的情况下，根据职业地位对总体进行分组将会删截因变量的分布，因而会减弱相关性。此外，如果其中一组（例如体力工人）的收入方差比另一组（例如非体力工人）小（这在大多数社会中都可能是真的），相关性被减弱的程度在体力工人组中比在非体力工人组中会更严重，因而导致研究者错误地相信假设被证实了。

1702646403

1702646404 要了解这一点，请看图5-6所示的一个高度简化的例子。为了使例子更简单，设想样本中所有体力工人的受教育年限都在7年以下，而所有非体力工人的受教育年限都在7年以上。注意，在此例中，受教育年限每多一年所带来的收入回报在非体力工人和体力工人中是完全相同的，每个数据点与回归线之间的距离也是相同的。现在，假设分别对体力工人和非体力工人计算收入和受教育年限之间的相关性。在两个群体中分别得到的相关系数会比从总体样本中计算得出的相关系数小，且体力工人组的相关系数比非体力工人组的相关系数小。原因可追溯到公式5.5，在此处所举的例子中，围绕回归线的方差在三组中都是相同的，但就围绕因变量均值的方差来说，非体力工人组要小于总体样本，且体力工人组要小于非体力工人组。尽管为了表达清楚，例子是高度简化的，但此处要说明的道理却具有普遍性：当分布被删截时，相关性会减弱。顺便说一句，这正是GRE成绩并不能很好地用来预测学生在研究生院课程上得分高低的主要原因：研究生院不录取GRE成绩太低的学生，因此删截了GRE成绩的分布。但是，这并不意味着像不懂统计的教授们时不时所主张的那样在录取过程中可以忽略GRE成绩。

1702646405

1702646406

1702646407

1702646408

1702646409 图5-6 删截分布减弱相关性

1702646410

1702646411 删截分布影响的一个“真实数据”例子多年以前，在分析Political Action：An Eight Nation Study，1973-1976（Barnes and Kaase，1979）中的美国样本时，我很疑惑地发现受教育年限和收入之间的相关性非常弱（不到0.1，但根据美国的许多调查数据，这两个变量的相关系数一般大约为0.3）。在仔细检查之后我发现，受教育年限和收入这两个变量分布的尾端被严重删截了，可能是抽样或调查工作过程中的疏忽造成的。当数据被加权以再现1980年美国人口普查（这是在年份上最接近该项目的普查数据）所观察到的受教育年限和收入的双变量分布时，估计得到的相关性就与美国调查数据所发现的十分接近了。

1702646412

1702646413 向均值回归

1702646414

1702646415 因为众所周知的“向均值回归”（regression toward the mean）现象，删截的后果实际上比刚才提到的还要糟糕。当在不同的时点进行两次测量时，例如一个随机实验中的前测和后测，或者是GRE前后两次考试的成绩，我们会观察到，第一次观测获得高分的样本平均来说会在第二次观测时获得较低的分数，而第一次观测获得低分的样本会在第二次观测时获得较高的分数。也就是说，高分和低分都趋向于均值（或“向均值回归”）。即使两次测量的真值（true value）并没有变化，也会发生这种情况。

1702646416

1702646417 其原因是，观察到的测量包括两部分：真实值和真实值的测量误差部分。以GRE成绩为例，每个人的观测分数可被看作包括两部分：一部分测量了应试者完成测试所测出的某种工作的“真实的”（或基本的、不变的）能力；另一部分是随机项，由测试中所问到的具体问题、应试者的精力水平和思维活跃程度以及自信心等构成（Steele，1997）。因此它服从这样的规律：在任何给定的测试中，得分高的人更多的是那些具有高正向随机因素的人，而得分低的人更多的是具有低随机因素的人。但是，因为第二部分是随机的，在第一次测试中具有高随机因素的人平均来说会在第二次测试中具有较低的随机因素，而在第一次测试中具有低随机因素的人平均来说会在第二次测试中具有较高的随机因素。结果是，两次测试的相关性并不太完美，而且两次测试的回归系数也会小于1.0。即使两次测试的均值和标准差完全相同，也会出现这种情况。

1702646418

1702646419 此结果的一种重要含义是，研究者如果致力于对低分组（在GRE模拟测试中得分低的人，或者平均成绩低的人，等等）进行特别干预，必然会得出干预是成功的这一错误结论。当然，如果这位研究者选择高分组来做同样的干预，他/她就会被迫得出干预是完全不成功的结论——这的确是事与愿违的。所有这些都是分析原始样本的一个非随机子集而自然产生的结果。

[ 上一页 ] [ :1.70264637e+09 ] [ 下一页 ]