1702646360
1702646362
量化数据分析:通过社会研究检验想法 相关和回归系数之间的关系
1702646363
1702646364
假设我们在计算Y对X的回归之前先分别对每个变量进行标准化(standardize),具体方法是将变量的每个观测值减去变量均值再除以变量的标准差。通过此步骤得到的每一个新变量,均值都为0,标准差都为1。然后,我们会得到下面的回归方程:
1702646365
1702646366
1702646367
1702646368
1702646369
(这里采用习惯做法,即用小写拉丁字母表示标准化变量,用希腊字母而非拉丁字母表示标准化变量的系数,这种做法被广泛使用但也有例外。)回归方程中没有截距项,因为回归线必须穿过每个变量的均值,而标准化变量的均值是(0,0)点。我们将β解释为,对在X值上相差一个标准差的两个观测对象,我们期望其Y值相差多少个标准差(standard deviations)。(这是由标准化变量的标准差为1这一事实直接决定的。因此,X的一个标准差就是x的一个单位;对Y和y来说同样如此。)通过对系数进行简单的代数运算就可以证明,在有两个变量的情况下,r=β。同样可以证明,线性变换不改变r的值。〔线性变换就是一个变量乘以(或除以)一个常数,以及/或者加上(或减去)一个常数。设想有两个变量,Y和Y′,且Y′=a+b(Y)。在此情况下,rxy=rxy′。〕因此,标准化变量和非标准化变量必然是完全相关的。
1702646370
1702646371
在b和β之间可以方便地进行换算,公式〔这也适用于多元回归(multiple regression)系数〕为:
1702646372
1702646373
1702646374
1702646375
1702646376
这里,sX和sY分别是X和Y的标准差。
1702646377
1702646378
1702646379
1702646380
1702646382
量化数据分析:通过社会研究检验想法 影响相关(和回归)系数大小的因素
1702646383
1702646384
我们知道了如何解释相关和回归系数,现在需要考虑潜在的问题——有些因素会影响系数的大小,如果不小心就会导致不正确的解释和错误的推论。
1702646385
1702646386
异常值和杠杆点
1702646387
1702646388
1702646389
正如前面提到的,相关和回归统计量对严重偏离特定模式的观测值非常敏感。这是采用最小二乘法这一标准的结果——因为“误差”(因变量的观测值与预测值之间的差异)被取了平方,误差越大,它对误差平方和的影响相对于误差的绝对值来说就越大。因此,相关系数很可能会受到异常值的显著影响,此时回归斜率会被硬拉向它们,产生误导性的结果。要了解这一点,请看下面图5-5描述的例子。假设在我们有关教育代际传递的例子中,第4个样本值为(13,0)(用一个空心圆套一个实心圆来表示)而不是(13,13)(用一个空心圆来表示)。也就是说,假设第4个样本的情况是父亲受过13年教育而孩子没有受过教育(本来的情况是父子都受过13年教育)——也许是因为孩子的智力受到了损伤。只要改变一个点,从(13,13)改为(13,0),就极大地改变了回归线,并歪曲了父亲的受教育年限和受访者的受教育年限之间的特定关系,使它们表现出根本没有关系的样子〔将(13,0)作为第4个值的10个数据点的回归方程为;r2=0.002〕。
1702646390
1702646391
1702646392
1702646393
1702646394
图5-5 单一异常值(高杠杆点)的影响
1702646395
1702646396
这个例子说明了异常值产生影响的条件,也就是说,它们要具有高“杠杆”性。高杠杆性是当数据点远离多变量分布的中心时产生的。如果异常值接近分布的中心,例如图5-5中的点(8,13),则其影响就较弱,因为虽然它们能够将回归线上下拉动,但是它们对斜率的影响相对来说很小。我们将在第10章进一步讨论这一点。
1702646397
1702646398
最直接的解决方案是删除这些异常的样本。当这样做的时候,穿过剩余9个数据点的回归线非常接近含(13,13)等10个数据点的回归线。然而,一般来说这种做法并不可取,因为这是在诱导人们着手“清理”数据,即删除所有可能远离回归平面的样本。在第7章和第10章我们将详细介绍两种更好的策略:①仔细想一下,异常值是否由处理剩余数据的不同方法导致的,当你怀疑有这种可能性时,就应明确地对此过程建模;或②用稳健回归方法来降低较大异常值的影响权重。幸运的是,异常值的影响会随着样本量的增加而减弱。然而,即使有大样本,极端异常值仍然会歪曲结果——例如,数以百万美元的收入。处理单变量分布上的极端值的一个简单方法是对分布进行删截,例如,在2006年的美国数据中,直接用150000美元代表150000美元或以上的收入(GSS正是这样做的;在2006年,只有2%的GSS样本有如此高的收入);但这会产生它自身的问题,正如我们在下面将会看到的那样。一个更好的处理方法可参见第14章,即用间距(变量)回归(tobit回归的一个详细版本)来正确地识别类别数值。
1702646399
1702646400
删截
1702646401
1702646402
研究者有时试图基于自变量或因变量或与自变量/因变量密切相关的变量的取值将他们的研究总体进行分组。例如,如果一名研究者推测收入在非体力职业中比在体力职业中更多地取决于受教育年限,他/她可能试图通过分别在非体力工人和体力工人这两个群体中考察受教育年限与收入的相关性来检验这一假设。这个想法并不好,因为收入与职业地位相关;因此,在其他因素不变的情况下,根据职业地位对总体进行分组将会删截因变量的分布,因而会减弱相关性。此外,如果其中一组(例如体力工人)的收入方差比另一组(例如非体力工人)小(这在大多数社会中都可能是真的),相关性被减弱的程度在体力工人组中比在非体力工人组中会更严重,因而导致研究者错误地相信假设被证实了。
1702646403
1702646404
要了解这一点,请看图5-6所示的一个高度简化的例子。为了使例子更简单,设想样本中所有体力工人的受教育年限都在7年以下,而所有非体力工人的受教育年限都在7年以上。注意,在此例中,受教育年限每多一年所带来的收入回报在非体力工人和体力工人中是完全相同的,每个数据点与回归线之间的距离也是相同的。现在,假设分别对体力工人和非体力工人计算收入和受教育年限之间的相关性。在两个群体中分别得到的相关系数会比从总体样本中计算得出的相关系数小,且体力工人组的相关系数比非体力工人组的相关系数小。原因可追溯到公式5.5,在此处所举的例子中,围绕回归线的方差在三组中都是相同的,但就围绕因变量均值的方差来说,非体力工人组要小于总体样本,且体力工人组要小于非体力工人组。尽管为了表达清楚,例子是高度简化的,但此处要说明的道理却具有普遍性:当分布被删截时,相关性会减弱。顺便说一句,这正是GRE成绩并不能很好地用来预测学生在研究生院课程上得分高低的主要原因:研究生院不录取GRE成绩太低的学生,因此删截了GRE成绩的分布。但是,这并不意味着像不懂统计的教授们时不时所主张的那样在录取过程中可以忽略GRE成绩。
1702646405
1702646406
1702646407
1702646408
1702646409
图5-6 删截分布减弱相关性
[
上一页 ]
[ :1.70264636e+09 ]
[
下一页 ]