1702646350
1702646351
KARL PEARSON(1857~1936)创建了数学统计学学科,并且是线性回归和相关分析的主要开拓者;基于他在此方面以及对积矩或常规最小二乘法的贡献,相关系数r也被称为皮尔森r(Pearson r)。Pearson在概率分布类型方面的工作奠定了经典(频率论)统计理论的基础,也奠定了一般线性模型的基础。其实,他的贡献非常多——例如,他创立了标准差和χ2检验。他于1901年创办了《生物统计学》杂志,并担任编辑直至去世;他还于1925年创办了《优生学年刊》杂志〔现在叫《人类基因学年刊》(Annals of Human Genetics)〕。Pearson出生在伦敦一个持宗教异议的家庭。他在剑桥大学学习数学,之后在柏林大学和海德堡大学改学中世纪和16世纪德国文学,他在这方面的深厚造诣使他获得了剑桥国王学院为其提供的一个日耳曼学职位,但他谢绝了。后来他转学法律(他的父亲是一位律师),但从来没有做过律师,最后他还是回到数学领域。他年轻时曾是一名女权主义者和社会主义者〔据说他的名字由Carl改为Karl最初源自海德堡开学典礼上一个职员的错误拼写,但也被认为是他自己为纪念Karl Marx(卡尔·马克思)而接受了此称呼,他似乎见过卡尔·马克思本人〕。他最终成了大家所知道的Karl Pearson(KP)。1884年,他被伦敦大学学院聘为应用数学和力学Goldsmid讲座教授,1891年被聘为伦敦格里辛学院的几何学讲座教授。在那里,他遇到了动物学家W.F.R.Weldon。Weldon对进化论感兴趣,提出了许多促使Pearson思考统计分布的研究问题;他们的合作一直持续到Weldon于1906年不幸去世。
1702646352
1702646353
关于r的一个有用的计算公式 下面是计算相关系数r的一个有用的计算公式(当你们不得不用手工计算时这将很有用):
1702646354
1702646355
1702646356
1702646357
1702646358
1702646359
1702646360
1702646362
量化数据分析:通过社会研究检验想法 相关和回归系数之间的关系
1702646363
1702646364
假设我们在计算Y对X的回归之前先分别对每个变量进行标准化(standardize),具体方法是将变量的每个观测值减去变量均值再除以变量的标准差。通过此步骤得到的每一个新变量,均值都为0,标准差都为1。然后,我们会得到下面的回归方程:
1702646365
1702646366
1702646367
1702646368
1702646369
(这里采用习惯做法,即用小写拉丁字母表示标准化变量,用希腊字母而非拉丁字母表示标准化变量的系数,这种做法被广泛使用但也有例外。)回归方程中没有截距项,因为回归线必须穿过每个变量的均值,而标准化变量的均值是(0,0)点。我们将β解释为,对在X值上相差一个标准差的两个观测对象,我们期望其Y值相差多少个标准差(standard deviations)。(这是由标准化变量的标准差为1这一事实直接决定的。因此,X的一个标准差就是x的一个单位;对Y和y来说同样如此。)通过对系数进行简单的代数运算就可以证明,在有两个变量的情况下,r=β。同样可以证明,线性变换不改变r的值。〔线性变换就是一个变量乘以(或除以)一个常数,以及/或者加上(或减去)一个常数。设想有两个变量,Y和Y′,且Y′=a+b(Y)。在此情况下,rxy=rxy′。〕因此,标准化变量和非标准化变量必然是完全相关的。
1702646370
1702646371
在b和β之间可以方便地进行换算,公式〔这也适用于多元回归(multiple regression)系数〕为:
1702646372
1702646373
1702646374
1702646375
1702646376
这里,sX和sY分别是X和Y的标准差。
1702646377
1702646378
1702646379
1702646380
1702646382
量化数据分析:通过社会研究检验想法 影响相关(和回归)系数大小的因素
1702646383
1702646384
我们知道了如何解释相关和回归系数,现在需要考虑潜在的问题——有些因素会影响系数的大小,如果不小心就会导致不正确的解释和错误的推论。
1702646385
1702646386
异常值和杠杆点
1702646387
1702646388
1702646389
正如前面提到的,相关和回归统计量对严重偏离特定模式的观测值非常敏感。这是采用最小二乘法这一标准的结果——因为“误差”(因变量的观测值与预测值之间的差异)被取了平方,误差越大,它对误差平方和的影响相对于误差的绝对值来说就越大。因此,相关系数很可能会受到异常值的显著影响,此时回归斜率会被硬拉向它们,产生误导性的结果。要了解这一点,请看下面图5-5描述的例子。假设在我们有关教育代际传递的例子中,第4个样本值为(13,0)(用一个空心圆套一个实心圆来表示)而不是(13,13)(用一个空心圆来表示)。也就是说,假设第4个样本的情况是父亲受过13年教育而孩子没有受过教育(本来的情况是父子都受过13年教育)——也许是因为孩子的智力受到了损伤。只要改变一个点,从(13,13)改为(13,0),就极大地改变了回归线,并歪曲了父亲的受教育年限和受访者的受教育年限之间的特定关系,使它们表现出根本没有关系的样子〔将(13,0)作为第4个值的10个数据点的回归方程为;r2=0.002〕。
1702646390
1702646391
1702646392
1702646393
1702646394
图5-5 单一异常值(高杠杆点)的影响
1702646395
1702646396
这个例子说明了异常值产生影响的条件,也就是说,它们要具有高“杠杆”性。高杠杆性是当数据点远离多变量分布的中心时产生的。如果异常值接近分布的中心,例如图5-5中的点(8,13),则其影响就较弱,因为虽然它们能够将回归线上下拉动,但是它们对斜率的影响相对来说很小。我们将在第10章进一步讨论这一点。
1702646397
1702646398
最直接的解决方案是删除这些异常的样本。当这样做的时候,穿过剩余9个数据点的回归线非常接近含(13,13)等10个数据点的回归线。然而,一般来说这种做法并不可取,因为这是在诱导人们着手“清理”数据,即删除所有可能远离回归平面的样本。在第7章和第10章我们将详细介绍两种更好的策略:①仔细想一下,异常值是否由处理剩余数据的不同方法导致的,当你怀疑有这种可能性时,就应明确地对此过程建模;或②用稳健回归方法来降低较大异常值的影响权重。幸运的是,异常值的影响会随着样本量的增加而减弱。然而,即使有大样本,极端异常值仍然会歪曲结果——例如,数以百万美元的收入。处理单变量分布上的极端值的一个简单方法是对分布进行删截,例如,在2006年的美国数据中,直接用150000美元代表150000美元或以上的收入(GSS正是这样做的;在2006年,只有2%的GSS样本有如此高的收入);但这会产生它自身的问题,正如我们在下面将会看到的那样。一个更好的处理方法可参见第14章,即用间距(变量)回归(tobit回归的一个详细版本)来正确地识别类别数值。
1702646399
[
上一页 ]
[ :1.70264635e+09 ]
[
下一页 ]