打字猴:1.702646344e+09
1702646344
1702646345
1702646346
1702646347 图5-4 三种数据结构下的最小二乘回归线:(a)完全不相关,(b)完全相关,(c)完全曲线相关——朝向x轴的对称抛物线
1702646348
1702646349 现在回到前面关于教育获得的代际延续性的例子。我们注意到r2=0.536,它告诉我们围绕回归线的方差大约是围绕因变量均值的方差的一半,因此,约一半的教育获得方差被相应的父亲的教育差异所解释。就社会科学的研究结果来说,这一相关性相当高。
1702646350
1702646351 KARL PEARSON(1857~1936)创建了数学统计学学科,并且是线性回归和相关分析的主要开拓者;基于他在此方面以及对积矩或常规最小二乘法的贡献,相关系数r也被称为皮尔森r(Pearson r)。Pearson在概率分布类型方面的工作奠定了经典(频率论)统计理论的基础,也奠定了一般线性模型的基础。其实,他的贡献非常多——例如,他创立了标准差和χ2检验。他于1901年创办了《生物统计学》杂志,并担任编辑直至去世;他还于1925年创办了《优生学年刊》杂志〔现在叫《人类基因学年刊》(Annals of Human Genetics)〕。Pearson出生在伦敦一个持宗教异议的家庭。他在剑桥大学学习数学,之后在柏林大学和海德堡大学改学中世纪和16世纪德国文学,他在这方面的深厚造诣使他获得了剑桥国王学院为其提供的一个日耳曼学职位,但他谢绝了。后来他转学法律(他的父亲是一位律师),但从来没有做过律师,最后他还是回到数学领域。他年轻时曾是一名女权主义者和社会主义者〔据说他的名字由Carl改为Karl最初源自海德堡开学典礼上一个职员的错误拼写,但也被认为是他自己为纪念Karl Marx(卡尔·马克思)而接受了此称呼,他似乎见过卡尔·马克思本人〕。他最终成了大家所知道的Karl Pearson(KP)。1884年,他被伦敦大学学院聘为应用数学和力学Goldsmid讲座教授,1891年被聘为伦敦格里辛学院的几何学讲座教授。在那里,他遇到了动物学家W.F.R.Weldon。Weldon对进化论感兴趣,提出了许多促使Pearson思考统计分布的研究问题;他们的合作一直持续到Weldon于1906年不幸去世。
1702646352
1702646353 关于r的一个有用的计算公式 下面是计算相关系数r的一个有用的计算公式(当你们不得不用手工计算时这将很有用):
1702646354
1702646355
1702646356
1702646357
1702646358
1702646359
1702646360
1702646361 量化数据分析:通过社会研究检验想法 [:1702644752]
1702646362 量化数据分析:通过社会研究检验想法 相关和回归系数之间的关系
1702646363
1702646364 假设我们在计算Y对X的回归之前先分别对每个变量进行标准化(standardize),具体方法是将变量的每个观测值减去变量均值再除以变量的标准差。通过此步骤得到的每一个新变量,均值都为0,标准差都为1。然后,我们会得到下面的回归方程:
1702646365
1702646366
1702646367
1702646368
1702646369 (这里采用习惯做法,即用小写拉丁字母表示标准化变量,用希腊字母而非拉丁字母表示标准化变量的系数,这种做法被广泛使用但也有例外。)回归方程中没有截距项,因为回归线必须穿过每个变量的均值,而标准化变量的均值是(0,0)点。我们将β解释为,对在X值上相差一个标准差的两个观测对象,我们期望其Y值相差多少个标准差(standard deviations)。(这是由标准化变量的标准差为1这一事实直接决定的。因此,X的一个标准差就是x的一个单位;对Y和y来说同样如此。)通过对系数进行简单的代数运算就可以证明,在有两个变量的情况下,r=β。同样可以证明,线性变换不改变r的值。〔线性变换就是一个变量乘以(或除以)一个常数,以及/或者加上(或减去)一个常数。设想有两个变量,Y和Y′,且Y′=a+b(Y)。在此情况下,rxy=rxy′。〕因此,标准化变量和非标准化变量必然是完全相关的。
1702646370
1702646371 在b和β之间可以方便地进行换算,公式〔这也适用于多元回归(multiple regression)系数〕为:
1702646372
1702646373
1702646374
1702646375
1702646376 这里,sX和sY分别是X和Y的标准差。
1702646377
1702646378
1702646379
1702646380
1702646381 量化数据分析:通过社会研究检验想法 [:1702644753]
1702646382 量化数据分析:通过社会研究检验想法 影响相关(和回归)系数大小的因素
1702646383
1702646384 我们知道了如何解释相关和回归系数,现在需要考虑潜在的问题——有些因素会影响系数的大小,如果不小心就会导致不正确的解释和错误的推论。
1702646385
1702646386 异常值和杠杆点
1702646387
1702646388
1702646389 正如前面提到的,相关和回归统计量对严重偏离特定模式的观测值非常敏感。这是采用最小二乘法这一标准的结果——因为“误差”(因变量的观测值与预测值之间的差异)被取了平方,误差越大,它对误差平方和的影响相对于误差的绝对值来说就越大。因此,相关系数很可能会受到异常值的显著影响,此时回归斜率会被硬拉向它们,产生误导性的结果。要了解这一点,请看下面图5-5描述的例子。假设在我们有关教育代际传递的例子中,第4个样本值为(13,0)(用一个空心圆套一个实心圆来表示)而不是(13,13)(用一个空心圆来表示)。也就是说,假设第4个样本的情况是父亲受过13年教育而孩子没有受过教育(本来的情况是父子都受过13年教育)——也许是因为孩子的智力受到了损伤。只要改变一个点,从(13,13)改为(13,0),就极大地改变了回归线,并歪曲了父亲的受教育年限和受访者的受教育年限之间的特定关系,使它们表现出根本没有关系的样子〔将(13,0)作为第4个值的10个数据点的回归方程为;r2=0.002〕。
1702646390
1702646391
1702646392
1702646393
[ 上一页 ]  [ :1.702646344e+09 ]  [ 下一页 ]