1702646320
图5-3 受访者受教育年限与父亲受教育年限之间关系的最小二乘回归线,显示“预测误差”或“残差”是如何定义的
1702646321
1702646322
为什么用“最小平方”标准来确定拟合得最好的线? 注意,“最小平方”并不是“拟合得最好”的唯一合理标准。一个直觉上更有吸引力的标准是使观测值与期望值之间的绝对偏差之和最小。但是,绝对值在数学上是很难处理的,而平方和则具有方便的代数属性,这可能就是回归分析的发明者想到使偏差的平方和最小这个标准的原因。结果是,如果某些观测值异乎寻常地大幅度偏离数据固有的相关模式,那么回归估计值就会受到很大影响;因为偏差被取了平方,所以这些观测值具有最大的(影响)权重。因此,非典型观测值(本书称之为高杠杆点)的存在会导致非常具有误导性的结果。我们将在随后的段落和第10章中进一步讨论这一点。
1702646323
1702646324
用代数或微积分方法,可以证明下面的斜率和截距公式满足最小平方标准:
1702646325
1702646326
1702646327
1702646328
1702646329
1702646330
1702646331
1702646333
量化数据分析:通过社会研究检验想法 评估某种关系的强度:相关分析
1702646334
1702646335
我们已经知道了如何得到回归线以及如何解释它们,现在我们需要评估预测的好坏程度。预测的好坏或拟合优度(goodness of fit)的标准是因变量方差能够被自变量方差所解释的部分或比例。我们定义
1702646336
1702646337
1702646338
1702646339
1702646340
也就是说,r2,即皮尔森相关系数的平方,等于1减去围绕回归线的方差与围绕因变量均值的方差之比。(当然,皮尔森相关系数就是统计学基础课中所讲到的相关系数。它的优点是数值介于-1和+1之间,这取决于两个变量是同方向还是反方向变动。但是,相关系数不如相关系数的平方好解释。)当围绕回归线的方差与围绕因变量均值的方差同样大时——也就是说,当知道自变量的取值并不能帮助我们预测因变量的取值时(在这种情况下,因变量的均值就是每个值的最小平方预测值),比率为1,r2=0;这种情况如图5-4(a)所示。当知道自变量的取值能够完美地预测因变量的取值时,比率为0,r2=1;这种情况如图5-4(b)所示。
1702646341
1702646342
注意,最小二乘回归能找到两个变量之间最佳的线性关系,即使当关系的实际函数形式为非线性的时候也是如此。例如,图5-4(c)中X和Y的相关为0,尽管两个变量显然是完全(曲线地)相关的。同样见图10-1,它复制了一组由Anscombe(1973)所构建的图,显示某一给定的相关所指向的两个变量之间的关系可能很不相同。只有当线性回归正确地表示了关系的特征时,它才是对此关系进行了恰当的概括;当它没有正确地表示关系的特征时,需要在模型中增加其他变量。你们会在下一章中知道怎样做。
1702646343
1702646344
1702646345
1702646346
1702646347
图5-4 三种数据结构下的最小二乘回归线:(a)完全不相关,(b)完全相关,(c)完全曲线相关——朝向x轴的对称抛物线
1702646348
1702646349
现在回到前面关于教育获得的代际延续性的例子。我们注意到r2=0.536,它告诉我们围绕回归线的方差大约是围绕因变量均值的方差的一半,因此,约一半的教育获得方差被相应的父亲的教育差异所解释。就社会科学的研究结果来说,这一相关性相当高。
1702646350
1702646351
KARL PEARSON(1857~1936)创建了数学统计学学科,并且是线性回归和相关分析的主要开拓者;基于他在此方面以及对积矩或常规最小二乘法的贡献,相关系数r也被称为皮尔森r(Pearson r)。Pearson在概率分布类型方面的工作奠定了经典(频率论)统计理论的基础,也奠定了一般线性模型的基础。其实,他的贡献非常多——例如,他创立了标准差和χ2检验。他于1901年创办了《生物统计学》杂志,并担任编辑直至去世;他还于1925年创办了《优生学年刊》杂志〔现在叫《人类基因学年刊》(Annals of Human Genetics)〕。Pearson出生在伦敦一个持宗教异议的家庭。他在剑桥大学学习数学,之后在柏林大学和海德堡大学改学中世纪和16世纪德国文学,他在这方面的深厚造诣使他获得了剑桥国王学院为其提供的一个日耳曼学职位,但他谢绝了。后来他转学法律(他的父亲是一位律师),但从来没有做过律师,最后他还是回到数学领域。他年轻时曾是一名女权主义者和社会主义者〔据说他的名字由Carl改为Karl最初源自海德堡开学典礼上一个职员的错误拼写,但也被认为是他自己为纪念Karl Marx(卡尔·马克思)而接受了此称呼,他似乎见过卡尔·马克思本人〕。他最终成了大家所知道的Karl Pearson(KP)。1884年,他被伦敦大学学院聘为应用数学和力学Goldsmid讲座教授,1891年被聘为伦敦格里辛学院的几何学讲座教授。在那里,他遇到了动物学家W.F.R.Weldon。Weldon对进化论感兴趣,提出了许多促使Pearson思考统计分布的研究问题;他们的合作一直持续到Weldon于1906年不幸去世。
1702646352
1702646353
关于r的一个有用的计算公式 下面是计算相关系数r的一个有用的计算公式(当你们不得不用手工计算时这将很有用):
1702646354
1702646355
1702646356
1702646357
1702646358
1702646359
1702646360
1702646362
量化数据分析:通过社会研究检验想法 相关和回归系数之间的关系
1702646363
1702646364
假设我们在计算Y对X的回归之前先分别对每个变量进行标准化(standardize),具体方法是将变量的每个观测值减去变量均值再除以变量的标准差。通过此步骤得到的每一个新变量,均值都为0,标准差都为1。然后,我们会得到下面的回归方程:
1702646365
1702646366
1702646367
1702646368
1702646369
(这里采用习惯做法,即用小写拉丁字母表示标准化变量,用希腊字母而非拉丁字母表示标准化变量的系数,这种做法被广泛使用但也有例外。)回归方程中没有截距项,因为回归线必须穿过每个变量的均值,而标准化变量的均值是(0,0)点。我们将β解释为,对在X值上相差一个标准差的两个观测对象,我们期望其Y值相差多少个标准差(standard deviations)。(这是由标准化变量的标准差为1这一事实直接决定的。因此,X的一个标准差就是x的一个单位;对Y和y来说同样如此。)通过对系数进行简单的代数运算就可以证明,在有两个变量的情况下,r=β。同样可以证明,线性变换不改变r的值。〔线性变换就是一个变量乘以(或除以)一个常数,以及/或者加上(或减去)一个常数。设想有两个变量,Y和Y′,且Y′=a+b(Y)。在此情况下,rxy=rxy′。〕因此,标准化变量和非标准化变量必然是完全相关的。
[
上一页 ]
[ :1.70264632e+09 ]
[
下一页 ]