1702636020
共和党的罗纳德·里根当过两届美国总统,分别是在1980年和1984年。他的减税政策刺激了经济发展,带来税收收入的增加。图15-2展示了里根的竞争对手民主党候选人吉米·卡特(1980年)和沃尔特·蒙代尔(1984年)在各个州的支持率,并显示出正线性相关关系。我们预计会存在这种现象,因为一些州倾向于支持民主党,而另一些州倾向于支持共和党。图中只有一个异常值,即卡特的家乡佐治亚州,1980年有56%的选票投给了民主党的卡特,而1984年只有40%的选票投给了民主党。
1702636021
1702636022
我们可以用图15-2上的回归直线,根据1980年的投票结果预测某个州1984年的投票情况。这个图里的点,相比图15-1来说,分布得离直线较远。度量线性相关程度的相关系数为r,在图15-1里,r=0.994,而在图15-2里,r=0.704。因此可见对选举结果的预测,一般来说其准确度要比预测始姐鸟肱骨长度要差。
1702636023
1702636024
1702636025
1702636026
1702636027
图15-2 较弱的线性相关关系
1702636028
1702636029
回归方程式
1702636030
1702636031
当散点图显示出像图15-1那么强的线性相关关系时,用目测法画一条接近所有点的直线是很容易的。然而对图15-2来说,不同的人用目测法,可能会画出很不一样的直线。因为我们想用x来预测y,所以我们想要的直线,是在垂直方向(和y轴平行的方向)上和点尽量接近。在用目测法画直线时,很难只顾及点和直线的垂直距离。而且,用目测法只能在图上画出直线,却得不到线性方程式。我们需要找一个办法,根据数据找出垂直方向上距离那个点最近的线性方程式。有许多不同方法可以使垂直距离“越小越好”,其中最常用的就是“最小二乘法”(least-squares)。
1702636032
1702636033
用最小二乘法找出回归直线
1702636034
1702636035
用最小二乘法找到的回归直线,是使所有数据点距离直线的垂直距离的平方和最小的直线。
1702636036
1702636037
图15-3展示了最小二乘法的概念。这个图把图15-1的中间部分放大,聚焦在三个点上。图中画出了这三个点与回归直线之间的垂直距离。要用最小二乘法找出回归直线,就必须用到所有的垂直距离,把每一个距离值平方,然后移动直线,直到距离平方和的值达到最小。图15-1和图15-2的散点图中所画的直线,就是用最小二乘法找到的回归直线。我们无须列出计算公式,这是电脑的工作。
1702636038
1702636039
1702636040
1702636041
1702636042
图15-3 找到回归直线的目的是从x预测出y
1702636043
1702636044
要写出这个线性方程式,还像以前一样,x代表解释变量,y代表反应变量。方程式如下:
1702636045
1702636046
y=a+bx
1702636047
1702636048
b是直线的“斜率”(slope),就是x增加一个单位时y的改变量。a是“截距”(intercept),是当x=0时y的值。要利用这个方程式做预测,只要把x值代入方程式中,计算出y值即可。
1702636049
1702636050
知识普及 向平均数回归
1702636051
1702636052
“回归”这个词本来的意思是往回走,为什么利用解释变量来预测反应变量的统计方法要叫作“回归”呢?最先把回归方法用在生物与心理学数据上的高尔顿爵士,检视了诸如儿童身高与其父母身高之间的相关关系等。他发现身高超过平均数的父母,通常孩子的身高也超过平均数,但是并没有父母那么高。高尔顿称这种现象为“向平均数回归”,之后这种统计方法便以此命名。
1702636053
1702636054
例3 应用回归方程式
1702636055
1702636056
在例1中,我们用一种简便的方法预测了股骨为50厘米的化石的肱骨长度。其线性回归方程式是:
1702636057
1702636058
肱骨长度=-3.66+(1.197×股骨长度)
1702636059
1702636060
这条直线的斜率是b=1.197。这表示对于这些化石来说,股骨长度每增加1厘米,肱骨长度就会增加1.197厘米。回归直线的斜率对于理解数据来说通常很重要,斜率是变化率,即当x增加一个单位时y的改变量。
1702636061
1702636062
线性回归方程式的截距是a=-3.66,它是当x=0时y的值。虽然要画出直线需要知道截距,但是只有当x的值实际上有可能接近于0时,截距才有统计意义。而股骨长度不可能是0,所以截距没有统计意义。
1702636063
1702636064
要用方程式来做预测,只要把x值带入方程式中算出y即可。对应50厘米长的股骨,化石的肱骨长度预测值是:
1702636065
1702636066
肱骨长度=-3.66+1.197×50=56.2厘米
1702636067
1702636068
要在散点图上画出这条直线的话,用两个不同的x值分别计算出y值,就可以得到两个点,把它们连接起来就是我们要的直线了。
1702636069
[
上一页 ]
[ :1.70263602e+09 ]
[
下一页 ]