1702636036
1702636037
图15-3展示了最小二乘法的概念。这个图把图15-1的中间部分放大,聚焦在三个点上。图中画出了这三个点与回归直线之间的垂直距离。要用最小二乘法找出回归直线,就必须用到所有的垂直距离,把每一个距离值平方,然后移动直线,直到距离平方和的值达到最小。图15-1和图15-2的散点图中所画的直线,就是用最小二乘法找到的回归直线。我们无须列出计算公式,这是电脑的工作。
1702636038
1702636039
1702636040
1702636041
1702636042
图15-3 找到回归直线的目的是从x预测出y
1702636043
1702636044
要写出这个线性方程式,还像以前一样,x代表解释变量,y代表反应变量。方程式如下:
1702636045
1702636046
y=a+bx
1702636047
1702636048
b是直线的“斜率”(slope),就是x增加一个单位时y的改变量。a是“截距”(intercept),是当x=0时y的值。要利用这个方程式做预测,只要把x值代入方程式中,计算出y值即可。
1702636049
1702636050
知识普及 向平均数回归
1702636051
1702636052
“回归”这个词本来的意思是往回走,为什么利用解释变量来预测反应变量的统计方法要叫作“回归”呢?最先把回归方法用在生物与心理学数据上的高尔顿爵士,检视了诸如儿童身高与其父母身高之间的相关关系等。他发现身高超过平均数的父母,通常孩子的身高也超过平均数,但是并没有父母那么高。高尔顿称这种现象为“向平均数回归”,之后这种统计方法便以此命名。
1702636053
1702636054
例3 应用回归方程式
1702636055
1702636056
在例1中,我们用一种简便的方法预测了股骨为50厘米的化石的肱骨长度。其线性回归方程式是:
1702636057
1702636058
肱骨长度=-3.66+(1.197×股骨长度)
1702636059
1702636060
这条直线的斜率是b=1.197。这表示对于这些化石来说,股骨长度每增加1厘米,肱骨长度就会增加1.197厘米。回归直线的斜率对于理解数据来说通常很重要,斜率是变化率,即当x增加一个单位时y的改变量。
1702636061
1702636062
线性回归方程式的截距是a=-3.66,它是当x=0时y的值。虽然要画出直线需要知道截距,但是只有当x的值实际上有可能接近于0时,截距才有统计意义。而股骨长度不可能是0,所以截距没有统计意义。
1702636063
1702636064
要用方程式来做预测,只要把x值带入方程式中算出y即可。对应50厘米长的股骨,化石的肱骨长度预测值是:
1702636065
1702636066
肱骨长度=-3.66+1.197×50=56.2厘米
1702636067
1702636068
要在散点图上画出这条直线的话,用两个不同的x值分别计算出y值,就可以得到两个点,把它们连接起来就是我们要的直线了。
1702636069
1702636070
练习
1702636071
1702636072
15.1 始祖鸟化石的肱骨长度。用线性回归方程式
1702636073
1702636074
肱骨长度=-3.66+1.197×股骨长度
1702636075
1702636076
预测一件股骨为70厘米长的始祖鸟化石的肱骨长度。
1702636077
1702636078
了解预测的意义
1702636079
1702636080
电脑使预测变得很容易而且是全自动的,即使对大量的数据而言也是一样。任何可以用全自动方式处理的事,处理时通常是不经过思考的。比如,即使数据之间存在曲线相关关系,回归软件仍然“乐于”给它们匹配(fitting)一条直线。此外,电脑也不能自行决定谁是解释变量,谁是反应变量。这一点很重要,因为如果解释变量不同,同一组数据会呈现出两条不一样的直线。
1702636081
1702636082
在实际应用时,我们常常用多个解释变量来预测一个反应变量。大学在处理入学申请时,可能会用学术能力评估测试的数学与阅读分数,再加上高中时期的英语、数学与科学成绩(共5个解释变量)来预测大一新生的表现。虽然细节很复杂,但是所有用来预测反应变量的统计方法,都和线性回归方程式有一些共同的基本性质。
1702636083
1702636084
• 预测根据的是为数据匹配的某个“模型”(model)。在图15-1和图15-2里,模型就是穿过散点图中的点的一条直线。其他的预测方法会使用较复杂的模型。
1702636085
[
上一页 ]
[ :1.702636036e+09 ]
[
下一页 ]