1702636069
1702636070
练习
1702636071
1702636072
15.1 始祖鸟化石的肱骨长度。用线性回归方程式
1702636073
1702636074
肱骨长度=-3.66+1.197×股骨长度
1702636075
1702636076
预测一件股骨为70厘米长的始祖鸟化石的肱骨长度。
1702636077
1702636078
了解预测的意义
1702636079
1702636080
电脑使预测变得很容易而且是全自动的,即使对大量的数据而言也是一样。任何可以用全自动方式处理的事,处理时通常是不经过思考的。比如,即使数据之间存在曲线相关关系,回归软件仍然“乐于”给它们匹配(fitting)一条直线。此外,电脑也不能自行决定谁是解释变量,谁是反应变量。这一点很重要,因为如果解释变量不同,同一组数据会呈现出两条不一样的直线。
1702636081
1702636082
在实际应用时,我们常常用多个解释变量来预测一个反应变量。大学在处理入学申请时,可能会用学术能力评估测试的数学与阅读分数,再加上高中时期的英语、数学与科学成绩(共5个解释变量)来预测大一新生的表现。虽然细节很复杂,但是所有用来预测反应变量的统计方法,都和线性回归方程式有一些共同的基本性质。
1702636083
1702636084
• 预测根据的是为数据匹配的某个“模型”(model)。在图15-1和图15-2里,模型就是穿过散点图中的点的一条直线。其他的预测方法会使用较复杂的模型。
1702636085
1702636086
• 模型离数据点越近,预测结果越好。比较图15-1和图15-2,前者中的点距离直线很近,而后者则不是这样,所以图15-1的预测比较可靠。当变量多的时候,形态不容易看出来,而且只要数据没有呈现出很明显的整体形态,预测可能就会很不准。
1702636087
1702636088
• 超出现有数据范围的预测是靠不住的。假设你手上有3~8岁孩童的生长资料,你发现年龄x和身高y之间有很强的线性相关关系。如果你为这些数据匹配一条回归直线,然后用它来预测这些孩子25岁时的身高,你的预测结果将是,这个孩子25岁时会有8英尺高。人到了某个年龄阶段,长高的速度会慢下来,最后会完全停止长高,所以把直线一直延长到成人的年龄是很可笑的做法,没有人在预测身高时会犯这种错。但是,几乎所有的经济预测都在试图告诉我们下一季度或下一年会发生什么事,难怪经济预测常常出错。在可得的数据范围之外做预测,这种方法被称作“外推法”(extrapolation)。使用外推法要小心!
1702636089
1702636090
知识普及 计算选票的人有没有作弊?
1702636091
1702636092
在1993年宾夕法尼亚州的选举中,根据投票机的计数,共和党的布鲁斯·马克斯领先民主党的威廉·斯廷森。但是,在控制选举委员会的民主党人计算了缺席投票者的选票后,结果又变成了斯廷森领先。事情闹上了法庭。法庭传唤了一位统计学家,他用过去的选举数据绘制出回归直线,再根据投票机结果,预测缺席选票的计数。根据马克斯在投票机计数部分领先的564票,可以预测他应该比斯廷森多得133张缺席选票。而选举委员会计算出来的是斯廷森比马克斯多得了1025张缺席选票。计算选票的人有没有作弊?
1702636093
1702636094
例4 预测财政预算
1702636095
1702636096
美国国会预算办公室每年必须发布报告,预测未来5年的联邦预算及其盈余或赤字。这些预测和未来的经济趋势(未知)有关,也和国会对税收和开支的决定(也是未知的)有关。即便目前政策都不变,要预测预算状况也会非常不准确。比如,2004年对2008年做的联邦预算预测,少算了近1770亿美元。2005年所预测的2009年联邦预算居然比实际少了11930亿美元!正如参议员埃弗里特·德克森曾说的那样,“这里差10亿,那里差10亿,便谬以千里了”。1999年,预算办公室预测接下来的10年会有9960亿美元的财政盈余(不考虑社会保险)。政客们已经在讨论怎么用这笔钱了,但其他人并不相信这个预测。
1702636097
1702636098
相关系数与回归直线
1702636099
1702636100
相关系数度量线性相关关系的方向和强度,回归直线可以描述这种相关关系。相关系数和回归直线是密切相关的,即使回归直线需要选择解释变量而相关系数不需要。
1702636101
1702636102
相关系数和回归直线都会受异常值的严重影响。如果你的散点图有明显的异常值,你就要小心了。图15-4展示的是美国各州的年度最高降水量纪录和单日最高降水量纪录。夏威夷是位于图的高处的异常值,记录表明1982年夏威夷的年度降水量达到704.83英寸。
1702636103
1702636104
图15-4里所有50个州的相关系数是0.510,如果把夏威夷去掉,相关系数会降为0.248。图里面的实线,是50个州的回归直线。如果不计入夏威夷,回归直线就会往下落到虚线的位置。这条虚线差不多接近于水平,也就是说,一旦我们决定去除夏威夷的异常值,年度最高降水量纪录和单日最高降水量纪录之间就没有多大关系了。
1702636105
1702636106
1702636107
1702636108
1702636109
图15-4 回归直线受异常值的严重影响。实线是根据全部50个数据点画的,虚线则去除了夏威夷的异常值
1702636110
1702636111
回归直线的预测功能,视相关关系的强度而定。也就是说,一条回归直线有多大用处,和变量之间的相关系数密切相关。事实上,这个关系就是用相关系数的平方来度量的。
1702636112
1702636113
相关系数的平方r2
1702636114
1702636115
相关系数的平方r2,是y的变异值当中,可以用y对x的线性回归方程式来解释的那一部分所占的比例。
1702636116
1702636117
也就是说,当y和x存在线性相关关系时,y的变异值中的一部分可以解释为,当x改变时y也随着一起改变。
1702636118
[
上一页 ]
[ :1.702636069e+09 ]
[
下一页 ]