打字猴:1.702636086e+09
1702636086 • 模型离数据点越近,预测结果越好。比较图15-1和图15-2,前者中的点距离直线很近,而后者则不是这样,所以图15-1的预测比较可靠。当变量多的时候,形态不容易看出来,而且只要数据没有呈现出很明显的整体形态,预测可能就会很不准。
1702636087
1702636088 • 超出现有数据范围的预测是靠不住的。假设你手上有3~8岁孩童的生长资料,你发现年龄x和身高y之间有很强的线性相关关系。如果你为这些数据匹配一条回归直线,然后用它来预测这些孩子25岁时的身高,你的预测结果将是,这个孩子25岁时会有8英尺高。人到了某个年龄阶段,长高的速度会慢下来,最后会完全停止长高,所以把直线一直延长到成人的年龄是很可笑的做法,没有人在预测身高时会犯这种错。但是,几乎所有的经济预测都在试图告诉我们下一季度或下一年会发生什么事,难怪经济预测常常出错。在可得的数据范围之外做预测,这种方法被称作“外推法”(extrapolation)。使用外推法要小心!
1702636089
1702636090 知识普及 计算选票的人有没有作弊?
1702636091
1702636092 在1993年宾夕法尼亚州的选举中,根据投票机的计数,共和党的布鲁斯·马克斯领先民主党的威廉·斯廷森。但是,在控制选举委员会的民主党人计算了缺席投票者的选票后,结果又变成了斯廷森领先。事情闹上了法庭。法庭传唤了一位统计学家,他用过去的选举数据绘制出回归直线,再根据投票机结果,预测缺席选票的计数。根据马克斯在投票机计数部分领先的564票,可以预测他应该比斯廷森多得133张缺席选票。而选举委员会计算出来的是斯廷森比马克斯多得了1025张缺席选票。计算选票的人有没有作弊?
1702636093
1702636094 例4 预测财政预算
1702636095
1702636096 美国国会预算办公室每年必须发布报告,预测未来5年的联邦预算及其盈余或赤字。这些预测和未来的经济趋势(未知)有关,也和国会对税收和开支的决定(也是未知的)有关。即便目前政策都不变,要预测预算状况也会非常不准确。比如,2004年对2008年做的联邦预算预测,少算了近1770亿美元。2005年所预测的2009年联邦预算居然比实际少了11930亿美元!正如参议员埃弗里特·德克森曾说的那样,“这里差10亿,那里差10亿,便谬以千里了”。1999年,预算办公室预测接下来的10年会有9960亿美元的财政盈余(不考虑社会保险)。政客们已经在讨论怎么用这笔钱了,但其他人并不相信这个预测。
1702636097
1702636098 相关系数与回归直线
1702636099
1702636100 相关系数度量线性相关关系的方向和强度,回归直线可以描述这种相关关系。相关系数和回归直线是密切相关的,即使回归直线需要选择解释变量而相关系数不需要。
1702636101
1702636102 相关系数和回归直线都会受异常值的严重影响。如果你的散点图有明显的异常值,你就要小心了。图15-4展示的是美国各州的年度最高降水量纪录和单日最高降水量纪录。夏威夷是位于图的高处的异常值,记录表明1982年夏威夷的年度降水量达到704.83英寸。
1702636103
1702636104 图15-4里所有50个州的相关系数是0.510,如果把夏威夷去掉,相关系数会降为0.248。图里面的实线,是50个州的回归直线。如果不计入夏威夷,回归直线就会往下落到虚线的位置。这条虚线差不多接近于水平,也就是说,一旦我们决定去除夏威夷的异常值,年度最高降水量纪录和单日最高降水量纪录之间就没有多大关系了。
1702636105
1702636106
1702636107
1702636108
1702636109 图15-4 回归直线受异常值的严重影响。实线是根据全部50个数据点画的,虚线则去除了夏威夷的异常值
1702636110
1702636111 回归直线的预测功能,视相关关系的强度而定。也就是说,一条回归直线有多大用处,和变量之间的相关系数密切相关。事实上,这个关系就是用相关系数的平方来度量的。
1702636112
1702636113 相关系数的平方r2
1702636114
1702636115 相关系数的平方r2,是y的变异值当中,可以用y对x的线性回归方程式来解释的那一部分所占的比例。
1702636116
1702636117 也就是说,当y和x存在线性相关关系时,y的变异值中的一部分可以解释为,当x改变时y也随着一起改变。
1702636118
1702636119 例5 r2的用法
1702636120
1702636121 再看一下图15-1。这5件化石的肱骨长度的变异性很大,最短的是41厘米,最长的是84厘米。从散点图上可以看出,我们只要看看股骨长度和回归直线,就几乎可以解释所有的变异值了。当股骨长度增加时,肱骨长度也会随之增加。除此之外,肱骨长度的变异值就没剩几个了。剩下的这些变异值,从图上看,就是与直线还有些距离的点。因为这组数据的r=0.994,所以r2=0.9942=0.988,也就是说,由于股骨长度增加而使肱骨长度也随之增加,可以解释肱骨长度98.8%的变异值。散布在直线两侧的点只是剩下的1.2%的变异值,这说明预测得很准。
1702636122
1702636123 再看一下图15-2。1980年和1984年的民主党支持率之间虽然存在线性相关关系,但是点在直线两侧的位置比较分散。这组数据的r=0.704,r2=0.496,我们观察到的1984年民主党支持率的变异值,大约只有一半可以用回归直线来解释。把1980年民主党支持率为45%的州和支持率为30%的州做比较,你还是会预测前者在1984年的民主党支持率更高。但是,在1980年民主党支持率相同的各州,1984年的支持率有不小的变异。造成这部分变异的是其他原因,诸如两次选举的主要议题不同,以及里根的两位民主党竞争对手来自不同地区等。
1702636124
1702636125 通常在报告回归直线时,也会同时提到r2的值,它被当作回归直线预测反应变量有多成功的一个指标。当你看到一个相关系数的时候,把它平方,你会更清楚相关性的强度。完全相关系数(r=-1或r=1)代表所有的点都落在一条直线上,此时r2=1,表明一个变量的所有变异值,都可以用它和另一个变量的线性相关关系来说明。若r=-0.7或r=0.7,则r2=0.49,表明只有差不多一半的变异值可以用线性相关关系来解释。以r2的值为标准的话,相关系数±0.7差不多在0和±1的中间。
1702636126
1702636127 练习
1702636128
1702636129 15.2 棒球场。表14-2给出了大联盟棒球赛各个场地一瓶16盎司汽水的价格和一个热狗的价格。它们之间的相关系数r=0.45。热狗价格中有多大比例的变异值可以由热狗价格与16盎司汽水价格的线性回归方程式来解释?
1702636130
1702636131 因果关系
1702636132
1702636133 抽烟和肺癌死亡率之间有很强的相关性,那么,是不是抽烟导致人们患肺癌呢?在一个国家里,容不容易取得手枪和该国枪杀事件的发生率之间也有很强的相关性,那么,容易取得手枪是否导致发生更多谋杀案?香烟包装上已明白写着吸烟导致癌症,而有更多的人拥有手枪是否导致更多谋杀案却引起了热烈的辩论。为什么呢?我们已经知道统计数据中与因果关系有关的三大事实。
1702636134
1702636135 统计数据与因果关系
[ 上一页 ]  [ :1.702636086e+09 ]  [ 下一页 ]