1702635987
统计学的世界(第8版) 第15章 描述相关关系:回归、预测与因果关系
1702635988
1702635989
案例分析
1702635990
1702635991
预测股市的走势可能让你发财,难怪有那么多人都埋头在股市信息里。
1702635992
1702635993
确实有些令人匪夷所思的方法。“超级碗指标”指的是每年1月或2月初举办的超级碗橄榄球赛可以预测该年股市的表现。美国国家橄榄球联盟(NFL)由原来的NFL和美国橄榄球联盟(AFL)合并而成。超级碗指标声称,若原本属于NFL的球队赢了超级碗,该年股市就会上涨;若原本属于AFL的球队赢了,股市就会下跌。从1967年第一届超级碗至2011年的45年间,用这个指标所做的股市预测中有35次是正确的。(我们把巴尔的摩乌鸦队看作老的NFL球队,因为球队在来到巴尔的摩之前是克利夫兰布朗队。我们把坦帕湾海盗队也视为原本属于NFL的球队,但它既不是一只待合并的球队,最初也不是NFL的球队,而是AFL的球队。)这个指标的预测正确率达到75%,令人印象深刻。
1702635994
1702635995
“昨天(2012年2月5日)一支NFL球队——纽约巨人队赢得了超级碗冠军,根据这个指标,今年的股票将会上涨。那么,我该投资股票吗?”
1702635996
1702635997
在这一章,我们将学习如何通过其他变量来预测某个变量的统计方法,而不只是数那些上上下下的点。我们还将学习变量之间的因果关系。学完这一章,你就能够对超级碗指标做出评价了。
1702635998
1702635999
回归直线
1702636000
1702636001
如果散点图显示出两个数值变量之间的线性相关关系,我们会在散点图中画一条直线,来对这个整体形态进行描述。“回归直线”(regression line)可以对两个变量间的关系进行描述,但条件是:其中一个变量可以用来解释或预测另一个变量。也就是说,回归直线描述的是一个解释变量和一个反应变量之间的相关关系。
1702636002
1702636003
回归直线
1702636004
1702636005
回归直线是一条直线,描述当解释变量x的值改变时,反应变量y的值会发生怎样的变化。我们常用回归直线来预测对于某一个给定的x值,y值是什么。
1702636006
1702636007
例1 始祖鸟化石标本
1702636008
1702636009
始祖鸟化石的两种骨头的长度之间存在线性相关关系。图15-1展示了5件标本的两种骨头长度,图中的直线对于整体形态做了简要描述。
1702636010
1702636011
还有一件始祖鸟化石不完整,股骨长50厘米,肱骨却不见了。我们能不能猜出肱骨有多长呢?肱骨和股骨之间的线性相关关系非常强,使得我们可以放心地用股骨长度来预测肱骨长度。图15-1告诉我们可以这样做:从股骨长度(50厘米)开始,在这一点的正上方找到和直线相交的点,然后查看纵轴上对应的值,我们就可以得到肱骨长度大约是56厘米。如果代表这件化石的这个点确实是在这条直线上,肱骨长度就应该是这个数值了。也就是说,我们的这个预测会相当准。
1702636012
1702636013
1702636014
1702636015
1702636016
图15-1 用回归直线来做预测
1702636017
1702636018
例2 总统选举
1702636019
1702636020
共和党的罗纳德·里根当过两届美国总统,分别是在1980年和1984年。他的减税政策刺激了经济发展,带来税收收入的增加。图15-2展示了里根的竞争对手民主党候选人吉米·卡特(1980年)和沃尔特·蒙代尔(1984年)在各个州的支持率,并显示出正线性相关关系。我们预计会存在这种现象,因为一些州倾向于支持民主党,而另一些州倾向于支持共和党。图中只有一个异常值,即卡特的家乡佐治亚州,1980年有56%的选票投给了民主党的卡特,而1984年只有40%的选票投给了民主党。
1702636021
1702636022
我们可以用图15-2上的回归直线,根据1980年的投票结果预测某个州1984年的投票情况。这个图里的点,相比图15-1来说,分布得离直线较远。度量线性相关程度的相关系数为r,在图15-1里,r=0.994,而在图15-2里,r=0.704。因此可见对选举结果的预测,一般来说其准确度要比预测始姐鸟肱骨长度要差。
1702636023
1702636024
1702636025
1702636026
1702636027
图15-2 较弱的线性相关关系
1702636028
1702636029
回归方程式
1702636030
1702636031
当散点图显示出像图15-1那么强的线性相关关系时,用目测法画一条接近所有点的直线是很容易的。然而对图15-2来说,不同的人用目测法,可能会画出很不一样的直线。因为我们想用x来预测y,所以我们想要的直线,是在垂直方向(和y轴平行的方向)上和点尽量接近。在用目测法画直线时,很难只顾及点和直线的垂直距离。而且,用目测法只能在图上画出直线,却得不到线性方程式。我们需要找一个办法,根据数据找出垂直方向上距离那个点最近的线性方程式。有许多不同方法可以使垂直距离“越小越好”,其中最常用的就是“最小二乘法”(least-squares)。
1702636032
1702636033
用最小二乘法找出回归直线
1702636034
1702636035
用最小二乘法找到的回归直线,是使所有数据点距离直线的垂直距离的平方和最小的直线。
[
上一页 ]
[ :1.702635986e+09 ]
[
下一页 ]