打字猴:1.70263612e+09
1702636120
1702636121 再看一下图15-1。这5件化石的肱骨长度的变异性很大,最短的是41厘米,最长的是84厘米。从散点图上可以看出,我们只要看看股骨长度和回归直线,就几乎可以解释所有的变异值了。当股骨长度增加时,肱骨长度也会随之增加。除此之外,肱骨长度的变异值就没剩几个了。剩下的这些变异值,从图上看,就是与直线还有些距离的点。因为这组数据的r=0.994,所以r2=0.9942=0.988,也就是说,由于股骨长度增加而使肱骨长度也随之增加,可以解释肱骨长度98.8%的变异值。散布在直线两侧的点只是剩下的1.2%的变异值,这说明预测得很准。
1702636122
1702636123 再看一下图15-2。1980年和1984年的民主党支持率之间虽然存在线性相关关系,但是点在直线两侧的位置比较分散。这组数据的r=0.704,r2=0.496,我们观察到的1984年民主党支持率的变异值,大约只有一半可以用回归直线来解释。把1980年民主党支持率为45%的州和支持率为30%的州做比较,你还是会预测前者在1984年的民主党支持率更高。但是,在1980年民主党支持率相同的各州,1984年的支持率有不小的变异。造成这部分变异的是其他原因,诸如两次选举的主要议题不同,以及里根的两位民主党竞争对手来自不同地区等。
1702636124
1702636125 通常在报告回归直线时,也会同时提到r2的值,它被当作回归直线预测反应变量有多成功的一个指标。当你看到一个相关系数的时候,把它平方,你会更清楚相关性的强度。完全相关系数(r=-1或r=1)代表所有的点都落在一条直线上,此时r2=1,表明一个变量的所有变异值,都可以用它和另一个变量的线性相关关系来说明。若r=-0.7或r=0.7,则r2=0.49,表明只有差不多一半的变异值可以用线性相关关系来解释。以r2的值为标准的话,相关系数±0.7差不多在0和±1的中间。
1702636126
1702636127 练习
1702636128
1702636129 15.2 棒球场。表14-2给出了大联盟棒球赛各个场地一瓶16盎司汽水的价格和一个热狗的价格。它们之间的相关系数r=0.45。热狗价格中有多大比例的变异值可以由热狗价格与16盎司汽水价格的线性回归方程式来解释?
1702636130
1702636131 因果关系
1702636132
1702636133 抽烟和肺癌死亡率之间有很强的相关性,那么,是不是抽烟导致人们患肺癌呢?在一个国家里,容不容易取得手枪和该国枪杀事件的发生率之间也有很强的相关性,那么,容易取得手枪是否导致发生更多谋杀案?香烟包装上已明白写着吸烟导致癌症,而有更多的人拥有手枪是否导致更多谋杀案却引起了热烈的辩论。为什么呢?我们已经知道统计数据中与因果关系有关的三大事实。
1702636134
1702636135 统计数据与因果关系
1702636136
1702636137 • 即使两个变量间有很强的相关性,也不一定意味着改变其中一个变量的值会引起另一个变量值的改变。
1702636138
1702636139 • 两个变量之间的相关性,常常受其他潜在变量的影响。
1702636140
1702636141 • 证明存在因果关系的最好证据,来自随机比较实验。
1702636142
1702636143 例6 看电视会延长人们的预期寿命吗?
1702636144
1702636145 统计一下世界各国人均拥有的电视机台数x和民众的预期寿命y,你会发现两者之间存在很强的正相关关系:人均拥有电视机数量多的国家,其民众的预期寿命也比较长。
1702636146
1702636147 因果关系的基本意义是,只要改变x的值,就可以使y的值改变。我们能不能运一堆电视机到博茨瓦纳,以延长那里的民众预期寿命呢?当然不行。富国的电视机数量比穷国多,而富国民众的预期寿命之所以长,是因为他们有较好的营养条件、干净的水以及较好的医疗资源。电视机数量与预期寿命之间没有因果关系。
1702636148
1702636149 例6说明了三大事实的头两项。这类相关被叫作“胡说相关”:相关是事实,胡说的部分是“改变其中一个变量的值会导致另一个变量值的改变”的结论。像例6中的国家财富这种潜在变量会同时影响x和y的值,形成x和y之间的强相关关系,即使x和y之间其实并没有什么直接的关系。我们称其为“共同反应”(common response),即解释变量和反应变量都会对某个潜在变量产生反应。
1702636150
1702636151
1702636152
1702636153
1702636154 “依照第三世界的新脱贫计划,援助组织今天开始送出100000台电视机。”
1702636155
1702636156 例7 女童肥胖症
1702636157
1702636158 是什么原因导致了儿童肥胖症?遗传因素、饮食无度、缺乏体育锻炼和看电视时间长都被视为解释变量。
1702636159
1702636160 一项对美籍墨西哥裔的9~12岁女童的研究结果具有一定的代表性。研究者测量了那些女童和她们母亲的身体质量指数(BMI),这是一个体重相对于身高的量度,BMI高的人偏重或肥胖。他们还记录了她们看电视的时间、体育锻炼的分钟数以及一些食物的摄入量。结果表明,女童的BMI与体育锻炼、饮食和看电视之间具有弱相关关系(r=-0.18),而较强的相关关系(r=0.506)存在于女童和她母亲的BMI之间。
1702636161
1702636162 体重部分取决于遗传因素。女儿的一半基因来自母亲,所以她们的BMI之间存在直接的因果关系。当然,这种因果关系并不完全。母亲的BMI只解释了女儿BMI的25.6%(r2)的变异值,该项研究测量的其他因素也影响了女童的BMI。
1702636163
1702636164 我们可以用例7中的r或r2说明有多少遗传因素对女童的BMI产生了影响吗?不能。还记得交叉影响吗?BMI高的母亲很可能给女儿做了少锻炼、过量饮食和长时间看电视的坏榜样,女童也有了这些坏习惯,从而遗传因素的影响和环境的影响混杂在一起。因此,我们无法说清楚母亲和女儿BMI之间的相关性有多少来自遗传因素。
1702636165
1702636166 图15-5表明如何用变量间的潜在联系来解释相关性。虚线代表变量x和y之间可以观察到的相关性,一些相关性可由变量间的直接因果关系解释。图15-5的第一个图用x到y的箭头表明“x造成了y”。第二个图表示的是共同反应,即x和y之间的相关性是由潜在变量z造成的。这种共同反应即便在x和y之间没有直接关系的情况下也可以构成相关性。第三个图展示了交叉影响,解释变量x和潜在变量z可能一起影响了反应变量y。变量x和z之间是相关的,所以无法区分出z和x各自对y产生的影响。
1702636167
1702636168 在例7中,母亲和女儿的BMI之间存在着因果关系。尽管如此,研究测量的其他一些因素也影响了女儿的BMI。这是一个交叉影响的例子,在图15-5的(c)上,x代表母亲的BMI,z代表其他因素,y代表女儿的BMI。
1702636169
[ 上一页 ]  [ :1.70263612e+09 ]  [ 下一页 ]