1702635499
统计学的世界(第8版) 第14章 描述相关关系:散点图和相关系数
1702635500
1702635501
案例分析
1702635502
1702635503
媒体有发布排名的癖好,最宜居的城市、最好的大学、最健康的食物、服装最差的女士……只要是最佳或最差的排名,几乎一定会出现在媒体报道中。因此,每一年当各州的学术能力评估测试分数出来的时候,媒体会依各州高中毕业生的学术能力评估测试平均分,从成绩最好的州(2011年是伊利诺伊州)一直排到成绩最差的州(2011年是哥伦比亚特区)时,就没什么可惊讶的了。不幸的是,这类报告让读者误以为哥伦比亚特区的中学一定比伊利诺伊州的中学差。你所在的州排在第几名?你是否认为这个排名反映了你所接受的教育质量?
1702635504
1702635505
主管学术能力评估测试的大学委员会很不喜欢媒体这么做。“只依照学术能力评估测试分数来比较各州或对它们进行排序是没有意义的,大学委员会非常不鼓励这种做法。”它在公布各州学术能力评估测试平均分时一开头便如此说道。为了了解其中的原因,我们一起看看这些数据。
1702635506
1702635507
图14–1展示了美国50个州加上哥伦比亚特区,学术能力评估测试数学部分平均分的分布。在学术能力评估测试最低200分、最高800分的区间内,伊利诺伊州以617分夺冠,哥伦比亚特区则以457分垫底。这个分布的形状有点儿特别:它有一个明显的峰,还有一个较小的峰。这可能是因为该数据是由两组不同数据混合而成的,但是我们需要进一步研究数据才能确认。
1702635508
1702635509
在这一章,我们将学习如何理解一个单一变量,比如学术能力评估测试成绩,我们必须看看它是如何与其他变量相关联的。学完本章,你将能够知道为何图14–1具有如此特殊的形态,以及为何大学委员会不鼓励对学术能力评估测试分数进行排名。
1702635510
1702635511
1702635512
1702635513
1702635514
图14–1 全美50个州和哥伦比亚特区的学术能力评估测试数学部分的平均分数直方图
1702635515
1702635516
有一项医学研究发现,比起中等身高的女性,个子矮的女性常有心脏病发作的情况,而个子高的女性心脏病发作的情况最少。某个保险公司宣称,以登记在案的每一万辆汽车发生交通事故的死亡率来比较的话,较重的汽车造成的交通事故死亡率要比较轻的汽车低。这两项及其他许多项统计研究,都探讨过两个变量之间的相关关系。不过,要了解两个变量的相关关系,我们常常还得检视一下其他变量。比如,如果想要得出“个子较矮的女性心脏病发作的风险较高”的结论,研究者必须首先消除其他诸如体重和运动习惯等变量的影响。本章和接下来几章的主题,就是变量之间的相关关系。更重要的是,两个变量之间的关系有可能受到一些隐藏的变量的重大影响。
1702635517
1702635518
大部分统计研究的数据都对应不止一个变量。幸运的是,对于多变量数据的分析,仍主要用我们在研究单一变量时所用的工具,分析时应遵循的原则也和以前一样:
1702635519
1702635520
• 先根据数据画图,并标示出一些有代表性的数值。
1702635521
1702635522
• 寻找整体形态以及有异于整体形态的偏差。
1702635523
1702635524
• 当整体形态比较规则时,有时可以用很精简的方式来描述它。
1702635525
1702635526
散点图
1702635527
1702635528
最常用来展现两个数值变量之间关系的图形是“散点图”(scatter plot)。
1702635529
1702635530
例1 大爆炸
1702635531
1702635532
宇宙起源于何处?一个受欢迎的理论是“大爆炸”。宇宙发生一次大爆炸,物质分散开来,像气球飘浮在空中。如果大爆炸理论是对的,距离爆炸原点最遥远的星系必然比那些靠近原点的星系移动速度快。这也意味着距离地球最近的星系应该和地球的移动速度接近,而更远的星系也应该与地球的移动速度不同。所以,相对地球而言,越远的星系,看上去远离地球的速度应该更快。那么,数据是否与这个理论相符呢?答案是肯定的。
1702635533
1702635534
1929年,埃德温·哈勃测量了星系和地球的距离与退行速度(物体远离观察者的速度)。根据收集到的数据,哈勃估算了从地球到24个星系的百万秒差距(megaparsec)——1百万秒差距等于3.26光年(光在一年时间里运动的距离)——也以每秒公里数为单位测量了退行速度。图14–2是一个散点图,展示了星系的退行速度和它们离地球的距离之间的关系。我们认为“与地球的距离”有助于解释“退行速度”,也就是说,“与地球的距离”是解释变量,而“退行速度”是反应变量。我们想知道当前者改变时,后者是如何改变的,所以我们把解释变量“与地球的距离”标示在横轴上。然后我们看到,当这个变量变大时,退行速度也变大了。图上的每个点都代表了一个星系,比如,距离1.7百万秒差距的那个点对应的退行速度是每秒960公里。
1702635535
1702635536
哈勃的发现是最重要的天文发现之一。数据帮他建立了哈勃定律,即退行速度=H0×距离,其中H0是哈勃常数。哈勃定律认为,星系可见的退行速度与它们和地球的距离成正比。这个关系是大爆炸理论解释宇宙膨胀思想的一个关键证据。
1702635537
1702635538
1702635539
1702635540
1702635541
图14–2 退行速度和与地球距离关系的散点图
1702635542
1702635543
散点图
1702635544
1702635545
散点图展示了在同一个个体上度量到的两个数值变量之间的关系。其中一个变量的值标示在横轴上,另一个变量的值标示在纵轴上。每一组数值对应图中的一个点,点的位置由该个体的两个变量值决定。
1702635546
1702635547
如果有解释变量,一定要把解释变量标示在散点图的横轴(x轴)上,我们通常把解释变量叫作x,而把反应变量叫作y。如果两个变量间没有“解释—反应”这样的区别,那么把哪个变量标示在横轴上都可以。
[
上一页 ]
[ :1.702635498e+09 ]
[
下一页 ]