打字猴:1.702635512e+09
1702635512
1702635513
1702635514 图14–1 全美50个州和哥伦比亚特区的学术能力评估测试数学部分的平均分数直方图
1702635515
1702635516 有一项医学研究发现,比起中等身高的女性,个子矮的女性常有心脏病发作的情况,而个子高的女性心脏病发作的情况最少。某个保险公司宣称,以登记在案的每一万辆汽车发生交通事故的死亡率来比较的话,较重的汽车造成的交通事故死亡率要比较轻的汽车低。这两项及其他许多项统计研究,都探讨过两个变量之间的相关关系。不过,要了解两个变量的相关关系,我们常常还得检视一下其他变量。比如,如果想要得出“个子较矮的女性心脏病发作的风险较高”的结论,研究者必须首先消除其他诸如体重和运动习惯等变量的影响。本章和接下来几章的主题,就是变量之间的相关关系。更重要的是,两个变量之间的关系有可能受到一些隐藏的变量的重大影响。
1702635517
1702635518 大部分统计研究的数据都对应不止一个变量。幸运的是,对于多变量数据的分析,仍主要用我们在研究单一变量时所用的工具,分析时应遵循的原则也和以前一样:
1702635519
1702635520 • 先根据数据画图,并标示出一些有代表性的数值。
1702635521
1702635522 • 寻找整体形态以及有异于整体形态的偏差。
1702635523
1702635524 • 当整体形态比较规则时,有时可以用很精简的方式来描述它。
1702635525
1702635526 散点图
1702635527
1702635528 最常用来展现两个数值变量之间关系的图形是“散点图”(scatter plot)。
1702635529
1702635530 例1 大爆炸
1702635531
1702635532 宇宙起源于何处?一个受欢迎的理论是“大爆炸”。宇宙发生一次大爆炸,物质分散开来,像气球飘浮在空中。如果大爆炸理论是对的,距离爆炸原点最遥远的星系必然比那些靠近原点的星系移动速度快。这也意味着距离地球最近的星系应该和地球的移动速度接近,而更远的星系也应该与地球的移动速度不同。所以,相对地球而言,越远的星系,看上去远离地球的速度应该更快。那么,数据是否与这个理论相符呢?答案是肯定的。
1702635533
1702635534 1929年,埃德温·哈勃测量了星系和地球的距离与退行速度(物体远离观察者的速度)。根据收集到的数据,哈勃估算了从地球到24个星系的百万秒差距(megaparsec)——1百万秒差距等于3.26光年(光在一年时间里运动的距离)——也以每秒公里数为单位测量了退行速度。图14–2是一个散点图,展示了星系的退行速度和它们离地球的距离之间的关系。我们认为“与地球的距离”有助于解释“退行速度”,也就是说,“与地球的距离”是解释变量,而“退行速度”是反应变量。我们想知道当前者改变时,后者是如何改变的,所以我们把解释变量“与地球的距离”标示在横轴上。然后我们看到,当这个变量变大时,退行速度也变大了。图上的每个点都代表了一个星系,比如,距离1.7百万秒差距的那个点对应的退行速度是每秒960公里。
1702635535
1702635536 哈勃的发现是最重要的天文发现之一。数据帮他建立了哈勃定律,即退行速度=H0×距离,其中H0是哈勃常数。哈勃定律认为,星系可见的退行速度与它们和地球的距离成正比。这个关系是大爆炸理论解释宇宙膨胀思想的一个关键证据。
1702635537
1702635538
1702635539
1702635540
1702635541 图14–2 退行速度和与地球距离关系的散点图
1702635542
1702635543 散点图
1702635544
1702635545 散点图展示了在同一个个体上度量到的两个数值变量之间的关系。其中一个变量的值标示在横轴上,另一个变量的值标示在纵轴上。每一组数值对应图中的一个点,点的位置由该个体的两个变量值决定。
1702635546
1702635547 如果有解释变量,一定要把解释变量标示在散点图的横轴(x轴)上,我们通常把解释变量叫作x,而把反应变量叫作y。如果两个变量间没有“解释—反应”这样的区别,那么把哪个变量标示在横轴上都可以。
1702635548
1702635549 例2 健康与财富
1702635550
1702635551 图14–3的散点图是根据世界银行的数据绘制的,图中的点代表全世界每一个提供数据的国家。解释变量是对国家富裕程度的一种量度,即人均GDP,通常以美元为单位;反应变量是人的预期寿命。
1702635552
1702635553 我们预计富裕国家的人应该寿命更长些。散点图的整体形态的确反映了这种情况,但两个变量间的关系表现为有趣的形状。当人均GDP增加时,起初预期寿命急速增加,但是后来呈平稳状态。像美国这样的富国的民众,并不比比较贫穷但非最贫穷国家的人预期寿命更长。有些国家,比如哥斯达黎加,其民众的预期寿命甚至超过美国。
1702635554
1702635555
1702635556
1702635557
1702635558 图14–3 各国民众预期寿命和该国人均GDP关系的散点图
1702635559
1702635560 三个非洲国家是异常值,它们的民众预期寿命与邻国差不多,但人均GDP较高,它们分别是产油国赤道几内亚、加蓬,以及出产钻石的塞拉利昂。这可能是因为出口矿产的收入主要流入了少数人的腰包从而推高了人均GDP,但并没有对普通民众的收入或预期寿命产生多大的影响。换言之,人均GDP是一个平均数,我们知道收入的平均数可能远高于收入的中位数。
1702635561
[ 上一页 ]  [ :1.702635512e+09 ]  [ 下一页 ]