打字猴:1.70263562e+09
1702635620
1702635621 如果你还没试过,就用这些数据画一个散点图。其形式、方向和相关性强度如何?有无异常点?
1702635622
1702635623 相关系数
1702635624
1702635625 散点图可以呈现出两个变量之间相关关系的方向、形式和强度。当点的分布十分接近直线时,相关性就很强,而当点在直线附近很分散时,相关性就弱。光用眼睛看,不容易判断出相关性有多强。图14–6的两个散点图展示的是同一组数据,只是右边的图坐标涵盖范围较大,所以点变得比较靠近,似乎显示出较强的相关性。只要改一改散点图坐标轴上的刻度,或者点和点之间的空白处的大小,我们的眼睛就可能会上当。所以,我们得遵照数据分析的一般策略,除了图以外还要加上数值量度,“相关系数”(correlation)就是我们要用的量度。
1702635626
1702635627
1702635628
1702635629
1702635630 图14–6 同一组数据的两幅散点图。右图因为四周围空白较多,使得两个变量之间的相关性看上去比较强
1702635631
1702635632 相关系数
1702635633
1702635634 相关系数描述两个数值变量之间线性相关关系的方向和强度。相关系数通常用符号r表示。
1702635635
1702635636 要计算相关系数得下点儿功夫。通常来说,你可以把r看成按计算器的某个键或在电脑中输入某个指令就可以得到的值,你只需要了解它的性质和用处。但是,如果知道r值是如何用数据计算出来的,对于了解相关系数的性质和用处将会有很大的帮助,所以我们还是举例告诉你r值怎么计算。
1702635637
1702635638 例4 计算相关系数
1702635639
1702635640 我们有n个个体的两种变量x和y的数据。以例3的化石数据来说,x是股骨长度,y是肱骨长度,n=5。
1702635641
1702635642 第一步:分别求出x和y的平均数和标准差。根据化石数据,用计算器可以算出:
1702635643
1702635644
1702635645
1702635646
1702635647 我们用sx和sy这样的符号,是为了提醒自己这里有两个不同的标准差,一个对应变量x,一个对应变量y。
1702635648
1702635649 第二步:用第一步得到的平均数和标准差,求出每个x和y的标准分。
1702635650
1702635651
1702635652
1702635653
1702635654 第三步:相关系数就是标准分的乘积的平均值。我们在此用n–1作为除数求平均数:
1702635655
1702635656
1702635657
1702635658
1702635659 例4中的计算过程,可以用以下的简化代数式表示:
1702635660
1702635661
1702635662
1702635663
1702635664
1702635665 其中这个符号代表“求和”。
1702635666
1702635667 了解相关系数的意义
1702635668
1702635669 比计算r值(这是技术性工作)更重要的是,了解相关系数怎么度量相关性。以下是相关要点:
[ 上一页 ]  [ :1.70263562e+09 ]  [ 下一页 ]