1702628480
1702628481
那么,对同样数据进行回归分析,又会怎样呢?图5–6就属于这种情况。为了进行回归分析,必须将两者都以数字表示。为了便于理解,我们将“没看到广告”的设为0,“看到广告”的设为1。
1702628482
1702628483
1702628484
1702628485
1702628486
图5–6 回归分析的思考方法
1702628487
1702628488
正如之前说过的那样,回归直线是“穿过数据中心的直线”。所以,这条直线要穿过两组数据的平均值所在的点。那么,由此得到的斜率就应该是“坐标的纵长除以坐标的横长”。
1702628489
1702628490
其中,“坐标的纵长”就是两组数据间“平均值①②的差”。而“坐标的横长”则很明显就是1。“平均值的差”除以1得到的值还是“平均值的差”,也就是说当两组数据间的区别用0和1来表示的话,“平均值的差”与“回归系数”是完全相同的。
1702628491
1702628492
像这样将原本并非数值的“两组”或者“二值变量”用0和1表现的方法称为虚拟变量,在很多论文中十分常见。在回归分析的文章中,如果出现“男性虚拟”或者“高龄者虚拟”的字样,意思就是“男性为1、女性为0”或者“高龄者为1、其他为0”。比如男性虚拟的回归系数为5.2,意思就是“与女性相比,男性只有5.2的可能结果变量较大”,如果男性虚拟的回归系数为–4.1,那么意思就是“与女性相比,男性只有4.1的可能结果变量较小”。
1702628493
1702628494
也许有聪明的读者会发现,除了要考虑“平均值标准差”和“回归系数”是否一致之外,还要考虑误差与随机性。不过,考虑这些都是没有问题的。
1702628495
1702628496
因为通过数据计算得出的各组之间的平均值、回归系数,全都拥有相同T分布的随机性,早已被费希尔所证明了。如果根据同样的数据推测出本质相同的数值(平均值的差和回归系数),而且理论上的随机性也相同的话,那么最终的结果当然也会完全相同。
1702628497
1702628498
容易混淆的术语:广义线性模型
1702628499
1702628500
我之所以能够仅仅用这一节的篇幅就讲完一整本基础统计学教科书的内容,完全是因为广义线性模型太过完美。
1702628501
1702628502
虽然从聂耳达与维达潘最早提出这个对学习者来说简单易懂、一目了然的概念已经过去了40余年,可是这个概念却没有出现在日本的任何一本教科书中,实在让我感到非常遗憾。
1702628503
1702628504
曾经在一次哈佛大学的统计学研讨会上,就有人提出“为什么到目前为止从没有人这样教过统计学呢”。由此可见,这不仅是日本统计学教育所面临的问题。
1702628505
1702628506
聂耳达之所以会提出广义线性模型这个概念,就是因为他发现当时发明的各种各样回归分析的方法实际上采用的都是相同的计算方法。因此,只要我们了解了多重回归和逻辑回归之间的区别,那么今后不管看到什么样的回归分析方法都能够轻而易举地找到其中的规律。
1702628507
1702628508
另外说句题外话,在聂耳达与维达潘提出广义线性模型之前,有一位叫做科恩的统计学家在1968年提出了一般线性模型的概念。
1702628509
1702628510
对于这两个容易混淆的名字,聂耳达本人也承认“应该再想一个更好的名字才对”。
1702628511
1702628512
不过,对于并非统计学专家的读者朋友们来说,没必要对这两个概念的区别过于敏感,只要在见到“一般线性模型”的时候知道也有这个概念,并不是“广义线性模型”的笔误就足够了。
1702628513
1702628515
22 现代统计学的主角:多元回归分析
1702628516
1702628517
1702628518
1702628519
专家常用的统计方法
1702628520
1702628521
通过广义线性模型的方法,对数据间的关联性进行分析推测的方法基本上都可以整理为广义回归分析的一部分。
1702628522
1702628523
这里提到的多元回归分析,就是拥有多个解释变量的回归分析,同时也是在“公平比较”的基础上最重要的统计分析方法。
1702628524
1702628525
也正因为如此,在政府报告和学者的研究论文中,每当对数据进行分析的时候,最常使用的方法就是多元回归分析以及逻辑回归。可以说,多元回归分析是现代统计学的主角。只要掌握了这种方法,你也可以与统计学专家进行对等的讨论。
1702628526
1702628527
那么,为什么通过多元回归分析和逻辑回归,就能够实现“公平的比较”呢?
1702628528
1702628529
有一种由于无法进行“公平的比较”导致对数据做出错误判断的情况,被称为辛普森悖论。之所以叫这个名字,是因为这个问题最初就是辛普森提出来的。
[
上一页 ]
[ :1.70262848e+09 ]
[
下一页 ]