1702628451
1702628452
另外,来店次数的值也属于连续值,如果想要对“来店次数多的人消费额越高”这一假设进行比较,可以将来店次数作为解释变量,消费额作为结果变量进行回归分析,然后分析回归系数的估计值和置信区间以及p值即可。
1702628453
1702628454
而像“是否消费”以及“是否来店”等数据,只需要两个数值“是”或“否”就能够表示清楚。要想将此作为结果变量在两组或者更多组之间(比如,以10岁为一个年龄层的分组)进行比较的话,只需要通过统计表将各组的购买率和来店次数等记录下来,然后分析通过卡方检验求得的p值即可。
1702628455
1702628456
比较麻烦的是既不属于连续值也不属于二值,而是以“按照某种规则进行分类”作为结果变量的情况,不过,这在实际应用中也可以当作二值或者连续值来进行计算。
1702628457
1702628458
比如说,拥有“完全没有”、“几乎没有”、“偶尔”、“经常”这4个选项的调查表中,存在着递进的顺序。所以,可以将这里的前两项与后两项分成两类,当作二值变量进行计算。就算选项无法平均分成两份,那么将“经常”作为单独一类,其他所有选项作为另外一类进行二值计算。此外,将全部数值当作连续值进行分析的方法,在实际应用中也经常出现。
1702628459
1702628460
不过,像日本民众支持的政党这样的分类,恐怕就不像上述调查表的结果那么明确地富有方向性和递进关系了。
1702628461
1702628462
虽然可以用“自由主义”的尺度通过直觉进行排列,但是对于政策领域来说,这种顺序是可以颠倒的,而且日本民众对政党的支持也不只由“自由主义”这唯一的条件决定。因此,这里必须将“有本质区别的分类”作为变量,比如“是否支持民主党”以及“是否支持自民党”,将数值换算成对不同政党的支持这样一个二值,就可以以此作为进行分析的突破口。
1702628463
1702628464
对3个分类以上的变量进行分析确实比较麻烦,可即便如此,“仅仅通过这一张图表就可以对几乎所有数据之间的关联性进行分析,并且对将来的结果进行预测”,也不得不说,这是一个非常简单且有效的方法。
1702628465
1702628466
任何方法都应该得到相同的p值
1702628467
1702628468
更进一步来说,比如图表最右边“对多个解释变量同时进行比较”的时候所使用的方法,也可以应用在只有1个解释变量的情况,在这种情况下解释变量不管是各个分组间进行比较,还是通过连续值的多少进行比较都可以。也就是说,在应该使用T检验的时候使用了多元回归分析(如果在分析轴只有1个的情况下就不能称为多元回归分析,而应该称为回归分析),或者应该使用卡方检验的时候使用了逻辑回归分析,最后都会得到相同的p值。所以,对关联性进行分析的方法大体上都可以称为广义的回归分析。
1702628469
1702628470
本来应该用数学公式来证明上述结果的一致性,但T检验和回归分析结果的一致性就算不用数学公式也同样可以证明。
1702628471
1702628472
图5–5表示的是通过T检验计算两组数据间平均值的差,是否属于误差范围的统计方法。将两组分为“看到广告的组”和“没看到广告的组”,对两组数据间消费额平均值的差进行分析。
1702628473
1702628474
1702628475
1702628476
1702628477
图5–5 T检验的思考方法
1702628478
1702628479
黑点表示的是各组顾客的消费额,①②表示的是各组消费额的平均值。T检验所要分析的平均值就是①②之间“高度”的区别,如果这一结果超出数据随机性所导致的误差范围,就说明广告宣传是有效的。
1702628480
1702628481
那么,对同样数据进行回归分析,又会怎样呢?图5–6就属于这种情况。为了进行回归分析,必须将两者都以数字表示。为了便于理解,我们将“没看到广告”的设为0,“看到广告”的设为1。
1702628482
1702628483
1702628484
1702628485
1702628486
图5–6 回归分析的思考方法
1702628487
1702628488
正如之前说过的那样,回归直线是“穿过数据中心的直线”。所以,这条直线要穿过两组数据的平均值所在的点。那么,由此得到的斜率就应该是“坐标的纵长除以坐标的横长”。
1702628489
1702628490
其中,“坐标的纵长”就是两组数据间“平均值①②的差”。而“坐标的横长”则很明显就是1。“平均值的差”除以1得到的值还是“平均值的差”,也就是说当两组数据间的区别用0和1来表示的话,“平均值的差”与“回归系数”是完全相同的。
1702628491
1702628492
像这样将原本并非数值的“两组”或者“二值变量”用0和1表现的方法称为虚拟变量,在很多论文中十分常见。在回归分析的文章中,如果出现“男性虚拟”或者“高龄者虚拟”的字样,意思就是“男性为1、女性为0”或者“高龄者为1、其他为0”。比如男性虚拟的回归系数为5.2,意思就是“与女性相比,男性只有5.2的可能结果变量较大”,如果男性虚拟的回归系数为–4.1,那么意思就是“与女性相比,男性只有4.1的可能结果变量较小”。
1702628493
1702628494
也许有聪明的读者会发现,除了要考虑“平均值标准差”和“回归系数”是否一致之外,还要考虑误差与随机性。不过,考虑这些都是没有问题的。
1702628495
1702628496
因为通过数据计算得出的各组之间的平均值、回归系数,全都拥有相同T分布的随机性,早已被费希尔所证明了。如果根据同样的数据推测出本质相同的数值(平均值的差和回归系数),而且理论上的随机性也相同的话,那么最终的结果当然也会完全相同。
1702628497
1702628498
容易混淆的术语:广义线性模型
1702628499
1702628500
我之所以能够仅仅用这一节的篇幅就讲完一整本基础统计学教科书的内容,完全是因为广义线性模型太过完美。
[
上一页 ]
[ :1.702628451e+09 ]
[
下一页 ]