1702628680
高中A 高中B 男生(人)
1702628681
1702628682
总得分 11 200 1 800 人数 160 40 平均分 70 45 女生(人)
1702628683
1702628684
总得分 3 000 11 200 人数 40 160 平均分 75 70 图5–10 稍微改变测试结果的话
1702628685
1702628686
英语中将这种相乘效果称为interaction,统计学中有一个术语叫作“交互作用”。
1702628687
1702628688
使用回归模型时最需要注意的一点,就是这种“交互作用”是否真实存在。不过,就算实际的交互作用并不可靠,仍然可以对包含在回归模型中的回归系数进行推测。
1702628689
1702628690
也就是说,不管是连续值还是虚拟变量,只要创造两个解释变量各自的回归系数,以及与这两个变量相关的解释变量(被称为交互作用项),就可以对回归系数同时进行推测,也能够推测这个交互作用的影响。
1702628691
1702628692
将上述内容整理后如表5–9所示。
1702628693
1702628694
表5–9 交互作用的影响
1702628695
1702628696
性别男生虚拟 高中B虚拟 男生×高中B交互作用 高中A的男生 1 0 0 高中A的女生 0 0 0 高中B的男生 1 1 1 高中B的女生 0 1 0 这个交互作用的1和0可以分别看成是“高中B且为男生”与“除此之外”。这表示仅仅通过男女间的平均差异无法对高中间的平均差异进行说明的情况。而根据虚拟变量的假设方法,就算设定“高中A且为女生”的交互作用项也对估计没有任何影响,最重要的一点在于,通过导入这个交互作用项,两所高中×两个性别组合所产生的全部4个分组间的平均值的差,就全部可以通过回归系数表示出来(图5–11)。
1702628697
1702628698
1702628699
1702628700
1702628701
图5–11 两所高中×两个性别的关系性
1702628702
1702628703
只要像这样建立包括交互作用项的回归模型,就可以降低因为表面上的回归系数而导致做出错误判断的概率。
1702628704
1702628705
不知如何是好时的变量选择
1702628706
1702628707
但是,如果为了追求准确性而对所有的交互作用项进行分析,则会陷入不知如何是好的状态。
1702628708
1702628709
如果有两个解释变量,在它们之间增加1个交互作用项的话没有什么问题;如果有20个解释变量,那么它们之间的交互作用项就是20×19÷2=190个。
1702628710
1702628711
在样本数有限的情况下,像这样进行大量的回归系数估计会出现极大的误差,可是就算通过“大数据”实现无数样本,在面对超过100个的回归系数时,仅凭人类的智慧很难对其进行解释。
1702628712
1702628713
每个人都是独一无二的,这可以说是人类最大的优点。但当我们想对数据进行分析时,如果发现每个数据都是独一无二的,那就完全无从下手了。尽可能简单地找到使结果变量出现区别的数据,才是统计学应该发挥的作用。
1702628714
1702628715
因此,人们研究出一种包括交互作用项在内自动选出解释变量构筑回归模型的变量选择法。另外人们还开发出几个指标,用于判断什么样的解释变量或者包含交互作用项的回归模型最合适。其中最具代表性的一个,就是原统计数理研究所所长赤池弘次在1973年发表的赤池信息量准则。
1702628716
1702628717
但是,什么样的回归模型在实际情况中是最为合适的,并不单纯由数理性质所决定。
1702628718
1702628719
只要选择适当的变量,正确考虑所有需要调整的条件,就一定可以通过回归模型进行“公平的比较”。但是,对于如何获得适当的回归模型这一点,除了统计学家之外,还需要与最终结果有紧密联系的利益相关者们经过谨慎研究讨论后再作决定。
1702628720
1702628721
无限接近随机化的“倾向指数”
1702628722
1702628723
1983年,罗森堡和鲁宾这两位统计学家提出了倾向指数的统计方法。这一方法在随机化无法或者难以确定因果关系时能够发挥非常巨大的作用。
1702628724
1702628725
所谓倾向指数,就是判断拥有二值的解释变量“究竟应该是哪一个”的概率。通过前面介绍过的逻辑回归方法,就可以非常简单地得出倾向指数。
1702628726
1702628727
比如我们在前文中提到过,想要证明吸烟与肺癌是否有确实的因果关系非常困难。虽然通过随机对照试验能够实现公平的比较,但这种研究在伦理上却是无法实现的。
1702628728
1702628729
于是,我们只能选择“拥有同样条件的人群”作为比较对象,但是需要考虑的条件越多,数据量就越大。最终就会出现前面提到过的,不知如何是好的变量选择。
[
上一页 ]
[ :1.70262868e+09 ]
[
下一页 ]