打字猴:1.702628664e+09

1702628664

1702628665 高中A 高中B 男生（人）

1702628666

1702628667 总得分 9 600 2 200 人数 160 40 平均分 60 55 女生（人）

1702628668

1702628669 总得分 3 000 11 200 人数 40 160 平均分 75 70 男女生合计（人）

1702628670

1702628671 总得分 12 600 13 400 人数 200 200 平均分 63 67 但实际上，结果可能并没有那么简单。比如，出现像图5–10那样的情况会怎样呢？

1702628672

1702628673 如果将高中A的5分差距和高中B的25分差距平均一下，那么全体相比还是女生比男生高出15分。

1702628674

1702628675 但实际上，高中B只有男生成绩非常差，如果排除这一因素，实际上男女生之间的差距和高中之间的差距都不那么明显。这就是“没有相乘效果的状态”假设不成立的情况。如果是没有相乘效果的状态，那么高中A和高中B都会有同样的男女分差，而且还能够体现出两所高中男女生各自的分差。

1702628676

1702628677

1702628678

1702628679

1702628680 高中A 高中B 男生（人）

1702628681

1702628682 总得分 11 200 1 800 人数 160 40 平均分 70 45 女生（人）

1702628683

1702628684 总得分 3 000 11 200 人数 40 160 平均分 75 70 图5–10 稍微改变测试结果的话

1702628685

1702628686 英语中将这种相乘效果称为interaction，统计学中有一个术语叫作“交互作用”。

1702628687

1702628688 使用回归模型时最需要注意的一点，就是这种“交互作用”是否真实存在。不过，就算实际的交互作用并不可靠，仍然可以对包含在回归模型中的回归系数进行推测。

1702628689

1702628690 也就是说，不管是连续值还是虚拟变量，只要创造两个解释变量各自的回归系数，以及与这两个变量相关的解释变量（被称为交互作用项），就可以对回归系数同时进行推测，也能够推测这个交互作用的影响。

1702628691

1702628692 将上述内容整理后如表5–9所示。

1702628693

1702628694 表5–9 交互作用的影响

1702628695

1702628696 性别男生虚拟高中B虚拟男生×高中B交互作用高中A的男生 1 0 0 高中A的女生 0 0 0 高中B的男生 1 1 1 高中B的女生 0 1 0 这个交互作用的1和0可以分别看成是“高中B且为男生”与“除此之外”。这表示仅仅通过男女间的平均差异无法对高中间的平均差异进行说明的情况。而根据虚拟变量的假设方法，就算设定“高中A且为女生”的交互作用项也对估计没有任何影响，最重要的一点在于，通过导入这个交互作用项，两所高中×两个性别组合所产生的全部4个分组间的平均值的差，就全部可以通过回归系数表示出来（图5–11）。

1702628697

1702628698

1702628699

1702628700

1702628701 图5–11 两所高中×两个性别的关系性

1702628702

1702628703 只要像这样建立包括交互作用项的回归模型，就可以降低因为表面上的回归系数而导致做出错误判断的概率。

1702628704

1702628705 不知如何是好时的变量选择

1702628706

1702628707 但是，如果为了追求准确性而对所有的交互作用项进行分析，则会陷入不知如何是好的状态。

1702628708

1702628709 如果有两个解释变量，在它们之间增加1个交互作用项的话没有什么问题；如果有20个解释变量，那么它们之间的交互作用项就是20×19÷2=190个。

1702628710

1702628711 在样本数有限的情况下，像这样进行大量的回归系数估计会出现极大的误差，可是就算通过“大数据”实现无数样本，在面对超过100个的回归系数时，仅凭人类的智慧很难对其进行解释。

1702628712

1702628713 每个人都是独一无二的，这可以说是人类最大的优点。但当我们想对数据进行分析时，如果发现每个数据都是独一无二的，那就完全无从下手了。尽可能简单地找到使结果变量出现区别的数据，才是统计学应该发挥的作用。

[ 上一页 ] [ :1.702628664e+09 ] [ 下一页 ]