打字猴:1.702628694e+09
1702628694 表5–9 交互作用的影响
1702628695
1702628696     性别男生虚拟   高中B虚拟   男生×高中B交互作用   高中A的男生   1   0   0   高中A的女生   0   0   0   高中B的男生   1   1   1   高中B的女生   0   1   0  这个交互作用的1和0可以分别看成是“高中B且为男生”与“除此之外”。这表示仅仅通过男女间的平均差异无法对高中间的平均差异进行说明的情况。而根据虚拟变量的假设方法,就算设定“高中A且为女生”的交互作用项也对估计没有任何影响,最重要的一点在于,通过导入这个交互作用项,两所高中×两个性别组合所产生的全部4个分组间的平均值的差,就全部可以通过回归系数表示出来(图5–11)。
1702628697
1702628698
1702628699
1702628700
1702628701 图5–11 两所高中×两个性别的关系性
1702628702
1702628703 只要像这样建立包括交互作用项的回归模型,就可以降低因为表面上的回归系数而导致做出错误判断的概率。
1702628704
1702628705 不知如何是好时的变量选择
1702628706
1702628707 但是,如果为了追求准确性而对所有的交互作用项进行分析,则会陷入不知如何是好的状态。
1702628708
1702628709 如果有两个解释变量,在它们之间增加1个交互作用项的话没有什么问题;如果有20个解释变量,那么它们之间的交互作用项就是20×19÷2=190个。
1702628710
1702628711 在样本数有限的情况下,像这样进行大量的回归系数估计会出现极大的误差,可是就算通过“大数据”实现无数样本,在面对超过100个的回归系数时,仅凭人类的智慧很难对其进行解释。
1702628712
1702628713 每个人都是独一无二的,这可以说是人类最大的优点。但当我们想对数据进行分析时,如果发现每个数据都是独一无二的,那就完全无从下手了。尽可能简单地找到使结果变量出现区别的数据,才是统计学应该发挥的作用。
1702628714
1702628715 因此,人们研究出一种包括交互作用项在内自动选出解释变量构筑回归模型的变量选择法。另外人们还开发出几个指标,用于判断什么样的解释变量或者包含交互作用项的回归模型最合适。其中最具代表性的一个,就是原统计数理研究所所长赤池弘次在1973年发表的赤池信息量准则。
1702628716
1702628717 但是,什么样的回归模型在实际情况中是最为合适的,并不单纯由数理性质所决定。
1702628718
1702628719 只要选择适当的变量,正确考虑所有需要调整的条件,就一定可以通过回归模型进行“公平的比较”。但是,对于如何获得适当的回归模型这一点,除了统计学家之外,还需要与最终结果有紧密联系的利益相关者们经过谨慎研究讨论后再作决定。
1702628720
1702628721 无限接近随机化的“倾向指数”
1702628722
1702628723 1983年,罗森堡和鲁宾这两位统计学家提出了倾向指数的统计方法。这一方法在随机化无法或者难以确定因果关系时能够发挥非常巨大的作用。
1702628724
1702628725 所谓倾向指数,就是判断拥有二值的解释变量“究竟应该是哪一个”的概率。通过前面介绍过的逻辑回归方法,就可以非常简单地得出倾向指数。
1702628726
1702628727 比如我们在前文中提到过,想要证明吸烟与肺癌是否有确实的因果关系非常困难。虽然通过随机对照试验能够实现公平的比较,但这种研究在伦理上却是无法实现的。
1702628728
1702628729 于是,我们只能选择“拥有同样条件的人群”作为比较对象,但是需要考虑的条件越多,数据量就越大。最终就会出现前面提到过的,不知如何是好的变量选择。
1702628730
1702628731 鲁宾和罗森堡发现,倾向指数在对同类群体进行比较的时候,“其他条件”与“是否吸烟”的关联性会使“是否吸烟”与“肺癌”的关联性出现偏差。
1702628732
1702628733 假设女性比男性的吸烟率高,居住在城市的居民比居住在农村的居民吸烟率高,而且女性比男性、城市居民比农村居民罹患肺癌的可能性高,那么在这种情况下,就算吸烟本身与肺癌没有任何关系,数据也会显示吸烟是导致肺癌的原因。
1702628734
1702628735 不过,这是因为诸多条件的不同对吸烟率造成影响所导致的结果。相反,只要能够确定吸烟率相同的人群,那么诸多条件就不会对吸烟率造成任何影响。也就是说,只要推测出影响吸烟率的条件,就能够实现和随机对照试验相同的公平比较。
1702628736
1702628737 根据同样的倾向指数进行分层比较,也就意味着对“其他条件都表明不吸烟实际上却吸烟的人”与“其他条件都表明吸烟实际上却不吸烟的人”进行比较,这样想或许会更容易理解。
1702628738
1702628739 因为倾向指数可以非常简单地进行无限接近于随机化的因果关系推测,所以除了流行病学领域之外,现在还经常出现在政策与教育领域。倾向指数的统计方法在20世纪八九十年代取得了长足的进步和发展。虽然倾向指数还不能像随机化那样完全排除“导致结果出现巨大误差的因素”,但这也在提醒我们时刻保持谨慎和严密的思考与判断。
1702628740
1702628741 人类已经拥有把握和控制因果关系的技术,只要稍微学习一些统计学的知识,就可以通过对数据的分析做出最佳的判断。接下来的问题,就是如何利用这些知识来创造财富了。
1702628742
1702628743
[ 上一页 ]  [ :1.702628694e+09 ]  [ 下一页 ]