打字猴:1.70262909e+09
1702629090
1702629091
1702629092 图6–4 神经元网络分析
1702629093
1702629094 而逻辑回归(没有交互作用)则是单纯地通过输入的数据来对结果进行直接预测(图6–5),所以数据挖掘专家们才会认为回归分析是过于陈旧的“老古董”。
1702629095
1702629096
1702629097
1702629098
1702629099 图6–5 逻辑回归分析
1702629100
1702629101 如果使用支持向量机的话,甚至可以用曲线的方法进行分类。
1702629102
1702629103 图6–6是假设只能通过“高度”与“重量”这两个数据对椅子和桌子进行区分的情况,椅子由于靠背的有无而被分为两种“高度”。因此,桌子比没有靠背的椅子高,却比有靠背的椅子低。
1702629104
1702629105 在这种情况下使用逻辑回归进行分类的话,根据虚线所示的两边进行究竟是椅子还是桌子的判断,结果发现两边各出现一个分类错误的例子。这时可以使用支持向量机的方法进行如图6–7那样的更加准确的曲线分类。
1702629106
1702629107
1702629108
1702629109
1702629110 图6–6 逻辑回归的分类
1702629111
1702629112 不管是神经元网络还是支持向量机,只要是针对曲线或者有多个变量存在的复杂关联性数据时,都比回归模型更加准确和高效。
1702629113
1702629114 在“预测”中发挥重大作用的数据挖掘
1702629115
1702629116 不过,能够享受上述优点的只有以分类和预测为目的的情况。
1702629117
1702629118
1702629119
1702629120
1702629121 图6–7 支持向量机的分类
1702629122
1702629123 单纯的逻辑回归本来就能够掌握简单的解释变量和结果变量之间的关联性。图6–5的逻辑回归用比值比来表示的话,如图6–8所示。
1702629124
1702629125 某个家具是椅子的概率在宽度和高度发生变化时产生改变的概率并不大,但是,接地数每增加一个比值比就会增加2倍,重量每增加1千克比值比则减少1/2。只要掌握了这些条件,谁都能够判断出“重量轻且接地数多的家具”是椅子的概率比较高吧。而宽度和高度之所以无法作为参考条件,大概是因为有很宽的椅子存在以及椅子分为有靠背和无靠背的缘故。
1702629126
1702629127
1702629128
1702629129
1702629130 图6–8 通过逻辑回归得到的比值比
1702629131
1702629132 与之相比,神经元网络的复杂箭头表示了何种程度的关联性,支持向量机的曲线表示怎样的公式,对人类来说就没有那么一目了然。这样的话,不管预测精度有多高,都会使人感到困惑。
1702629133
1702629134 比如,在市场调查中得到了“来店频率高、对品牌拥有好感的顾客消费额也高”这样的结果,那么就可以进行刺激顾客频繁来店的促销活动,或者进行提高品牌好感度的宣传广告。但是,如果你拿出了一个“虽然不知道计算的过程,但能够准确预测顾客消费额的方法”,那么对实际行动没有任何指导意义。
1702629135
1702629136 当然,像预测顾客可能购买的商品,或者事先发现可能退会的顾客等,这种以预测本身为目的的情况下,数据挖掘是非常有效的。虽然数据挖掘的方法与逻辑回归的预测精度相比,经常只有百分之几的误差,但如果这百分之几的误差与非常巨大的利益有着紧密联系,还是应该选择数据挖掘的方法。
1702629137
1702629138 在并非以预测为目的,而是希望知道预测模型今后应该怎么做,回归模型就会发挥巨大的作用。在理解上述这些不同点的基础上,根据不同的情况选择最合适的方法,是21世纪的统计学家们所必须具备的素质。
1702629139
[ 上一页 ]  [ :1.70262909e+09 ]  [ 下一页 ]