打字猴:1.702629102e+09

1702629102

1702629103 图6–6是假设只能通过“高度”与“重量”这两个数据对椅子和桌子进行区分的情况，椅子由于靠背的有无而被分为两种“高度”。因此，桌子比没有靠背的椅子高，却比有靠背的椅子低。

1702629104

1702629105 在这种情况下使用逻辑回归进行分类的话，根据虚线所示的两边进行究竟是椅子还是桌子的判断，结果发现两边各出现一个分类错误的例子。这时可以使用支持向量机的方法进行如图6–7那样的更加准确的曲线分类。

1702629106

1702629107

1702629108

1702629109

1702629110 图6–6 逻辑回归的分类

1702629111

1702629112 不管是神经元网络还是支持向量机，只要是针对曲线或者有多个变量存在的复杂关联性数据时，都比回归模型更加准确和高效。

1702629113

1702629114 在“预测”中发挥重大作用的数据挖掘

1702629115

1702629116 不过，能够享受上述优点的只有以分类和预测为目的的情况。

1702629117

1702629118

1702629119

1702629120

1702629121 图6–7 支持向量机的分类

1702629122

1702629123 单纯的逻辑回归本来就能够掌握简单的解释变量和结果变量之间的关联性。图6–5的逻辑回归用比值比来表示的话，如图6–8所示。

1702629124

1702629125 某个家具是椅子的概率在宽度和高度发生变化时产生改变的概率并不大，但是，接地数每增加一个比值比就会增加2倍，重量每增加1千克比值比则减少1/2。只要掌握了这些条件，谁都能够判断出“重量轻且接地数多的家具”是椅子的概率比较高吧。而宽度和高度之所以无法作为参考条件，大概是因为有很宽的椅子存在以及椅子分为有靠背和无靠背的缘故。

1702629126

1702629127

1702629128

1702629129

1702629130 图6–8 通过逻辑回归得到的比值比

1702629131

1702629132 与之相比，神经元网络的复杂箭头表示了何种程度的关联性，支持向量机的曲线表示怎样的公式，对人类来说就没有那么一目了然。这样的话，不管预测精度有多高，都会使人感到困惑。

1702629133

1702629134 比如，在市场调查中得到了“来店频率高、对品牌拥有好感的顾客消费额也高”这样的结果，那么就可以进行刺激顾客频繁来店的促销活动，或者进行提高品牌好感度的宣传广告。但是，如果你拿出了一个“虽然不知道计算的过程，但能够准确预测顾客消费额的方法”，那么对实际行动没有任何指导意义。

1702629135

1702629136 当然，像预测顾客可能购买的商品，或者事先发现可能退会的顾客等，这种以预测本身为目的的情况下，数据挖掘是非常有效的。虽然数据挖掘的方法与逻辑回归的预测精度相比，经常只有百分之几的误差，但如果这百分之几的误差与非常巨大的利益有着紧密联系，还是应该选择数据挖掘的方法。

1702629137

1702629138 在并非以预测为目的，而是希望知道预测模型今后应该怎么做，回归模型就会发挥巨大的作用。在理解上述这些不同点的基础上，根据不同的情况选择最合适的方法，是21世纪的统计学家们所必须具备的素质。

1702629139

1702629140 看穿一切数字的统计学 [:1702626758]

1702629141 27 分析语言的文本挖掘：莎士比亚真的存在吗？

1702629142

1702629143

1702629144

1702629145 莎士比亚就是培根？

1702629146

1702629147 文本挖掘，简单地说就是对用自然语言书写的文章进行统计学分析。所谓自然语言，就是像汉语、英语、日语那样自然地随文化演化出来的语言。

1702629148

1702629149 古往今来，对文章的分析从来都用不到数学，而是完全依靠对历史资料的研究、哲学的思考以及文学的想象力来支撑的。在我周围也不乏仅仅因为“对数字很头疼”的理由就选择进入文学系的人，就算他们对数字很头疼，也一样可以对莎士比亚的戏曲表现和本·琼森的诗歌进行比较与讨论。

1702629150

1702629151 但实际上，早在19世纪人们就已经将数学概念引入文章分析当中。也就是说，通过对文章中出现的单词种类和长度，以及一篇文章中包含的平均单词数等数据进行统计，可以尝试掌握文献的特征。这种研究被称为文献计量学。

[ 上一页 ] [ :1.702629102e+09 ] [ 下一页 ]