1702629110
图6–6 逻辑回归的分类
1702629111
1702629112
不管是神经元网络还是支持向量机,只要是针对曲线或者有多个变量存在的复杂关联性数据时,都比回归模型更加准确和高效。
1702629113
1702629114
在“预测”中发挥重大作用的数据挖掘
1702629115
1702629116
不过,能够享受上述优点的只有以分类和预测为目的的情况。
1702629117
1702629118
1702629119
1702629120
1702629121
图6–7 支持向量机的分类
1702629122
1702629123
单纯的逻辑回归本来就能够掌握简单的解释变量和结果变量之间的关联性。图6–5的逻辑回归用比值比来表示的话,如图6–8所示。
1702629124
1702629125
某个家具是椅子的概率在宽度和高度发生变化时产生改变的概率并不大,但是,接地数每增加一个比值比就会增加2倍,重量每增加1千克比值比则减少1/2。只要掌握了这些条件,谁都能够判断出“重量轻且接地数多的家具”是椅子的概率比较高吧。而宽度和高度之所以无法作为参考条件,大概是因为有很宽的椅子存在以及椅子分为有靠背和无靠背的缘故。
1702629126
1702629127
1702629128
1702629129
1702629130
图6–8 通过逻辑回归得到的比值比
1702629131
1702629132
与之相比,神经元网络的复杂箭头表示了何种程度的关联性,支持向量机的曲线表示怎样的公式,对人类来说就没有那么一目了然。这样的话,不管预测精度有多高,都会使人感到困惑。
1702629133
1702629134
比如,在市场调查中得到了“来店频率高、对品牌拥有好感的顾客消费额也高”这样的结果,那么就可以进行刺激顾客频繁来店的促销活动,或者进行提高品牌好感度的宣传广告。但是,如果你拿出了一个“虽然不知道计算的过程,但能够准确预测顾客消费额的方法”,那么对实际行动没有任何指导意义。
1702629135
1702629136
当然,像预测顾客可能购买的商品,或者事先发现可能退会的顾客等,这种以预测本身为目的的情况下,数据挖掘是非常有效的。虽然数据挖掘的方法与逻辑回归的预测精度相比,经常只有百分之几的误差,但如果这百分之几的误差与非常巨大的利益有着紧密联系,还是应该选择数据挖掘的方法。
1702629137
1702629138
在并非以预测为目的,而是希望知道预测模型今后应该怎么做,回归模型就会发挥巨大的作用。在理解上述这些不同点的基础上,根据不同的情况选择最合适的方法,是21世纪的统计学家们所必须具备的素质。
1702629139
1702629141
27 分析语言的文本挖掘:莎士比亚真的存在吗?
1702629142
1702629143
1702629144
1702629145
莎士比亚就是培根?
1702629146
1702629147
文本挖掘,简单地说就是对用自然语言书写的文章进行统计学分析。所谓自然语言,就是像汉语、英语、日语那样自然地随文化演化出来的语言。
1702629148
1702629149
古往今来,对文章的分析从来都用不到数学,而是完全依靠对历史资料的研究、哲学的思考以及文学的想象力来支撑的。在我周围也不乏仅仅因为“对数字很头疼”的理由就选择进入文学系的人,就算他们对数字很头疼,也一样可以对莎士比亚的戏曲表现和本·琼森的诗歌进行比较与讨论。
1702629150
1702629151
但实际上,早在19世纪人们就已经将数学概念引入文章分析当中。也就是说,通过对文章中出现的单词种类和长度,以及一篇文章中包含的平均单词数等数据进行统计,可以尝试掌握文献的特征。这种研究被称为文献计量学。
1702629152
1702629153
初期的文献计量学研究者们对莎士比亚的文本进行了分析。不过,这并不是为了探寻莎士比亚戏曲魅力的秘密,而是为了搞清楚“莎士比亚究竟是不是弗朗西斯·培根”这个在当时被传得沸沸扬扬的话题。
1702629154
1702629155
“莎士比亚这个人物真的存在吗”、“是不是谁的笔名”之类的议论,从18世纪开始就沸沸扬扬。因为莎士比亚出身于平民,所以关于他的历史资料少之又少,而他对贵族的文化和教养却描写得十分细致,因此人们怀疑他的作品也许是另外一位受过良好教育的人创作的。
1702629156
1702629157
而弗朗西斯·培根是与莎士比亚同时代出生的伟大哲学家,他摒弃了偏见和先入为主的观点,证明了通过观察与试验寻找真理的归纳推理的重要性,毫无疑问是统计学家们最尊敬的人物。他的文学素养和教育程度都很高,完全是一个有能力写出莎士比亚戏曲的人。
1702629158
1702629159
但是,对两者的文章进行比较之后,却发现平均单词长度和一篇文章中单词的数目都不一样(图6–9)。虽然戏曲和哲学书籍的文体确实不一样,但是能够得出“没有人们议论的那种特别的相似性”这一结论,也是一个很大的进步了。
[
上一页 ]
[ :1.70262911e+09 ]
[
下一页 ]