打字猴:1.702629126e+09

1702629126

1702629127

1702629128

1702629129

1702629130 图6–8 通过逻辑回归得到的比值比

1702629131

1702629132 与之相比，神经元网络的复杂箭头表示了何种程度的关联性，支持向量机的曲线表示怎样的公式，对人类来说就没有那么一目了然。这样的话，不管预测精度有多高，都会使人感到困惑。

1702629133

1702629134 比如，在市场调查中得到了“来店频率高、对品牌拥有好感的顾客消费额也高”这样的结果，那么就可以进行刺激顾客频繁来店的促销活动，或者进行提高品牌好感度的宣传广告。但是，如果你拿出了一个“虽然不知道计算的过程，但能够准确预测顾客消费额的方法”，那么对实际行动没有任何指导意义。

1702629135

1702629136 当然，像预测顾客可能购买的商品，或者事先发现可能退会的顾客等，这种以预测本身为目的的情况下，数据挖掘是非常有效的。虽然数据挖掘的方法与逻辑回归的预测精度相比，经常只有百分之几的误差，但如果这百分之几的误差与非常巨大的利益有着紧密联系，还是应该选择数据挖掘的方法。

1702629137

1702629138 在并非以预测为目的，而是希望知道预测模型今后应该怎么做，回归模型就会发挥巨大的作用。在理解上述这些不同点的基础上，根据不同的情况选择最合适的方法，是21世纪的统计学家们所必须具备的素质。

1702629139

1702629140 看穿一切数字的统计学 [:1702626758]

1702629141 27 分析语言的文本挖掘：莎士比亚真的存在吗？

1702629142

1702629143

1702629144

1702629145 莎士比亚就是培根？

1702629146

1702629147 文本挖掘，简单地说就是对用自然语言书写的文章进行统计学分析。所谓自然语言，就是像汉语、英语、日语那样自然地随文化演化出来的语言。

1702629148

1702629149 古往今来，对文章的分析从来都用不到数学，而是完全依靠对历史资料的研究、哲学的思考以及文学的想象力来支撑的。在我周围也不乏仅仅因为“对数字很头疼”的理由就选择进入文学系的人，就算他们对数字很头疼，也一样可以对莎士比亚的戏曲表现和本·琼森的诗歌进行比较与讨论。

1702629150

1702629151 但实际上，早在19世纪人们就已经将数学概念引入文章分析当中。也就是说，通过对文章中出现的单词种类和长度，以及一篇文章中包含的平均单词数等数据进行统计，可以尝试掌握文献的特征。这种研究被称为文献计量学。

1702629152

1702629153 初期的文献计量学研究者们对莎士比亚的文本进行了分析。不过，这并不是为了探寻莎士比亚戏曲魅力的秘密，而是为了搞清楚“莎士比亚究竟是不是弗朗西斯·培根”这个在当时被传得沸沸扬扬的话题。

1702629154

1702629155 “莎士比亚这个人物真的存在吗”、“是不是谁的笔名”之类的议论，从18世纪开始就沸沸扬扬。因为莎士比亚出身于平民，所以关于他的历史资料少之又少，而他对贵族的文化和教养却描写得十分细致，因此人们怀疑他的作品也许是另外一位受过良好教育的人创作的。

1702629156

1702629157 而弗朗西斯·培根是与莎士比亚同时代出生的伟大哲学家，他摒弃了偏见和先入为主的观点，证明了通过观察与试验寻找真理的归纳推理的重要性，毫无疑问是统计学家们最尊敬的人物。他的文学素养和教育程度都很高，完全是一个有能力写出莎士比亚戏曲的人。

1702629158

1702629159 但是，对两者的文章进行比较之后，却发现平均单词长度和一篇文章中单词的数目都不一样（图6–9）。虽然戏曲和哲学书籍的文体确实不一样，但是能够得出“没有人们议论的那种特别的相似性”这一结论，也是一个很大的进步了。

1702629160

1702629161

1702629162

1702629163

1702629164 图6–9 莎士比亚与培根所用单词的字数区别

1702629165

1702629166 文本挖掘的王道：“语素分析”

1702629167

1702629168 19世纪，要对整本书的单词数和文字数进行计算，恐怕是一项非常痛苦的工作。但是，在计算机技术十分发达的今天要进行同样的工作却十分轻松。现在有很多开源的语素分析工具，只要使用这些工具，就可以非常简单地对文章中单词的使用频率进行分析，还可以对动词和名词进行统计，从而分辨两篇文章之间使用单词的类似性。

1702629169

1702629170 一般情况下，语素分析指的是将文章分解为单词，然后统计各个单词分别出现过多少次的计算过程。在语言学中，“语素”指的是比单词更加短小，“在语言中拥有意义的最小单位”。比如说，“不稳定的”这个形容动词，其中“不”是否定助词，“稳定”和“的”属于形容动词，但是如果真的将这个单词如此细致地分为3个语素，那么反倒会让人完全无法理解其中的意思，所以绝大多数的语素分析工具都只是将文章分解为单词。

1702629171

1702629172 为了进行语素分析，收集了单词信息的词典数据是必不可少的。基本的计算逻辑就是从文章内找出与词典数据内的单词相一致的内容，找到后进行标记。

1702629173

1702629174 让我们通过谷歌日语输入法的开发者之一工藤拓发明的MeCab语素分析工具，来对“あえて断言しよう。あらゆる学問のなかで統計学が最强の学問であると。（我敢断言。在所有的学问之中统计学是最强的学问）”这句话的语素进行分析，得到的结果如图6–10所示。

1702629175

[ 上一页 ] [ :1.702629126e+09 ] [ 下一页 ]