打字猴:1.70262914e+09

1702629140 看穿一切数字的统计学 [:1702626758]

1702629141 27 分析语言的文本挖掘：莎士比亚真的存在吗？

1702629142

1702629143

1702629144

1702629145 莎士比亚就是培根？

1702629146

1702629147 文本挖掘，简单地说就是对用自然语言书写的文章进行统计学分析。所谓自然语言，就是像汉语、英语、日语那样自然地随文化演化出来的语言。

1702629148

1702629149 古往今来，对文章的分析从来都用不到数学，而是完全依靠对历史资料的研究、哲学的思考以及文学的想象力来支撑的。在我周围也不乏仅仅因为“对数字很头疼”的理由就选择进入文学系的人，就算他们对数字很头疼，也一样可以对莎士比亚的戏曲表现和本·琼森的诗歌进行比较与讨论。

1702629150

1702629151 但实际上，早在19世纪人们就已经将数学概念引入文章分析当中。也就是说，通过对文章中出现的单词种类和长度，以及一篇文章中包含的平均单词数等数据进行统计，可以尝试掌握文献的特征。这种研究被称为文献计量学。

1702629152

1702629153 初期的文献计量学研究者们对莎士比亚的文本进行了分析。不过，这并不是为了探寻莎士比亚戏曲魅力的秘密，而是为了搞清楚“莎士比亚究竟是不是弗朗西斯·培根”这个在当时被传得沸沸扬扬的话题。

1702629154

1702629155 “莎士比亚这个人物真的存在吗”、“是不是谁的笔名”之类的议论，从18世纪开始就沸沸扬扬。因为莎士比亚出身于平民，所以关于他的历史资料少之又少，而他对贵族的文化和教养却描写得十分细致，因此人们怀疑他的作品也许是另外一位受过良好教育的人创作的。

1702629156

1702629157 而弗朗西斯·培根是与莎士比亚同时代出生的伟大哲学家，他摒弃了偏见和先入为主的观点，证明了通过观察与试验寻找真理的归纳推理的重要性，毫无疑问是统计学家们最尊敬的人物。他的文学素养和教育程度都很高，完全是一个有能力写出莎士比亚戏曲的人。

1702629158

1702629159 但是，对两者的文章进行比较之后，却发现平均单词长度和一篇文章中单词的数目都不一样（图6–9）。虽然戏曲和哲学书籍的文体确实不一样，但是能够得出“没有人们议论的那种特别的相似性”这一结论，也是一个很大的进步了。

1702629160

1702629161

1702629162

1702629163

1702629164 图6–9 莎士比亚与培根所用单词的字数区别

1702629165

1702629166 文本挖掘的王道：“语素分析”

1702629167

1702629168 19世纪，要对整本书的单词数和文字数进行计算，恐怕是一项非常痛苦的工作。但是，在计算机技术十分发达的今天要进行同样的工作却十分轻松。现在有很多开源的语素分析工具，只要使用这些工具，就可以非常简单地对文章中单词的使用频率进行分析，还可以对动词和名词进行统计，从而分辨两篇文章之间使用单词的类似性。

1702629169

1702629170 一般情况下，语素分析指的是将文章分解为单词，然后统计各个单词分别出现过多少次的计算过程。在语言学中，“语素”指的是比单词更加短小，“在语言中拥有意义的最小单位”。比如说，“不稳定的”这个形容动词，其中“不”是否定助词，“稳定”和“的”属于形容动词，但是如果真的将这个单词如此细致地分为3个语素，那么反倒会让人完全无法理解其中的意思，所以绝大多数的语素分析工具都只是将文章分解为单词。

1702629171

1702629172 为了进行语素分析，收集了单词信息的词典数据是必不可少的。基本的计算逻辑就是从文章内找出与词典数据内的单词相一致的内容，找到后进行标记。

1702629173

1702629174 让我们通过谷歌日语输入法的开发者之一工藤拓发明的MeCab语素分析工具，来对“あえて断言しよう。あらゆる学問のなかで統計学が最强の学問であると。（我敢断言。在所有的学问之中统计学是最强的学问）”这句话的语素进行分析，得到的结果如图6–10所示。

1702629175

1702629176 图6–10 用MaCab进行语素分析后的结果

1702629177

1702629178 副词 “あえて” 名词 “統計” 名词 “断言” 名词 “学” 动词 “しよ” 助词 “が” 助动词 “う” 名词 “最強” 标点符号 “。” 助词 “の” 连体词 “あらゆる” 名词 “学問” 名词 “学問” 助动词 “で” 助词 “の” 助动词 “ある” 名词 “なか” 助词 “と” 助词 “で” 标点符号 “。” 虽然“统计学”应该被算作一个单词，但总体来说这个结果还算令人满意。将这个分析结果进行词性统计后的结果如图所示。

1702629179

1702629180 除了语素分析之外，还有一种不利用词典数据的方法，叫作N元语法模型（N–Gram）。这种方法的原理是选出具有机械性重复的N个字的文字列，然后从中找出想要的单词。比如N等于5的话，那么“统计学是最强的学问”这句话就能够生成“统计学是最”（第1~5个字）、“计学是最强”（第2~6个字）、“学是最强的”（第3~7个字）、“最强的学问”（最后5个字）这些以5个字为单位的Gram。

1702629181

1702629182 表6–3 图6–10的词性统计

1702629183

1702629184 词性频率 % 名词 7 35.0% 助词 5 25.0% 助动词 3 15.0% 标点符号 2 10.0% 动词 1 5.0% 副词 1 5.0% 连体词 1 5.0% 总计 20 100.0% 在之前的语素分析当中，因为词典中没有“统计学”这个单词存在，所以才将其分别认识为“统计”和“学”。但是根据语素分析后的结果搜索“统计学”这个单词的时候，会发现“不存在这个单词”。而N–Gram则不会出现这种情况，只要是低于5个字这一Gram限制的“统计学”这个单词确实在文中存在，就一定能够被找出来。谷歌之所以能够搜索出非常冷门的词语，就是因为在其背后有非常庞大的N–Gram数据作为支撑。

1702629185

1702629186 在商业中活用文本挖掘的方法

1702629187

1702629188 文本挖掘方面的专家大体上可以分为两类。

1702629189

[ 上一页 ] [ :1.70262914e+09 ] [ 下一页 ]