1702629152
1702629153
初期的文献计量学研究者们对莎士比亚的文本进行了分析。不过,这并不是为了探寻莎士比亚戏曲魅力的秘密,而是为了搞清楚“莎士比亚究竟是不是弗朗西斯·培根”这个在当时被传得沸沸扬扬的话题。
1702629154
1702629155
“莎士比亚这个人物真的存在吗”、“是不是谁的笔名”之类的议论,从18世纪开始就沸沸扬扬。因为莎士比亚出身于平民,所以关于他的历史资料少之又少,而他对贵族的文化和教养却描写得十分细致,因此人们怀疑他的作品也许是另外一位受过良好教育的人创作的。
1702629156
1702629157
而弗朗西斯·培根是与莎士比亚同时代出生的伟大哲学家,他摒弃了偏见和先入为主的观点,证明了通过观察与试验寻找真理的归纳推理的重要性,毫无疑问是统计学家们最尊敬的人物。他的文学素养和教育程度都很高,完全是一个有能力写出莎士比亚戏曲的人。
1702629158
1702629159
但是,对两者的文章进行比较之后,却发现平均单词长度和一篇文章中单词的数目都不一样(图6–9)。虽然戏曲和哲学书籍的文体确实不一样,但是能够得出“没有人们议论的那种特别的相似性”这一结论,也是一个很大的进步了。
1702629160
1702629161
1702629162
1702629163
1702629164
图6–9 莎士比亚与培根所用单词的字数区别
1702629165
1702629166
文本挖掘的王道:“语素分析”
1702629167
1702629168
19世纪,要对整本书的单词数和文字数进行计算,恐怕是一项非常痛苦的工作。但是,在计算机技术十分发达的今天要进行同样的工作却十分轻松。现在有很多开源的语素分析工具,只要使用这些工具,就可以非常简单地对文章中单词的使用频率进行分析,还可以对动词和名词进行统计,从而分辨两篇文章之间使用单词的类似性。
1702629169
1702629170
一般情况下,语素分析指的是将文章分解为单词,然后统计各个单词分别出现过多少次的计算过程。在语言学中,“语素”指的是比单词更加短小,“在语言中拥有意义的最小单位”。比如说,“不稳定的”这个形容动词,其中“不”是否定助词,“稳定”和“的”属于形容动词,但是如果真的将这个单词如此细致地分为3个语素,那么反倒会让人完全无法理解其中的意思,所以绝大多数的语素分析工具都只是将文章分解为单词。
1702629171
1702629172
为了进行语素分析,收集了单词信息的词典数据是必不可少的。基本的计算逻辑就是从文章内找出与词典数据内的单词相一致的内容,找到后进行标记。
1702629173
1702629174
让我们通过谷歌日语输入法的开发者之一工藤拓发明的MeCab语素分析工具,来对“あえて断言しよう。あらゆる学問のなかで統計学が最强の学問であると。(我敢断言。在所有的学问之中统计学是最强的学问)”这句话的语素进行分析,得到的结果如图6–10所示。
1702629175
1702629176
图6–10 用MaCab进行语素分析后的结果
1702629177
1702629178
副词 “あえて” 名词 “統計” 名词 “断言” 名词 “学” 动词 “しよ” 助词 “が” 助动词 “う” 名词 “最強” 标点符号 “。” 助词 “の” 连体词 “あらゆる” 名词 “学問” 名词 “学問” 助动词 “で” 助词 “の” 助动词 “ある” 名词 “なか” 助词 “と” 助词 “で” 标点符号 “。” 虽然“统计学”应该被算作一个单词,但总体来说这个结果还算令人满意。将这个分析结果进行词性统计后的结果如图所示。
1702629179
1702629180
除了语素分析之外,还有一种不利用词典数据的方法,叫作N元语法模型(N–Gram)。这种方法的原理是选出具有机械性重复的N个字的文字列,然后从中找出想要的单词。比如N等于5的话,那么“统计学是最强的学问”这句话就能够生成“统计学是最”(第1~5个字)、“计学是最强”(第2~6个字)、“学是最强的”(第3~7个字)、“最强的学问”(最后5个字)这些以5个字为单位的Gram。
1702629181
1702629182
表6–3 图6–10的词性统计
1702629183
1702629184
词性 频率 % 名词 7 35.0% 助词 5 25.0% 助动词 3 15.0% 标点符号 2 10.0% 动词 1 5.0% 副词 1 5.0% 连体词 1 5.0% 总计 20 100.0% 在之前的语素分析当中,因为词典中没有“统计学”这个单词存在,所以才将其分别认识为“统计”和“学”。但是根据语素分析后的结果搜索“统计学”这个单词的时候,会发现“不存在这个单词”。而N–Gram则不会出现这种情况,只要是低于5个字这一Gram限制的“统计学”这个单词确实在文中存在,就一定能够被找出来。谷歌之所以能够搜索出非常冷门的词语,就是因为在其背后有非常庞大的N–Gram数据作为支撑。
1702629185
1702629186
在商业中活用文本挖掘的方法
1702629187
1702629188
文本挖掘方面的专家大体上可以分为两类。
1702629189
1702629190
第一类是接受过文学、历史、社会学等人文学科教育的人,或者接受过拥有相关背景的教员指导的人。他们经常为了自己的研究而使用文本挖掘工具对史(资)料进行调查,用来旁证自己的论点。
1702629191
1702629192
第二类是在计算机领域对自然语言处理这一题目感兴趣的人。准确地说,他们应该更接近于数据挖掘专家,为了找出通过机械的计算方法,快速且准确地对语素进行分析和研究。
1702629193
1702629194
比如说,他们所关心的研究课题是如何不单纯地依靠词典数据,而是根据前后文的单词来提升推测精度。另外,他们还经常将语素分析的结果应用在数据挖掘的研究之中。
1702629195
1702629196
文本挖掘技术在很久以前就已经被应用在商业领域,对客服中心的对话内容进行分析。在客服通话结束后,对客服人员提交的报告书和询问的电子邮件中频繁出现的单词进行分析,就能够找出“被询问最多的是什么问题”。掌握了这个信息之后就可以有针对性地制作说明书或者常见问题解答(FAQ),从而达到减少客服人工费的目的。这种方法最早由IBM使用,后来被许许多多的公司所效仿。
1702629197
1702629198
此外,还有对得到的询问邮件自动进行语素分析,将与出现的关键词有关的FAQ发送到客服人员终端上的系统。针对绝大多数的提问,客服人员只需要将推荐的FAQ直接复制、粘贴即可,节省了大量的对答时间。
1702629199
1702629200
另外,还有对调查问卷上的自由回答中出现的单词进行统计的应用。
1702629201
[
上一页 ]
[ :1.702629152e+09 ]
[
下一页 ]