打字猴:1.702629168e+09
1702629168 19世纪,要对整本书的单词数和文字数进行计算,恐怕是一项非常痛苦的工作。但是,在计算机技术十分发达的今天要进行同样的工作却十分轻松。现在有很多开源的语素分析工具,只要使用这些工具,就可以非常简单地对文章中单词的使用频率进行分析,还可以对动词和名词进行统计,从而分辨两篇文章之间使用单词的类似性。
1702629169
1702629170 一般情况下,语素分析指的是将文章分解为单词,然后统计各个单词分别出现过多少次的计算过程。在语言学中,“语素”指的是比单词更加短小,“在语言中拥有意义的最小单位”。比如说,“不稳定的”这个形容动词,其中“不”是否定助词,“稳定”和“的”属于形容动词,但是如果真的将这个单词如此细致地分为3个语素,那么反倒会让人完全无法理解其中的意思,所以绝大多数的语素分析工具都只是将文章分解为单词。
1702629171
1702629172 为了进行语素分析,收集了单词信息的词典数据是必不可少的。基本的计算逻辑就是从文章内找出与词典数据内的单词相一致的内容,找到后进行标记。
1702629173
1702629174 让我们通过谷歌日语输入法的开发者之一工藤拓发明的MeCab语素分析工具,来对“あえて断言しよう。あらゆる学問のなかで統計学が最强の学問であると。(我敢断言。在所有的学问之中统计学是最强的学问)”这句话的语素进行分析,得到的结果如图6–10所示。
1702629175
1702629176 图6–10 用MaCab进行语素分析后的结果
1702629177
1702629178  副词   “あえて”      名词   “統計”   名词   “断言”      名词   “学”   动词   “しよ”      助词   “が”   助动词   “う”      名词   “最強”   标点符号   “。”      助词   “の”   连体词   “あらゆる”      名词   “学問”   名词   “学問”      助动词   “で”   助词   “の”      助动词   “ある”   名词   “なか”      助词   “と”   助词   “で”      标点符号   “。”  虽然“统计学”应该被算作一个单词,但总体来说这个结果还算令人满意。将这个分析结果进行词性统计后的结果如图所示。
1702629179
1702629180 除了语素分析之外,还有一种不利用词典数据的方法,叫作N元语法模型(N–Gram)。这种方法的原理是选出具有机械性重复的N个字的文字列,然后从中找出想要的单词。比如N等于5的话,那么“统计学是最强的学问”这句话就能够生成“统计学是最”(第1~5个字)、“计学是最强”(第2~6个字)、“学是最强的”(第3~7个字)、“最强的学问”(最后5个字)这些以5个字为单位的Gram。
1702629181
1702629182 表6–3 图6–10的词性统计
1702629183
1702629184  词性   频率   %   名词   7   35.0%   助词   5   25.0%   助动词   3   15.0%   标点符号   2   10.0%   动词   1   5.0%   副词   1   5.0%   连体词   1   5.0%   总计   20   100.0%  在之前的语素分析当中,因为词典中没有“统计学”这个单词存在,所以才将其分别认识为“统计”和“学”。但是根据语素分析后的结果搜索“统计学”这个单词的时候,会发现“不存在这个单词”。而N–Gram则不会出现这种情况,只要是低于5个字这一Gram限制的“统计学”这个单词确实在文中存在,就一定能够被找出来。谷歌之所以能够搜索出非常冷门的词语,就是因为在其背后有非常庞大的N–Gram数据作为支撑。
1702629185
1702629186 在商业中活用文本挖掘的方法
1702629187
1702629188 文本挖掘方面的专家大体上可以分为两类。
1702629189
1702629190 第一类是接受过文学、历史、社会学等人文学科教育的人,或者接受过拥有相关背景的教员指导的人。他们经常为了自己的研究而使用文本挖掘工具对史(资)料进行调查,用来旁证自己的论点。
1702629191
1702629192 第二类是在计算机领域对自然语言处理这一题目感兴趣的人。准确地说,他们应该更接近于数据挖掘专家,为了找出通过机械的计算方法,快速且准确地对语素进行分析和研究。
1702629193
1702629194 比如说,他们所关心的研究课题是如何不单纯地依靠词典数据,而是根据前后文的单词来提升推测精度。另外,他们还经常将语素分析的结果应用在数据挖掘的研究之中。
1702629195
1702629196 文本挖掘技术在很久以前就已经被应用在商业领域,对客服中心的对话内容进行分析。在客服通话结束后,对客服人员提交的报告书和询问的电子邮件中频繁出现的单词进行分析,就能够找出“被询问最多的是什么问题”。掌握了这个信息之后就可以有针对性地制作说明书或者常见问题解答(FAQ),从而达到减少客服人工费的目的。这种方法最早由IBM使用,后来被许许多多的公司所效仿。
1702629197
1702629198 此外,还有对得到的询问邮件自动进行语素分析,将与出现的关键词有关的FAQ发送到客服人员终端上的系统。针对绝大多数的提问,客服人员只需要将推荐的FAQ直接复制、粘贴即可,节省了大量的对答时间。
1702629199
1702629200 另外,还有对调查问卷上的自由回答中出现的单词进行统计的应用。
1702629201
1702629202 如果顾客数量过于庞大,要想将每个人的意见逐一看完是非常困难的,但是通过语素分析对单词的出现频率进行统计的话,就可以轻松地掌握顾客意见的整体情况。
1702629203
1702629204 近年来,文本挖掘已经不只应用在对自己公司的询问邮件和调查问卷内容进行统计,更进一步发展到对通过社会性网络服务(SNS)产生的庞大文本进行统计。包含自己公司名称和商品名称的博客与微博都是非常重要的“顾客之声”,就算无法一一进行了解,通过文本挖掘对其整体情况进行掌握也是非常重要的,或许会由此诞生出令人意想不到的新商品或者促销活动的好点子。
1702629205
1702629206 通过活用文本挖掘来获得利益
1702629207
1702629208 但是,如果从统计学家的角度来看文本挖掘领域共通的这些课题的话,他们一定会提出这些课题都过于限制在自然语言范围。
1702629209
1702629210 通过语素分析,确实可以将文章这种非结构化数据转换为是否出现单词的虚拟变量。由此实现的对文章进行统计学处理也确实是一大进步,但是仅仅将这一进步应用在通过单纯的统计和分类对整体情况进行把握方面,实在是一种浪费。像文章中的何种单词以何种组合出现之类的信息,在绝大多数情况下如果离开了庞大的解释变量,就不是我们所追求的结果。
1702629211
1702629212 不过实际上,在日本的商业领域之中,已经出现将文本挖掘与利益连接起来的事例。
1702629213
1702629214 比如对营业日志进行文本挖掘,分析成功事例与失败事例之间有怎样的单词频率区别,从而达到增加机会的目的。有人对有价证券报告书中出现的单词进行分析,找出后来破产的企业和成功的企业之间单词的出现频率有怎样的区别。还有人将顾客对店铺的忠诚度和对店铺发表的感想进行了综合分析,找出对店铺忠诚度高的人在感想中都会出现什么样的单词。在上述例子中,都没有仅仅针对文章中出现的单词频率,而是对文章之外还有什么与结果变量之间具有关联性进行了分析,所以才找到了能够产生利益的战略。
1702629215
1702629216 虽然文本挖掘背后凝聚了非常高的技术含量,但只要利用工具的话谁都可以轻而易举地做到。而如何通过文本挖掘获得利益,则需要文本挖掘之外的统计能力了。
1702629217
[ 上一页 ]  [ :1.702629168e+09 ]  [ 下一页 ]