1702629190
第一类是接受过文学、历史、社会学等人文学科教育的人,或者接受过拥有相关背景的教员指导的人。他们经常为了自己的研究而使用文本挖掘工具对史(资)料进行调查,用来旁证自己的论点。
1702629191
1702629192
第二类是在计算机领域对自然语言处理这一题目感兴趣的人。准确地说,他们应该更接近于数据挖掘专家,为了找出通过机械的计算方法,快速且准确地对语素进行分析和研究。
1702629193
1702629194
比如说,他们所关心的研究课题是如何不单纯地依靠词典数据,而是根据前后文的单词来提升推测精度。另外,他们还经常将语素分析的结果应用在数据挖掘的研究之中。
1702629195
1702629196
文本挖掘技术在很久以前就已经被应用在商业领域,对客服中心的对话内容进行分析。在客服通话结束后,对客服人员提交的报告书和询问的电子邮件中频繁出现的单词进行分析,就能够找出“被询问最多的是什么问题”。掌握了这个信息之后就可以有针对性地制作说明书或者常见问题解答(FAQ),从而达到减少客服人工费的目的。这种方法最早由IBM使用,后来被许许多多的公司所效仿。
1702629197
1702629198
此外,还有对得到的询问邮件自动进行语素分析,将与出现的关键词有关的FAQ发送到客服人员终端上的系统。针对绝大多数的提问,客服人员只需要将推荐的FAQ直接复制、粘贴即可,节省了大量的对答时间。
1702629199
1702629200
另外,还有对调查问卷上的自由回答中出现的单词进行统计的应用。
1702629201
1702629202
如果顾客数量过于庞大,要想将每个人的意见逐一看完是非常困难的,但是通过语素分析对单词的出现频率进行统计的话,就可以轻松地掌握顾客意见的整体情况。
1702629203
1702629204
近年来,文本挖掘已经不只应用在对自己公司的询问邮件和调查问卷内容进行统计,更进一步发展到对通过社会性网络服务(SNS)产生的庞大文本进行统计。包含自己公司名称和商品名称的博客与微博都是非常重要的“顾客之声”,就算无法一一进行了解,通过文本挖掘对其整体情况进行掌握也是非常重要的,或许会由此诞生出令人意想不到的新商品或者促销活动的好点子。
1702629205
1702629206
通过活用文本挖掘来获得利益
1702629207
1702629208
但是,如果从统计学家的角度来看文本挖掘领域共通的这些课题的话,他们一定会提出这些课题都过于限制在自然语言范围。
1702629209
1702629210
通过语素分析,确实可以将文章这种非结构化数据转换为是否出现单词的虚拟变量。由此实现的对文章进行统计学处理也确实是一大进步,但是仅仅将这一进步应用在通过单纯的统计和分类对整体情况进行把握方面,实在是一种浪费。像文章中的何种单词以何种组合出现之类的信息,在绝大多数情况下如果离开了庞大的解释变量,就不是我们所追求的结果。
1702629211
1702629212
不过实际上,在日本的商业领域之中,已经出现将文本挖掘与利益连接起来的事例。
1702629213
1702629214
比如对营业日志进行文本挖掘,分析成功事例与失败事例之间有怎样的单词频率区别,从而达到增加机会的目的。有人对有价证券报告书中出现的单词进行分析,找出后来破产的企业和成功的企业之间单词的出现频率有怎样的区别。还有人将顾客对店铺的忠诚度和对店铺发表的感想进行了综合分析,找出对店铺忠诚度高的人在感想中都会出现什么样的单词。在上述例子中,都没有仅仅针对文章中出现的单词频率,而是对文章之外还有什么与结果变量之间具有关联性进行了分析,所以才找到了能够产生利益的战略。
1702629215
1702629216
虽然文本挖掘背后凝聚了非常高的技术含量,但只要利用工具的话谁都可以轻而易举地做到。而如何通过文本挖掘获得利益,则需要文本挖掘之外的统计能力了。
1702629217
1702629219
28 “演绎”的计量经济学与“归纳”的统计学
1702629220
1702629221
1702629222
1702629223
统计学与计量经济学表面上的区别
1702629224
1702629225
计量经济学家是对在经济学领域应用统计学的人的一种统称,但计量经济学与统计学之间的界限却有些模糊。
1702629226
1702629227
如果是在几十年前,或许还可以清楚地分成“将统计学应用在社会与经济领域就是计量经济学家”、“将统计学应用在农业和医疗领域就是生物统计学家”,但是从生物统计学之中诞生出来的方法现在却被广泛应用于许多领域,就连计量经济学家们也不例外。而且现在人们对于费希尔和皮尔森所发明的种种方法,并不特意将其归类为“生物统计学”。一般情况下说起统计学,如果没有像心理学和社会调查学那么明确地进行区别的话,指的都是由费希尔等生物统计学家在背后支撑着的统计学。
1702629228
1702629229
比如将现在是否有工作作为结果变量,将受教育程度和过去的家庭收入、人种、居住地等社会属性作为解释变量进行回归分析,计量经济学家与社会学领域的统计学家都会作这样的统计。但是,计量经济学家属于统计学家中立场比较特殊的一类人。
1702629230
1702629231
表面上的区别在于,计量经济学家比统计学家更加重视包含交互作用的解释变量,在其选择上会进行更加慎重的讨论。而且,他们不只考虑解释变量与结果变量间的直线关系,还会考虑两者之间的曲线关系。比如将单纯的家庭收入作为解释变量,对生活的满意度作为结果变量进行回归分析时的回归系数,可以看作“年收入增加100万日元的效果对所有人来说基本相同”(图6–11)。
1702629232
1702629233
1702629234
1702629235
1702629236
图6–11 直线的关系性
1702629237
1702629238
另外,通过这张图表我们还可以看出,“年收入从300万日元增加到400万日元所产生的变化,和从900万日元增加到1 000万日元所产生的变化对生活满意度的影响是不同的”。也就是说,家庭收入与生活满意度之间的关系似乎更符合曲线的变化轨迹(图6–12)。在这种推测中,就需要利用“家庭收入的平方”与“log(家庭收入)”作为回归分析的解释变量。
1702629239
[
上一页 ]
[ :1.70262919e+09 ]
[
下一页 ]