1700433008
6.1.3 文本分析
1700433009
1700433010
文本及其他非结构化数据源分析是使用得越来越广泛的一种分析方法。许多大数据都属于文本及非结构化数据源的范畴。从直观上理解,文本分析就是可以使用多种类型的文本作为分析的输入源。文本的类型可以是类似电子邮件的书面材料或类似医学笔录的转录材料,甚至可以是扫描的文本文件或可转换成电子表格的法院记录。随着新型的文本数据源日益丰富,文本分析的技术也有了突飞猛进的发展。
1700433011
1700433012
近年来,各种文本信息,从电子邮件到社交媒体评论,如Facebook和Twitter类型的社交网站,到网页在线咨询和文本消息,甚至是呼叫中心的对话记录,这些信息都被收集并记录了下来。但是,要理解这些信息并不容易。我们需要解决信息的解析问题,识别上下文的内容,并且定义有意义的分析模式。文本和非结构化数据越来越多,并将逐渐成为不可忽视的一种新数据类型。
1700433013
1700433014
文本是大数据的一种常见类型,并且文本分析工具和方法已经取得了长足的发展。现在已经出现了一些工具可以帮助我们将文本解析为组成文本的单词或短语,然后分析这些单词和短语的含义。流行的商业文本分析工具提供商包括Attensity、Clarabridge、SAS和SPSS等公司。
1700433015
1700433016
一旦文本被解析为组成文本的单词或短语后,分析这些单词和短语所表达的意思和情感,以及寻找其中趋势与规律的方法就很多了。解析后的文本和文本统计结果也常常被用来建立各种文本分析模型。例如,判断某一特定用户的电子邮件中有多少积极的或消极的语气,判断某一位顾客在交谈过程中对某一特定产品的关注度等。这是对原始的非结构化数据进行解析和结构化处理的过程,这个过程通常被称为信息抽取。
1700433017
1700433018
非结构化数据本身通常是无法被分析的。然而,非结构化的数据可以通过某些特定的方法被结构化,这些结构化处理后的数据是可以进行分析的。想象一下电视剧中的侦探追查罪犯的过程,通常都有发现指纹的场景,接着,在指纹上放置大量小圆点,然后将圆点连接起来。最后,找到了一个匹配的指纹,并最终确定罪犯。在这种情况下,这个非结构化的指纹并不是真正的完全匹配,而只是匹配了结构化的外观,这个外观是从非结构化的指纹样式中得来的。对非结构化的海量数据进行分析时,这种处理场景会反复出现。
1700433019
1700433020
分析非结构化数据
1700433021
1700433022
通常,非结构化数据本身是无法被分析的。然而,非结构化的数据可以通过某些特定方式进行结构化处理,并得到可以直接进行分析的结构化结果。几乎没有哪种分析过程能够直接对非结构化数据进行分析,也无法直接从非结构化的数据中得出结论。
1700433023
1700433024
将上下文应用于文本并非易事,有一些可用的处理方法,但更多的是一种艺术。事实上,同一个单词可以表示不同的意思。例如,如果我说你非常差劲,那么我冒犯了你。但如果我说我刚去的滑雪场条件非常差劲,我实际上表达的是这个滑雪场是多么糟糕。让事情更复杂的是,单词只是文本含义的一个因素,你还需要考虑单词的阐述方法,语气和声调的变化可以完全改变一段话的含义。
1700433025
1700433026
表6-1是一个被广泛使用的好例子。根据句中着重强调的单词不同,句子大体意思也随之改变。当你看到并听到一个人说话时,你很容易就可以了解到说话人的意思。但是,当你仅仅有文本内容时,你就无法获得这些内容的真正含义。根据上下文或许可以帮助你理解说话人的意图,但是这种分析极为复杂。如表6.1中语句的细微差别所示,更让我们见识了文本分析有时是一项多么具有挑战性的工作。
1700433027
1700433028
表6-1 重音是如何改变句子意思的
1700433029
1700433030
1700433031
1700433032
1700433033
文本分析方法是大部分企业必须接受的新鲜事物。文本分析已经开始从一项边缘性的分析技术成长为一项非常重要的分析技术,并且给许多行业和业务问题带来了巨大的影响。处理非结构化大数据源的方法有很多,这些方法也在不断地发展和进步,文本分析仅是其中的一种。
1700433034
1700433036
6.1.4 跟上分析方法的发展脚步
1700433037
1700433038
针对新商业问题的新方法层出不穷,要努力使企业的分析技能紧跟潮流,而不是停滞不前。在应用一种新的分析方法之前,分析人员需要充分了解这种新方法。让我们来看两个分析方法从很少被使用逐渐发展到被广泛使用的例子。这些例子很好地阐述了分析方法从很少被使用到到大规模应用的快速发展过程。
1700433039
1700433040
协同过滤与关联分析的目的相似。和关联分析一样,协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热。实际上,协同过滤的实现方式是一种典型的简易模型。其基本方法很容易实现,并且可以快速生成高质量的推荐效果。随着互联网的发展,协同过滤被广泛地使用,并变得不可或缺。仅仅在10年到15年之前,它还并未被广泛地使用或熟知。
1700433041
1700433042
网页排名是Google所有服务的基础。当用户进行查询时,Google正是用网页排名来决定哪些链接与用户的需求关联性最大,并将这些链接提供给用户。所有的主流搜索引擎在网页排名的实现方式上都有其各自的特点。实际上,大部分的个人网站都有相应的方法将这些搜索功能嵌入网站内部以帮助用户进行站内搜索。这些技术近几年才被开发出来,但直到互联网时代,才变得意义重大。
1700433043
1700433044
大部分普通用户也许直到现在也没听说过协同过滤或网页排名。几十年前,大多数人不会在他们的日常生活之外被曝光,而在过去的这几年,个人信息已经变得无处不在。不管人们有没有意识到,无数上网用户每天都在接触或使用这些数据分析的成果。大部分人也许都没听过这些技术,但他们都在无意中使用了这些技术,在未来的几年内,一些鲜为人知的技术会逐渐流行起来。每个企业都需要确保有人在探索跟踪下一代的新型技术,并将其利用起来。这些跟踪工作可以通过参加分析大会,阅读分析文献、文章及博客,甚至可以与其他公司的分析专家进行交流等方式来实现。
1700433045
1700433047
6.2 分析工具的演进
1700433048
1700433049
在20世纪80年代的时候,我刚开始从事分析工作,用户体验的友好性并不是描述或评价一个工具或系统的关键指标,所有分析工作都是在大型机中完成的。当时不仅需要直接通过程序代码来实现分析工作,而且需要使用非常晦涩的作业控制语言(Job Control Language,JCL)。任何使用过作业控制语言的人都会理解这种痛苦。
1700433050
1700433051
随着服务器和PC的普及,人们首先将旧的代码界面移植到了新的平台上。在当时的情况下,图形和输出是非常初级的。最初,柱状图是通过输入简单的字符来表示的,网格是通过破折号来表示的,输出物大多是以文本形式进行组织的。
1700433052
1700433053
随着时间的推移,新的图形界面逐渐发展起来了,用户能够通过点击来实现大部分操作,不再需要编写代码。实际上所有可用的商业分析工具都已经在20世纪90年代末实现了图形化界面。用户界面被不断地改进,加入了丰富的图形、虚拟的工作流图表以及特殊单点解决方案的应用程序。工作流图表是一种很好的新特性,因为它允许分析专家将某个流程中单独的步骤展示在一张多任务关联的视图中,这样就可以利用可视化的方法追踪处理流程中的每一个步骤。
1700433054
1700433055
随着工具本身的持续发展,工具的使用范围也逐渐扩大。现在的工具可以帮助分析专家管理分析的部署,管理分析服务和软件,并可以将代码从一种语言转换成另外一种语言。目前,已经存在许多可用的商业分析包。分析工具的领导者是SAS和SPSS,还有不少其他的分析工具可以使用,但许多分析工具仅仅能够分析某些特定的业务问题。此外,也有一些非常好用的开源分析工具,我们随后将会进行讨论。
1700433056
[
上一页 ]
[ :1.700433007e+09 ]
[
下一页 ]