打字猴:1.700433024e+09
1700433024 将上下文应用于文本并非易事,有一些可用的处理方法,但更多的是一种艺术。事实上,同一个单词可以表示不同的意思。例如,如果我说你非常差劲,那么我冒犯了你。但如果我说我刚去的滑雪场条件非常差劲,我实际上表达的是这个滑雪场是多么糟糕。让事情更复杂的是,单词只是文本含义的一个因素,你还需要考虑单词的阐述方法,语气和声调的变化可以完全改变一段话的含义。
1700433025
1700433026 表6-1是一个被广泛使用的好例子。根据句中着重强调的单词不同,句子大体意思也随之改变。当你看到并听到一个人说话时,你很容易就可以了解到说话人的意思。但是,当你仅仅有文本内容时,你就无法获得这些内容的真正含义。根据上下文或许可以帮助你理解说话人的意图,但是这种分析极为复杂。如表6.1中语句的细微差别所示,更让我们见识了文本分析有时是一项多么具有挑战性的工作。
1700433027
1700433028 表6-1 重音是如何改变句子意思的
1700433029
1700433030
1700433031
1700433032
1700433033 文本分析方法是大部分企业必须接受的新鲜事物。文本分析已经开始从一项边缘性的分析技术成长为一项非常重要的分析技术,并且给许多行业和业务问题带来了巨大的影响。处理非结构化大数据源的方法有很多,这些方法也在不断地发展和进步,文本分析仅是其中的一种。
1700433034
1700433035 驾驭大数据 [:1700430606]
1700433036 6.1.4 跟上分析方法的发展脚步
1700433037
1700433038 针对新商业问题的新方法层出不穷,要努力使企业的分析技能紧跟潮流,而不是停滞不前。在应用一种新的分析方法之前,分析人员需要充分了解这种新方法。让我们来看两个分析方法从很少被使用逐渐发展到被广泛使用的例子。这些例子很好地阐述了分析方法从很少被使用到到大规模应用的快速发展过程。
1700433039
1700433040 协同过滤与关联分析的目的相似。和关联分析一样,协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于对其他相似顾客对哪些产品感兴趣的分析。协同过滤以其出色的速度和健壮性,在全球互联网领域炙手可热。实际上,协同过滤的实现方式是一种典型的简易模型。其基本方法很容易实现,并且可以快速生成高质量的推荐效果。随着互联网的发展,协同过滤被广泛地使用,并变得不可或缺。仅仅在10年到15年之前,它还并未被广泛地使用或熟知。
1700433041
1700433042 网页排名是Google所有服务的基础。当用户进行查询时,Google正是用网页排名来决定哪些链接与用户的需求关联性最大,并将这些链接提供给用户。所有的主流搜索引擎在网页排名的实现方式上都有其各自的特点。实际上,大部分的个人网站都有相应的方法将这些搜索功能嵌入网站内部以帮助用户进行站内搜索。这些技术近几年才被开发出来,但直到互联网时代,才变得意义重大。
1700433043
1700433044 大部分普通用户也许直到现在也没听说过协同过滤或网页排名。几十年前,大多数人不会在他们的日常生活之外被曝光,而在过去的这几年,个人信息已经变得无处不在。不管人们有没有意识到,无数上网用户每天都在接触或使用这些数据分析的成果。大部分人也许都没听过这些技术,但他们都在无意中使用了这些技术,在未来的几年内,一些鲜为人知的技术会逐渐流行起来。每个企业都需要确保有人在探索跟踪下一代的新型技术,并将其利用起来。这些跟踪工作可以通过参加分析大会,阅读分析文献、文章及博客,甚至可以与其他公司的分析专家进行交流等方式来实现。
1700433045
1700433046 驾驭大数据 [:1700430607]
1700433047 6.2 分析工具的演进
1700433048
1700433049 在20世纪80年代的时候,我刚开始从事分析工作,用户体验的友好性并不是描述或评价一个工具或系统的关键指标,所有分析工作都是在大型机中完成的。当时不仅需要直接通过程序代码来实现分析工作,而且需要使用非常晦涩的作业控制语言(Job Control Language,JCL)。任何使用过作业控制语言的人都会理解这种痛苦。
1700433050
1700433051 随着服务器和PC的普及,人们首先将旧的代码界面移植到了新的平台上。在当时的情况下,图形和输出是非常初级的。最初,柱状图是通过输入简单的字符来表示的,网格是通过破折号来表示的,输出物大多是以文本形式进行组织的。
1700433052
1700433053 随着时间的推移,新的图形界面逐渐发展起来了,用户能够通过点击来实现大部分操作,不再需要编写代码。实际上所有可用的商业分析工具都已经在20世纪90年代末实现了图形化界面。用户界面被不断地改进,加入了丰富的图形、虚拟的工作流图表以及特殊单点解决方案的应用程序。工作流图表是一种很好的新特性,因为它允许分析专家将某个流程中单独的步骤展示在一张多任务关联的视图中,这样就可以利用可视化的方法追踪处理流程中的每一个步骤。
1700433054
1700433055 随着工具本身的持续发展,工具的使用范围也逐渐扩大。现在的工具可以帮助分析专家管理分析的部署,管理分析服务和软件,并可以将代码从一种语言转换成另外一种语言。目前,已经存在许多可用的商业分析包。分析工具的领导者是SAS和SPSS,还有不少其他的分析工具可以使用,但许多分析工具仅仅能够分析某些特定的业务问题。此外,也有一些非常好用的开源分析工具,我们随后将会进行讨论。
1700433056
1700433057 驾驭大数据 [:1700430608]
1700433058 6.2.1 图形化用户界面的崛起
1700433059
1700433060 正如我们刚才提到的,在20世纪90年代中期之前,进行统计分析的唯一方法就是编写代码。许多人,特别是传统守旧的分析人员,依然喜欢通过编写代码的方式来进行分析。然而,随着用户界面逐渐普及,分析专家们不用编写代码也可以高效率地进行分析了。今天的图形化用户界面可以帮助用户生成分析所需的各种代码。
1700433061
1700433062 分析专家们偏向于使用图形化界面还是编写代码,这个问题常引起激烈的争论。事实上,如果用户界面的功能足够丰富,并且在分析效率方面与编写代码相同甚至超过了编写代码,没有人会拒绝使用图形化用户界面,因为真正的分析专家只关心如何能够更快更高效地完成分析任务。另外,目前的软件工具不仅能帮助用户更快地生成分析代码,而且可以通过预先内置的分析解决方案来引导用户解决某些特定问题。
1700433063
1700433064 使用图形化用户界面的另外一个好处是,自动生成的代码几乎是没有错误的,并且经过了优化。这与完全人工编写代码不同,人工编写代码的错误率和性能几乎完全取决于编写者的水平。早期的用户界面非常难用,对于一个知道如何写好代码的人而言,编写代码的速度甚至比使用用户界面更快。新一代用户界面的自动化程度和效率已经提高了很多,它使得人们可以更加专注于需要使用的分析方法和分析内容本身,而不是拼命地编写代码。
1700433065
1700433066 不要做一个守旧的人
1700433067
1700433068 如今,许多用户界面在生成代码时已经快了很多,并且这些代码没有错误,且经过了优化。如果分析专家们给用户界面一个机会,特别是对于那些编写了几十年代码,又无法接受除了直接编写代码之外任何新事物的人而言,结果将是十分惊人的。工具可以使得分析专家更高效地工作,因为他们可以把更多时间花在分析方法上,而不是编写代码上。
1700433069
1700433070 图形化用户界面的一个巨大优势是可以自动生成代码,但这也是一个很大的风险。自动生成代码听上去非常不错,因为它可以快速地生成代码,但是它也可能会生成垃圾代码。这个问题我们将在第8章中进行讨论。如果用户的操作并不熟练,仅仅偶尔使用用户界面来生成代码,那么结果或许和他们所期望的完全不同。如果用户没有理解所生成代码的含义,那么用户将不能辨别代码的状态,这将会导致错误或者不准确的分析流程。
1700433071
1700433072 使用图形化用户界面的用户需要理解代码的含义,并且能够检查生成的代码是否符合自己的分析意图。用户通常希望在使用用户界面之后,仅仅需要点选少量选项就可以得到所期待的分析结果,然而,当看到工具所生成的代码之后,你常常会发现这和你想要的东西不完全一样。如今的用户界面帮助分析专家更有效率地工作,让他们将更多的时间花在分析上,而不是浪费在编写代码上。这些分析工具并不能够代替知识、天赋与努力。
1700433073
[ 上一页 ]  [ :1.700433024e+09 ]  [ 下一页 ]