打字猴:1.70043298e+09

1700432980

1700432981 如果分析专家拥有一个现代化的分析环境，包括分析沙盒，以及先进的分析流程，如企业分析数据集，那么建立模型的时间将减少很多。我们在第4章与第5章中已经讨论过了这些技术。可用的标准化变量越多，系统的数据分析能力越强大，那么建立模型就越容易。

1700432982

1700432983 请时刻谨记，建立模型变得更加容易，并不会降低对努力工作与模型正确性的要求，只是如果有一个优秀的分析专家来执行分析流程，他会让工作更快地完成。

1700432984

1700432985 有些时候“足够好”就够了！

1700432986

1700432987 简易建模的目标是比没有任何模型时预测更准确。这个底限比过去大多数模型的要求都要低。当发现了一个足够好的结果时，简易建模过程就会停止。这种分析方法特别适合那些低价值的业务问题和场景，这种情况下并没有必要让每个模型都达到其最佳效果。

1700432988

1700432989 在评估一个简易模型时，主要的评估角度是，使用这个模型能否带来收益。如果投入更多的资源和精力，这个模型也许还有很大的提升空间，但如果目前没有任何模型，而一个简易模型就可以带来帮助，那么还是使用简易模型吧。

1700432990

1700432991 我们可以研究一种类似的场景。如果你拥有房屋，不少房间的装饰都需要进行改进。装修开放空间的房间，如厨房，通常会进行最顶级的装修。某些房间你也许只想进行简易的装修。也许装修客房浴室时，你会使用简单的材料和装饰，因为客房浴室并不值得进行大量投资。简易模型也是一样的道理，并得到了广泛使用。

1700432992

1700432993 简易模型的应用

1700432994

1700432995 简易模型使得高级分析可以推广到更多的业务问题和领域，简易模型的支撑范围要比分析专家人工建模这种传统方式大得多。

1700432996

1700432997 例如，零售企业可以针对某些重要的产品类别建立“购买倾向”模型。对于那些周转率较低、促销也较少的类别，没有必要建立个性化的评估模型。一个百货连锁企业，对于浴室清洁用品和碳酸饮料这类大销量的产品建立销量预测模型是有意义的，但对于某些周转率较低的产品，如鞋油、沙丁鱼等，建立销量预测模型就毫无意义了。

1700432998

1700432999 但如果需要对这些不那么重要的产品类别进行促销时，这时要如何做呢？也许沙丁鱼厂商愿意赞助一次针对于其沙丁鱼产品的促销活动。有些零售企业会针对其拥有的几百个不同产品类别都建立预测模型，其中大部分模型使用的都是简易模型。这些模型就是服务于这些不常见的场景与需求，并能够给企业带来一定的价值。重要的类别，如碳酸饮料或者浴室清洁产品，应该被区别对待，并为之建立高度个性化的模型，而对于某些销量小的产品类别，简易模型是这些产品拥有某种形式预测模型的一种可选方案。

1700433000

1700433001 今天的高级分析工具对于这类建模任务的支撑更加完善了。分析工具可以自动化地尝试多种算法，测试不同指标的各种组合方式，进行多种形式的自动化验证。这些工具帮助分析专家迅速生成合理优质的模型。对于低价值的业务问题，建模方法会有所变化。在某些业务场景下，使用一个足够好的模型是可以接受的，并不一定非要找到一个最好的模型，人们应该接受这一点。

1700433002

1700433003 让我们看一下简易模型在预测领域的另一种应用。假设一家制造企业，它投入了大量的资源来努力预测市场的总体需求，精确到每个季度、每个产品以及每个国家或区域。但是，假设它想预测每个零售店或分销点每一周每一种产品的销量，没有公司拥有足够的资源与人力来建立这么多高度个性化的预测模型。在这类低层次小粒度的问题上，一个可以自动化执行的、足够好的预测模型就够用了。如果更高层次的预测是准确的，低层次的预测结果汇总起来与高层次的预测结果吻合，对于这家企业来说就足够了，这种情况已经比没有模型时好很多了。

1700433004

1700433005 最重要的考虑因素是，确保你建立了一个工作流程来生成足够好的模型，而不是生成垃圾模型。必须定期重复检查简易模型的生成过程，确保其在可控范围内，人们也需要定期对模型结果进行验证。不对简易模型流程进行干预控制，让其随意执行，这将是非常糟糕的。

1700433006

1700433007 驾驭大数据 [:1700430605]

1700433008 6.1.3　文本分析

1700433009

1700433010 文本及其他非结构化数据源分析是使用得越来越广泛的一种分析方法。许多大数据都属于文本及非结构化数据源的范畴。从直观上理解，文本分析就是可以使用多种类型的文本作为分析的输入源。文本的类型可以是类似电子邮件的书面材料或类似医学笔录的转录材料，甚至可以是扫描的文本文件或可转换成电子表格的法院记录。随着新型的文本数据源日益丰富，文本分析的技术也有了突飞猛进的发展。

1700433011

1700433012 近年来，各种文本信息，从电子邮件到社交媒体评论，如Facebook和Twitter类型的社交网站，到网页在线咨询和文本消息，甚至是呼叫中心的对话记录，这些信息都被收集并记录了下来。但是，要理解这些信息并不容易。我们需要解决信息的解析问题，识别上下文的内容，并且定义有意义的分析模式。文本和非结构化数据越来越多，并将逐渐成为不可忽视的一种新数据类型。

1700433013

1700433014 文本是大数据的一种常见类型，并且文本分析工具和方法已经取得了长足的发展。现在已经出现了一些工具可以帮助我们将文本解析为组成文本的单词或短语，然后分析这些单词和短语的含义。流行的商业文本分析工具提供商包括Attensity、Clarabridge、SAS和SPSS等公司。

1700433015

1700433016 一旦文本被解析为组成文本的单词或短语后，分析这些单词和短语所表达的意思和情感，以及寻找其中趋势与规律的方法就很多了。解析后的文本和文本统计结果也常常被用来建立各种文本分析模型。例如，判断某一特定用户的电子邮件中有多少积极的或消极的语气，判断某一位顾客在交谈过程中对某一特定产品的关注度等。这是对原始的非结构化数据进行解析和结构化处理的过程，这个过程通常被称为信息抽取。

1700433017

1700433018 非结构化数据本身通常是无法被分析的。然而，非结构化的数据可以通过某些特定的方法被结构化，这些结构化处理后的数据是可以进行分析的。想象一下电视剧中的侦探追查罪犯的过程，通常都有发现指纹的场景，接着，在指纹上放置大量小圆点，然后将圆点连接起来。最后，找到了一个匹配的指纹，并最终确定罪犯。在这种情况下，这个非结构化的指纹并不是真正的完全匹配，而只是匹配了结构化的外观，这个外观是从非结构化的指纹样式中得来的。对非结构化的海量数据进行分析时，这种处理场景会反复出现。

1700433019

1700433020 分析非结构化数据

1700433021

1700433022 通常，非结构化数据本身是无法被分析的。然而，非结构化的数据可以通过某些特定方式进行结构化处理，并得到可以直接进行分析的结构化结果。几乎没有哪种分析过程能够直接对非结构化数据进行分析，也无法直接从非结构化的数据中得出结论。

1700433023

1700433024 将上下文应用于文本并非易事，有一些可用的处理方法，但更多的是一种艺术。事实上，同一个单词可以表示不同的意思。例如，如果我说你非常差劲，那么我冒犯了你。但如果我说我刚去的滑雪场条件非常差劲，我实际上表达的是这个滑雪场是多么糟糕。让事情更复杂的是，单词只是文本含义的一个因素，你还需要考虑单词的阐述方法，语气和声调的变化可以完全改变一段话的含义。

1700433025

1700433026 表6-1是一个被广泛使用的好例子。根据句中着重强调的单词不同，句子大体意思也随之改变。当你看到并听到一个人说话时，你很容易就可以了解到说话人的意思。但是，当你仅仅有文本内容时，你就无法获得这些内容的真正含义。根据上下文或许可以帮助你理解说话人的意图，但是这种分析极为复杂。如表6.1中语句的细微差别所示，更让我们见识了文本分析有时是一项多么具有挑战性的工作。

1700433027

1700433028 表6-1　重音是如何改变句子意思的

1700433029

[ 上一页 ] [ :1.70043298e+09 ] [ 下一页 ]