1700432970
组合模型可以提升评估效果的原因很容易理解。在适当的条件下,群体智慧在日常生活中的表现一直在被广泛地讨论(见James Surowiecki的《群体智慧》〔7〕)。爱荷华州大学的爱荷华电子交易市场很多年前就证明了,把许多人的理性预测结果进行平均,可以获得与正确答案非常非常接近的预测结果。事实上,这个平均的预测结果比任何一个人的预测结果都更接近正确答案。
1700432971
1700432972
组合建模只是把《群体智慧》这本书的理念应用到了分析领域,对许多模型的理性预测结果进行平均汇总,最终得到了与正确答案非常非常接近的结果。组合建模能解决企业所有的分析问题吗?当然不可以,但是企业应该把组合模型加入到自己的分析方法库中。
1700432973
1700432975
6.1.2 简易模型
1700432976
1700432977
还有一种被越来越广泛使用的分析方法,叫做简易模型。我们把简易模型定义为一种降低部分预测效果从而加快模型构建过程的分析方法。简易模型可以通过简单的、分步的分析流程实现,例如自动化建模。简易模型的目标并不是获得一个最佳模型,而是快速获得一个模型,得到比没有模型时更好的结果。
1700432978
1700432979
恰当地使用简易模型能带来巨大的帮助,它扩大了分析在企业中的影响。在过去,建立一个模型通常要耗费很多时间,建模成本很高。分析师可能需要几周甚至几个月的时间来获得数据,利用数据建模则需要更多的时间。这限制了模型的应用,人们只能针对具有较高价值的问题进行建模。如果你拥有3000万个或者4000万个邮件地址,那么为建模进行投资来挑选潜在用户是必要的,但如果你只有30万个邮件地址,并计划推广一个并不昂贵的产品,那么就没有必要投入成本建立模型了。
1700432980
1700432981
如果分析专家拥有一个现代化的分析环境,包括分析沙盒,以及先进的分析流程,如企业分析数据集,那么建立模型的时间将减少很多。我们在第4章与第5章中已经讨论过了这些技术。可用的标准化变量越多,系统的数据分析能力越强大,那么建立模型就越容易。
1700432982
1700432983
请时刻谨记,建立模型变得更加容易,并不会降低对努力工作与模型正确性的要求,只是如果有一个优秀的分析专家来执行分析流程,他会让工作更快地完成。
1700432984
1700432985
有些时候“足够好”就够了!
1700432986
1700432987
简易建模的目标是比没有任何模型时预测更准确。这个底限比过去大多数模型的要求都要低。当发现了一个足够好的结果时,简易建模过程就会停止。这种分析方法特别适合那些低价值的业务问题和场景,这种情况下并没有必要让每个模型都达到其最佳效果。
1700432988
1700432989
在评估一个简易模型时,主要的评估角度是,使用这个模型能否带来收益。如果投入更多的资源和精力,这个模型也许还有很大的提升空间,但如果目前没有任何模型,而一个简易模型就可以带来帮助,那么还是使用简易模型吧。
1700432990
1700432991
我们可以研究一种类似的场景。如果你拥有房屋,不少房间的装饰都需要进行改进。装修开放空间的房间,如厨房,通常会进行最顶级的装修。某些房间你也许只想进行简易的装修。也许装修客房浴室时,你会使用简单的材料和装饰,因为客房浴室并不值得进行大量投资。简易模型也是一样的道理,并得到了广泛使用。
1700432992
1700432993
简易模型的应用
1700432994
1700432995
简易模型使得高级分析可以推广到更多的业务问题和领域,简易模型的支撑范围要比分析专家人工建模这种传统方式大得多。
1700432996
1700432997
例如,零售企业可以针对某些重要的产品类别建立“购买倾向”模型。对于那些周转率较低、促销也较少的类别,没有必要建立个性化的评估模型。一个百货连锁企业,对于浴室清洁用品和碳酸饮料这类大销量的产品建立销量预测模型是有意义的,但对于某些周转率较低的产品,如鞋油、沙丁鱼等,建立销量预测模型就毫无意义了。
1700432998
1700432999
但如果需要对这些不那么重要的产品类别进行促销时,这时要如何做呢?也许沙丁鱼厂商愿意赞助一次针对于其沙丁鱼产品的促销活动。有些零售企业会针对其拥有的几百个不同产品类别都建立预测模型,其中大部分模型使用的都是简易模型。这些模型就是服务于这些不常见的场景与需求,并能够给企业带来一定的价值。重要的类别,如碳酸饮料或者浴室清洁产品,应该被区别对待,并为之建立高度个性化的模型,而对于某些销量小的产品类别,简易模型是这些产品拥有某种形式预测模型的一种可选方案。
1700433000
1700433001
今天的高级分析工具对于这类建模任务的支撑更加完善了。分析工具可以自动化地尝试多种算法,测试不同指标的各种组合方式,进行多种形式的自动化验证。这些工具帮助分析专家迅速生成合理优质的模型。对于低价值的业务问题,建模方法会有所变化。在某些业务场景下,使用一个足够好的模型是可以接受的,并不一定非要找到一个最好的模型,人们应该接受这一点。
1700433002
1700433003
让我们看一下简易模型在预测领域的另一种应用。假设一家制造企业,它投入了大量的资源来努力预测市场的总体需求,精确到每个季度、每个产品以及每个国家或区域。但是,假设它想预测每个零售店或分销点每一周每一种产品的销量,没有公司拥有足够的资源与人力来建立这么多高度个性化的预测模型。在这类低层次小粒度的问题上,一个可以自动化执行的、足够好的预测模型就够用了。如果更高层次的预测是准确的,低层次的预测结果汇总起来与高层次的预测结果吻合,对于这家企业来说就足够了,这种情况已经比没有模型时好很多了。
1700433004
1700433005
最重要的考虑因素是,确保你建立了一个工作流程来生成足够好的模型,而不是生成垃圾模型。必须定期重复检查简易模型的生成过程,确保其在可控范围内,人们也需要定期对模型结果进行验证。不对简易模型流程进行干预控制,让其随意执行,这将是非常糟糕的。
1700433006
1700433008
6.1.3 文本分析
1700433009
1700433010
文本及其他非结构化数据源分析是使用得越来越广泛的一种分析方法。许多大数据都属于文本及非结构化数据源的范畴。从直观上理解,文本分析就是可以使用多种类型的文本作为分析的输入源。文本的类型可以是类似电子邮件的书面材料或类似医学笔录的转录材料,甚至可以是扫描的文本文件或可转换成电子表格的法院记录。随着新型的文本数据源日益丰富,文本分析的技术也有了突飞猛进的发展。
1700433011
1700433012
近年来,各种文本信息,从电子邮件到社交媒体评论,如Facebook和Twitter类型的社交网站,到网页在线咨询和文本消息,甚至是呼叫中心的对话记录,这些信息都被收集并记录了下来。但是,要理解这些信息并不容易。我们需要解决信息的解析问题,识别上下文的内容,并且定义有意义的分析模式。文本和非结构化数据越来越多,并将逐渐成为不可忽视的一种新数据类型。
1700433013
1700433014
文本是大数据的一种常见类型,并且文本分析工具和方法已经取得了长足的发展。现在已经出现了一些工具可以帮助我们将文本解析为组成文本的单词或短语,然后分析这些单词和短语的含义。流行的商业文本分析工具提供商包括Attensity、Clarabridge、SAS和SPSS等公司。
1700433015
1700433016
一旦文本被解析为组成文本的单词或短语后,分析这些单词和短语所表达的意思和情感,以及寻找其中趋势与规律的方法就很多了。解析后的文本和文本统计结果也常常被用来建立各种文本分析模型。例如,判断某一特定用户的电子邮件中有多少积极的或消极的语气,判断某一位顾客在交谈过程中对某一特定产品的关注度等。这是对原始的非结构化数据进行解析和结构化处理的过程,这个过程通常被称为信息抽取。
1700433017
1700433018
非结构化数据本身通常是无法被分析的。然而,非结构化的数据可以通过某些特定的方法被结构化,这些结构化处理后的数据是可以进行分析的。想象一下电视剧中的侦探追查罪犯的过程,通常都有发现指纹的场景,接着,在指纹上放置大量小圆点,然后将圆点连接起来。最后,找到了一个匹配的指纹,并最终确定罪犯。在这种情况下,这个非结构化的指纹并不是真正的完全匹配,而只是匹配了结构化的外观,这个外观是从非结构化的指纹样式中得来的。对非结构化的海量数据进行分析时,这种处理场景会反复出现。
1700433019
[
上一页 ]
[ :1.70043297e+09 ]
[
下一页 ]