打字猴:1.700432955e+09

1700432955 驾驭大数据 [:1700430603]

1700432956 6.1.1　组合建模

1700432957

1700432958 组合建模方法的核心概念非常简单直接，不是只使用一种方法来建立一个单独的模型，而是使用许多技术来建立许多模型，一旦获得了每一个模型的产出结果，所有的结果就可以组合起来形成最终答案。结果的组合流程非常灵活，可以直接使用每个模型预测结果的平均值，也可以使用更复杂的公式。重要的是，组合建模并不是从许多模型中挑选一个最优模型来使用，而是把许多模型的结果组合在一起来获得最终答案。

1700432959

1700432960 组合模型的威力在于，每个不同的建模方法都各有利弊。例如，某些类型的客户，可能在某一种模型中得分很低，但在另外一种模型中得分很高。通过集合各个模型的智慧，评分算法可以更加准确地评估每一个客户、产品或店铺选址。

1700432961

1700432962 例如，人们可以使用线性回归、逻辑回归、决策树以及神经网络来建立多个预测模型，对客户购买某指定产品的概率进行评估。每个模型的预测结果组合起来就形成了最终结果。通常，这种组合模型会比每个独立模型的预测效果要好很多。

1700432963

1700432964 在组合模型方面，有一本非常棒的技术书籍，是John Elder与Giovanni Seni的《数据挖掘中的组合建模》〔6〕。分析工具的演进使组合模型的使用变得更加普遍。如果没有一种好的方法来管理建模过程并对不同模型的结果进行整合，组合建模就无法轻易地被实现。想象一下，人工执行并测试每一个模型，当模型执行完后，还要人工汇总每一个模型的输出结果，并检查模型的效果，最后还要确认如何人工整合不同模型的结果。今天，分析工具已经可以帮助你执行这些单调乏味的任务。

1700432965

1700432966 群体智慧

1700432967

1700432968 每一个独立模型都同时具有优点和缺点。通过组合各种模型的输出结果，最后的混合结果通常要好于任何一个独立模型。这类似于很多人同时进行预测，然后把每个人的预测结果进行平均，最终结果通常与正确结果最为接近。这种现象通常叫做群体智慧。

1700432969

1700432970 组合模型可以提升评估效果的原因很容易理解。在适当的条件下，群体智慧在日常生活中的表现一直在被广泛地讨论（见James Surowiecki的《群体智慧》〔7〕）。爱荷华州大学的爱荷华电子交易市场很多年前就证明了，把许多人的理性预测结果进行平均，可以获得与正确答案非常非常接近的预测结果。事实上，这个平均的预测结果比任何一个人的预测结果都更接近正确答案。

1700432971

1700432972 组合建模只是把《群体智慧》这本书的理念应用到了分析领域，对许多模型的理性预测结果进行平均汇总，最终得到了与正确答案非常非常接近的结果。组合建模能解决企业所有的分析问题吗？当然不可以，但是企业应该把组合模型加入到自己的分析方法库中。

1700432973

1700432974 驾驭大数据 [:1700430604]

1700432975 6.1.2　简易模型

1700432976

1700432977 还有一种被越来越广泛使用的分析方法，叫做简易模型。我们把简易模型定义为一种降低部分预测效果从而加快模型构建过程的分析方法。简易模型可以通过简单的、分步的分析流程实现，例如自动化建模。简易模型的目标并不是获得一个最佳模型，而是快速获得一个模型，得到比没有模型时更好的结果。

1700432978

1700432979 恰当地使用简易模型能带来巨大的帮助，它扩大了分析在企业中的影响。在过去，建立一个模型通常要耗费很多时间，建模成本很高。分析师可能需要几周甚至几个月的时间来获得数据，利用数据建模则需要更多的时间。这限制了模型的应用，人们只能针对具有较高价值的问题进行建模。如果你拥有3000万个或者4000万个邮件地址，那么为建模进行投资来挑选潜在用户是必要的，但如果你只有30万个邮件地址，并计划推广一个并不昂贵的产品，那么就没有必要投入成本建立模型了。

1700432980

1700432981 如果分析专家拥有一个现代化的分析环境，包括分析沙盒，以及先进的分析流程，如企业分析数据集，那么建立模型的时间将减少很多。我们在第4章与第5章中已经讨论过了这些技术。可用的标准化变量越多，系统的数据分析能力越强大，那么建立模型就越容易。

1700432982

1700432983 请时刻谨记，建立模型变得更加容易，并不会降低对努力工作与模型正确性的要求，只是如果有一个优秀的分析专家来执行分析流程，他会让工作更快地完成。

1700432984

1700432985 有些时候“足够好”就够了！

1700432986

1700432987 简易建模的目标是比没有任何模型时预测更准确。这个底限比过去大多数模型的要求都要低。当发现了一个足够好的结果时，简易建模过程就会停止。这种分析方法特别适合那些低价值的业务问题和场景，这种情况下并没有必要让每个模型都达到其最佳效果。

1700432988

1700432989 在评估一个简易模型时，主要的评估角度是，使用这个模型能否带来收益。如果投入更多的资源和精力，这个模型也许还有很大的提升空间，但如果目前没有任何模型，而一个简易模型就可以带来帮助，那么还是使用简易模型吧。

1700432990

1700432991 我们可以研究一种类似的场景。如果你拥有房屋，不少房间的装饰都需要进行改进。装修开放空间的房间，如厨房，通常会进行最顶级的装修。某些房间你也许只想进行简易的装修。也许装修客房浴室时，你会使用简单的材料和装饰，因为客房浴室并不值得进行大量投资。简易模型也是一样的道理，并得到了广泛使用。

1700432992

1700432993 简易模型的应用

1700432994

1700432995 简易模型使得高级分析可以推广到更多的业务问题和领域，简易模型的支撑范围要比分析专家人工建模这种传统方式大得多。

1700432996

1700432997 例如，零售企业可以针对某些重要的产品类别建立“购买倾向”模型。对于那些周转率较低、促销也较少的类别，没有必要建立个性化的评估模型。一个百货连锁企业，对于浴室清洁用品和碳酸饮料这类大销量的产品建立销量预测模型是有意义的，但对于某些周转率较低的产品，如鞋油、沙丁鱼等，建立销量预测模型就毫无意义了。

1700432998

1700432999 但如果需要对这些不那么重要的产品类别进行促销时，这时要如何做呢？也许沙丁鱼厂商愿意赞助一次针对于其沙丁鱼产品的促销活动。有些零售企业会针对其拥有的几百个不同产品类别都建立预测模型，其中大部分模型使用的都是简易模型。这些模型就是服务于这些不常见的场景与需求，并能够给企业带来一定的价值。重要的类别，如碳酸饮料或者浴室清洁产品，应该被区别对待，并为之建立高度个性化的模型，而对于某些销量小的产品类别，简易模型是这些产品拥有某种形式预测模型的一种可选方案。

1700433000

1700433001 今天的高级分析工具对于这类建模任务的支撑更加完善了。分析工具可以自动化地尝试多种算法，测试不同指标的各种组合方式，进行多种形式的自动化验证。这些工具帮助分析专家迅速生成合理优质的模型。对于低价值的业务问题，建模方法会有所变化。在某些业务场景下，使用一个足够好的模型是可以接受的，并不一定非要找到一个最好的模型，人们应该接受这一点。

1700433002

1700433003 让我们看一下简易模型在预测领域的另一种应用。假设一家制造企业，它投入了大量的资源来努力预测市场的总体需求，精确到每个季度、每个产品以及每个国家或区域。但是，假设它想预测每个零售店或分销点每一周每一种产品的销量，没有公司拥有足够的资源与人力来建立这么多高度个性化的预测模型。在这类低层次小粒度的问题上，一个可以自动化执行的、足够好的预测模型就够用了。如果更高层次的预测是准确的，低层次的预测结果汇总起来与高层次的预测结果吻合，对于这家企业来说就足够了，这种情况已经比没有模型时好很多了。

1700433004

[ 上一页 ] [ :1.700432955e+09 ] [ 下一页 ]