打字猴:1.70043293e+09
1700432930 ■ 如果企业开始广泛地使用模型,那么就应该建立模型和评分管理流程。
1700432931
1700432932 ■ 模型与评分管理系统有4个主要组件:输入分析数据集、模型定义、模型验证与报表制作、模型评分输出。
1700432933
1700432934
1700432935
1700432936
1700432937 驾驭大数据 [:1700430601]
1700432938 驾驭大数据 第6章分析工具与方法的演进
1700432939
1700432940 使用几十年前的设计图纸和手动工具,能建造好一个房子吗?当然可以,但在已经拥有现代化工具和最新图纸的今天,很少有人会愿意这么做。类似地,分析专家可以使用自定义代码和传统方法来完成各类分析。然而,如果要花时间了解可能的各种选项,很少有人会选择这么做。正如建造房屋一样,人们能够比十年前花更少的人力建造功能更多的房屋,分析工作亦是如此。
1700432941
1700432942 分析专家一直在使用各种类型的分析工具。这些工具可以帮助分析师准备分析所需的数据,执行分析算法,并评估分析结果。分析工具的深度与功能性也一直在提高。除了更丰富更友好的用户界面外,分析工具也可以自动化或流水线式地执行一些常见任务。因此,分析专家们可以花费更多的时间专注于分析本身。使用新的工具和方法,结合第4章与第5章讨论过的分析可扩展性与流程,企业就能轻松地驾驭大数据。
1700432943
1700432944 在本章,我们会阐述分析专家如何改变工作方法来构建分析流程,以更好地利用各种分析工具带来的性能与可扩展性的提升。我们会讨论组合模型,简易模型,以及文本分析。我们还会讨论分析工具演进的各种路径,以及这些新技术和工具如何改变分析专家的工作方式。我们还会讨论点击式的可视化用户界面,开源工具,以及数据可视化工具。
1700432945
1700432946 驾驭大数据 [:1700430602]
1700432947 6.1 分析方法的演进
1700432948
1700432949 不少分析和建模方法已经被广泛使用了很多年,其中的一些,如线性回归模型或决策树模型,计算效率较高,实施起来也相对简单。在过去,简单是必需的,因为当时分析工具的可用性与可扩展性严格受限,直到今天,人们才拥有了更多可能。
1700432950
1700432951 在计算机出现之前,进行多次迭代建模,或尝试某些复杂的分析方法,都是很困难的。这些年,处理数据的技术有了长足的进步,类似的情况也发生在分析数据的工具和技术上。今天,人们已经可以使用多种算法来针对海量基础数据进行多次迭代建模。
1700432952
1700432953 因为分析可扩展性的提升,今天分析专家们可以同时执行更多的传统分析任务。也有许多分析专家开始尝试不同的新分析方法来充分利用这些新的分析工具、分析流程和可扩展性。许多新分析方法的理论很久以前就出现了,但直到现在才可以真正地被实施。分析方法在持续演进和改善,我们将讨论某些重要的分析方法,包括组合建模、简易建模以及文本分析。
1700432954
1700432955 驾驭大数据 [:1700430603]
1700432956 6.1.1 组合建模
1700432957
1700432958 组合建模方法的核心概念非常简单直接,不是只使用一种方法来建立一个单独的模型,而是使用许多技术来建立许多模型,一旦获得了每一个模型的产出结果,所有的结果就可以组合起来形成最终答案。结果的组合流程非常灵活,可以直接使用每个模型预测结果的平均值,也可以使用更复杂的公式。重要的是,组合建模并不是从许多模型中挑选一个最优模型来使用,而是把许多模型的结果组合在一起来获得最终答案。
1700432959
1700432960 组合模型的威力在于,每个不同的建模方法都各有利弊。例如,某些类型的客户,可能在某一种模型中得分很低,但在另外一种模型中得分很高。通过集合各个模型的智慧,评分算法可以更加准确地评估每一个客户、产品或店铺选址。
1700432961
1700432962 例如,人们可以使用线性回归、逻辑回归、决策树以及神经网络来建立多个预测模型,对客户购买某指定产品的概率进行评估。每个模型的预测结果组合起来就形成了最终结果。通常,这种组合模型会比每个独立模型的预测效果要好很多。
1700432963
1700432964 在组合模型方面,有一本非常棒的技术书籍,是John Elder与Giovanni Seni的《数据挖掘中的组合建模》〔6〕。分析工具的演进使组合模型的使用变得更加普遍。如果没有一种好的方法来管理建模过程并对不同模型的结果进行整合,组合建模就无法轻易地被实现。想象一下,人工执行并测试每一个模型,当模型执行完后,还要人工汇总每一个模型的输出结果,并检查模型的效果,最后还要确认如何人工整合不同模型的结果。今天,分析工具已经可以帮助你执行这些单调乏味的任务。
1700432965
1700432966 群体智慧
1700432967
1700432968 每一个独立模型都同时具有优点和缺点。通过组合各种模型的输出结果,最后的混合结果通常要好于任何一个独立模型。这类似于很多人同时进行预测,然后把每个人的预测结果进行平均,最终结果通常与正确结果最为接近。这种现象通常叫做群体智慧。
1700432969
1700432970 组合模型可以提升评估效果的原因很容易理解。在适当的条件下,群体智慧在日常生活中的表现一直在被广泛地讨论(见James Surowiecki的《群体智慧》〔7〕)。爱荷华州大学的爱荷华电子交易市场很多年前就证明了,把许多人的理性预测结果进行平均,可以获得与正确答案非常非常接近的预测结果。事实上,这个平均的预测结果比任何一个人的预测结果都更接近正确答案。
1700432971
1700432972 组合建模只是把《群体智慧》这本书的理念应用到了分析领域,对许多模型的理性预测结果进行平均汇总,最终得到了与正确答案非常非常接近的结果。组合建模能解决企业所有的分析问题吗?当然不可以,但是企业应该把组合模型加入到自己的分析方法库中。
1700432973
1700432974 驾驭大数据 [:1700430604]
1700432975 6.1.2 简易模型
1700432976
1700432977 还有一种被越来越广泛使用的分析方法,叫做简易模型。我们把简易模型定义为一种降低部分预测效果从而加快模型构建过程的分析方法。简易模型可以通过简单的、分步的分析流程实现,例如自动化建模。简易模型的目标并不是获得一个最佳模型,而是快速获得一个模型,得到比没有模型时更好的结果。
1700432978
1700432979 恰当地使用简易模型能带来巨大的帮助,它扩大了分析在企业中的影响。在过去,建立一个模型通常要耗费很多时间,建模成本很高。分析师可能需要几周甚至几个月的时间来获得数据,利用数据建模则需要更多的时间。这限制了模型的应用,人们只能针对具有较高价值的问题进行建模。如果你拥有3000万个或者4000万个邮件地址,那么为建模进行投资来挑选潜在用户是必要的,但如果你只有30万个邮件地址,并计划推广一个并不昂贵的产品,那么就没有必要投入成本建立模型了。
[ 上一页 ]  [ :1.70043293e+09 ]  [ 下一页 ]