打字猴:1.700500963e+09

1700500963 决策树模型是数据挖掘应用中常见的一种成熟技术，因其输出规则让人容易理解而备受数据分析师和业务应用方的喜欢和推崇。自从1960年Hunt等人提出概念学习系统框架方法（Concept Learning System Framework,CLSF）以来，决策树多种算法一直在不断发展、成熟，目前最常用的3种决策树算法分别是CHAID、CART和ID3，包括后来的C4.5，乃至C5.0。

1700500964

1700500965 决策树，顾名思义，其建模过程类似一棵树的成长，从根部开始，到树干，到分叉，到继续细枝末节的分叉，最终到一片片的树叶。在决策树里，所分析的数据样本形成一个树根，经过层层分枝，最终形成若干个结点，每个结点代表一个结论。从决策树的根部到叶结点的一条路径就形成了对相应对象的类别预测。

1700500966

1700500967 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497617]

1700500968 10.2.1　决策树的原理和核心要素

1700500969

1700500970 构造决策树采用的是自顶向下的贪婪算法，它会在每个结点选择分类效果最好的属性对样本进行分类，然后继续这个过程，直到这棵树能准确地分类训练样本，或者所有的属性都已被用过。

1700500971

1700500972 决策树算法的核心是在对每个结点进行测试后，选择最佳的属性，并且对决策树进行剪枝处理。

1700500973

1700500974 最常见的结点属性选择方法（标准）有信息增益、信息增益率、Gini指数、卡方检验（Chi-Square Statistics）等。在10.2.2～10.2.4节将对它们分别进行介绍。

1700500975

1700500976 决策树的剪枝处理包括两种方式：先剪枝（Prepruning）和后剪枝（Postpruning）。

1700500977

1700500978 所谓先剪枝，就是决策树生长之前，就人为定好树的层数，以及每个结点所允许的最少的样本数量等，而且在给定的结点不再分裂。

1700500979

1700500980 所谓后剪枝，是让树先充分生长，然后剪去子树，删除结点的分枝并用树叶替换。后剪枝的方法更常用。CART算法就包含了后剪枝方法，它使用的是代价复杂度剪枝算法，即将树的代价复杂度看做是树中树叶结点的个数和树的错误率的函数。C4.5使用的是悲观剪枝方法，类似于代价复杂度剪枝算法。

1700500981

1700500982

1700500983

1700500984

1700500985 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497618]

1700500986 数据挖掘与数据化运营实战：思路、方法、技巧与应用 10.2.2　CHAID算法

1700500987

1700500988 CHAID（Chi-Square Automatic Interaction Detector）算法历史较长，中文简称为卡方自动相互关系检测。CHAID是依据局部最优原则，利用卡方检验来选择对因变量最有影响的自变量的，CHAID应用的前提是因变量为类别型变量（Category）。

1700500989

1700500990 关于卡方检验的具体公式和原理，此处从略，详情可参考本书8.6.5节。

1700500991

1700500992 关于CHAID算法的逻辑，简述如下。

1700500993

1700500994 首先，对所有自变量进行逐一检测，利用卡方检验确定每个自变量和因变量之间的关系。具体来说，就是在检验时，每次从自变量里抽取两个既定值，与因变量进行卡方检验。如果卡方检验显示两者关系不显著，则证明上述两个既定值可以合并。如此，合并过程将会不断减少自变量的取值数量，直到该自变量的所有取值都呈现显著性为止。在对每个自变量进行类似处理后，通过比较找出最显著的自变量，并按自变量最终取值对样本进行分割，形成若干个新的生长结点。

1700500995

1700500996 然后，CHAID在每个新结点上，重复上述步骤，对每个新结点重新进行最佳自变量挑选。整个过程不断重复，直到每个结点无法再找到一个与因变量有统计显著性的自变量对其进行分割为止，或者之前限度的条件得到满足，树的生长就此终止。

1700500997

1700500998 卡方检验适用于类别型变量的检验，如果自变量是区间型的变量（Interval），CHAID改用F检验。

1700500999

1700501000

1700501001

1700501002

1700501003 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497619]

1700501004 数据挖掘与数据化运营实战：思路、方法、技巧与应用 10.2.3　CART算法

1700501005

1700501006 CART（Classification and Regression Trees）算法发明于20世纪80年代中期，中文简称分类与回归树。CART的分割逻辑与CHAID相同，每一层的划分都是基于对所有自变量的检验和选择。但是，CART采用的检验标准不是卡方检验，而是Gini（基尼系数）等不纯度指标。两者最大的不同在于CHAID采用的是局部最优原则，即结点之间互不相干，一个结点确定了之后，下面的生长过程完全在结点内进行。而CART则着眼于总体优化，即先让树尽可能地生长，然后再回过头来对树进行修剪（Prune），这一点非常类似统计分析中回归算法里的反向选择（Backward Selection）。CART所生产的决策树是二分的，即每个结点只能分出两枝，并且在树的生长过程中，同一个自变量可以反复多次使用（分割），这些都是不同于CHAID的特点。另外，如果自变量存在数据缺失（Missing）的情况，CART的处理方式是寻找一个替代数据来代替（或填充）缺失值，而CHAID则是把缺失数值作为单独的一类数值。

1700501007

1700501008

1700501009

1700501010

1700501011 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497620]

1700501012 数据挖掘与数据化运营实战：思路、方法、技巧与应用 10.2.4　ID3算法

[ 上一页 ] [ :1.700500963e+09 ] [ 下一页 ]