1700501012
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2.4 ID3算法
1700501013
1700501014
ID3(Iterative Dichotomiser)与CART发明于同一时期,中文简称迭代的二分器,其最大的特点在于自变量的挑选标准是基于信息增益度量的,即选择具有最高信息增益的属性作为结点的分裂(或分割)属性,这样一来,分割后的结点里分类所需的信息量就会最小,这也是一种划分纯度的思想。至于C4.5,可以将其理解为ID3的发展版本(后继版),主要区别在于C4.5用信息增益率(Gain Ratio)代替了ID3中的信息增益,主要的原因是使用信息增益度量有个缺点,就是倾向于选择具有大量值的属性,极端的例子,如对于Member_id的划分,每个Id都是一个最纯的组,但是这样的划分没有任何实际意义,而C4.5所采用的信息增益率就可以较好地克服这个缺点,它在信息增益的基础上,增加了一个分裂信息(Split Information)对其进行规范化约束。
1700501015
1700501016
1700501017
1700501018
1700501020
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2.5 决策树的应用优势
1700501021
1700501022
在数据挖掘的实践应用中,决策树体现了如下明显的优势和竞争力:
1700501023
1700501024
❑决策树模型非常直观,生成的一系列“如果……那么……”的逻辑判断很容易让人理解和应用。这个特点是决策树赢得广泛应用的最主要原因,真正体现了简单、直观、通俗、易懂。
1700501025
1700501026
❑决策树搭建和应用的速度比较快,并且可以处理区间型变量(Interval)和类别型变量(Category)。但是要强调的是“可以处理区间型变量”不代表“快速处理区间型变量”,如果输入变量只是类别型或次序型变量,决策树的搭建速度是很快的,但如果加上了区间型变量,视数据规模,其模型搭建速度可能会有所不同。
1700501027
1700501028
❑决策树对于数据的分布没有特别严格的要求。
1700501029
1700501030
❑对缺失值(Missing Value)很宽容,几乎不做任何处理就可以应用。
1700501031
1700501032
❑不容易受数据中极端值(异常值)的影响。
1700501033
1700501034
❑可以同时对付数据中线性和非线性的关系。
1700501035
1700501036
❑决策树通常还可以作为有效工具来帮助其他模型算法挑选自变量。决策树不仅本身对于数据的前期处理和清洗没有什么特别的要求和限制,它还会有效帮助别的模型算法去挑选自变量,因为决策树算法里结点的自变量选择方法完全适用于其他算法模型,包括卡方检验、Gini指数、信息增益等。
1700501037
1700501038
❑决策树算法使用信息原理对大样本的属性进行信息量分析,并计算各属性的信息量,找出反映类别的重要属性,可准确、高效地发现哪些属性对分类最有意义。这一点,对于区间型变量的分箱操作来说,意义非常重大。关于分箱操作,请参考本书8.5.3节。
1700501039
1700501040
1700501041
1700501042
1700501044
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2.6 决策树的缺点和注意事项
1700501045
1700501046
事物都是具有两面性的,有缺点不可怕,关键在于如何扬长避短,数据分析师不仅要清楚知道决策树的缺点,更需要掌握相应的注意事项,才可能取长补短,达到事半功倍的效果。
1700501047
1700501048
❑决策树最大的缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却并不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。学术界针对贪心算法不断进行改进探索,但是还没有可以在实践中大规模有效应用的成熟方案。
1700501049
1700501050
❑如果目标变量是连续型变量,那么决策树就不适用了,最好改用线性回归算法去解决。
1700501051
1700501052
❑决策树缺乏像回归或者聚类那样的丰富多样的检测指标和评价方法,这或许是今后算法研究者努力的一个方向。
1700501053
1700501054
❑当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。针对这种情况,数据分析师需要进行数据转换,比如分箱和多次模型验证和测试,确保其具有稳定性。
1700501055
1700501056
❑决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失某些重要的信息。尤其是当分箱前的区间型变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。
1700501057
1700501058
1700501059
1700501060
[
上一页 ]
[ :1.700501011e+09 ]
[
下一页 ]