1700501020
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2.5 决策树的应用优势
1700501021
1700501022
在数据挖掘的实践应用中,决策树体现了如下明显的优势和竞争力:
1700501023
1700501024
❑决策树模型非常直观,生成的一系列“如果……那么……”的逻辑判断很容易让人理解和应用。这个特点是决策树赢得广泛应用的最主要原因,真正体现了简单、直观、通俗、易懂。
1700501025
1700501026
❑决策树搭建和应用的速度比较快,并且可以处理区间型变量(Interval)和类别型变量(Category)。但是要强调的是“可以处理区间型变量”不代表“快速处理区间型变量”,如果输入变量只是类别型或次序型变量,决策树的搭建速度是很快的,但如果加上了区间型变量,视数据规模,其模型搭建速度可能会有所不同。
1700501027
1700501028
❑决策树对于数据的分布没有特别严格的要求。
1700501029
1700501030
❑对缺失值(Missing Value)很宽容,几乎不做任何处理就可以应用。
1700501031
1700501032
❑不容易受数据中极端值(异常值)的影响。
1700501033
1700501034
❑可以同时对付数据中线性和非线性的关系。
1700501035
1700501036
❑决策树通常还可以作为有效工具来帮助其他模型算法挑选自变量。决策树不仅本身对于数据的前期处理和清洗没有什么特别的要求和限制,它还会有效帮助别的模型算法去挑选自变量,因为决策树算法里结点的自变量选择方法完全适用于其他算法模型,包括卡方检验、Gini指数、信息增益等。
1700501037
1700501038
❑决策树算法使用信息原理对大样本的属性进行信息量分析,并计算各属性的信息量,找出反映类别的重要属性,可准确、高效地发现哪些属性对分类最有意义。这一点,对于区间型变量的分箱操作来说,意义非常重大。关于分箱操作,请参考本书8.5.3节。
1700501039
1700501040
1700501041
1700501042
1700501044
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2.6 决策树的缺点和注意事项
1700501045
1700501046
事物都是具有两面性的,有缺点不可怕,关键在于如何扬长避短,数据分析师不仅要清楚知道决策树的缺点,更需要掌握相应的注意事项,才可能取长补短,达到事半功倍的效果。
1700501047
1700501048
❑决策树最大的缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却并不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。学术界针对贪心算法不断进行改进探索,但是还没有可以在实践中大规模有效应用的成熟方案。
1700501049
1700501050
❑如果目标变量是连续型变量,那么决策树就不适用了,最好改用线性回归算法去解决。
1700501051
1700501052
❑决策树缺乏像回归或者聚类那样的丰富多样的检测指标和评价方法,这或许是今后算法研究者努力的一个方向。
1700501053
1700501054
❑当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。针对这种情况,数据分析师需要进行数据转换,比如分箱和多次模型验证和测试,确保其具有稳定性。
1700501055
1700501056
❑决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失某些重要的信息。尤其是当分箱前的区间型变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。
1700501057
1700501058
1700501059
1700501060
1700501062
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.3 逻辑回归技术的实践应用和注意事项
1700501063
1700501064
回归分析,在此主要是指包括逻辑回归技术和多元线性回归技术,是数量统计学中应用最广泛的一个分析工具,也是数据分析挖掘实践中应用得最广泛的一种分析方法(技术)。尽管从狭隘的界定来看,回归分析技术属于统计分析的范畴,但是正如本书开头所阐述的那样,绝对地划清统计分析和数据挖掘的界线,对于数据分析挖掘实践来说是没有任何意义的。只要能解决实际的业务问题,只要能提升企业的运营效率,它就是好技术,况且目前在数据挖掘实践中也大量应用回归分析技术。因此,本节将专门讨论逻辑回归技术。
1700501065
1700501067
10.3.1 逻辑回归的原理和核心要素
1700501068
1700501069
当目标变量是二元变量(即是与否)的时候,逻辑回归分析是一个非常成熟的、可靠的主流模型算法。
[
上一页 ]
[ :1.70050102e+09 ]
[
下一页 ]