1700501040
1700501041
1700501042
1700501044
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.2.6 决策树的缺点和注意事项
1700501045
1700501046
事物都是具有两面性的,有缺点不可怕,关键在于如何扬长避短,数据分析师不仅要清楚知道决策树的缺点,更需要掌握相应的注意事项,才可能取长补短,达到事半功倍的效果。
1700501047
1700501048
❑决策树最大的缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却并不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。学术界针对贪心算法不断进行改进探索,但是还没有可以在实践中大规模有效应用的成熟方案。
1700501049
1700501050
❑如果目标变量是连续型变量,那么决策树就不适用了,最好改用线性回归算法去解决。
1700501051
1700501052
❑决策树缺乏像回归或者聚类那样的丰富多样的检测指标和评价方法,这或许是今后算法研究者努力的一个方向。
1700501053
1700501054
❑当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。针对这种情况,数据分析师需要进行数据转换,比如分箱和多次模型验证和测试,确保其具有稳定性。
1700501055
1700501056
❑决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因为分箱丧失某些重要的信息。尤其是当分箱前的区间型变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。
1700501057
1700501058
1700501059
1700501060
1700501062
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.3 逻辑回归技术的实践应用和注意事项
1700501063
1700501064
回归分析,在此主要是指包括逻辑回归技术和多元线性回归技术,是数量统计学中应用最广泛的一个分析工具,也是数据分析挖掘实践中应用得最广泛的一种分析方法(技术)。尽管从狭隘的界定来看,回归分析技术属于统计分析的范畴,但是正如本书开头所阐述的那样,绝对地划清统计分析和数据挖掘的界线,对于数据分析挖掘实践来说是没有任何意义的。只要能解决实际的业务问题,只要能提升企业的运营效率,它就是好技术,况且目前在数据挖掘实践中也大量应用回归分析技术。因此,本节将专门讨论逻辑回归技术。
1700501065
1700501067
10.3.1 逻辑回归的原理和核心要素
1700501068
1700501069
当目标变量是二元变量(即是与否)的时候,逻辑回归分析是一个非常成熟的、可靠的主流模型算法。
1700501070
1700501071
对于二元(是与否)的目标变量来说,逻辑回归的目的就是要预测一组自变量数值相对应的因变量是“是”的概率,这个概率P是介于[0,1]之间的。如果要用线性回归方法来进行概率计算,计算的结果很可能是超出[0,1]范围的。在这种情况下,就需要用到专门的概率计算公式了,或叫Sigmoid函数,其计算公式如下:
1700501072
1700501073
1700501074
1700501075
1700501076
上述概率算法可以确保二元目标变量的预测概率P是介于[0,1]之间的。
1700501077
1700501078
其中,β0是常数,β1到βk是自变量x1到xk各自所对应的系数。
1700501079
1700501080
按上述公式应用后的Sigmoid分布曲线如图10-2所示。
1700501081
1700501082
1700501083
1700501084
1700501085
图10-2 Sigmoid分布曲线
1700501086
1700501087
接下来进一步深入理解,这里引入了可能性比率(ODDS)这个概念。
1700501088
1700501089
可能性比率(ODDS)是指一件事情发生的概率除以这件事情不发生的概率后得到的值,博彩活动中的赔率就是可能性比率,其在现实生活中是一个广为人知的应用案例。
[
上一页 ]
[ :1.70050104e+09 ]
[
下一页 ]