打字猴:1.700539779e+09
1700539779 百面机器学习:算法工程师带你去面试 [:1700532243]
1700539780 百面机器学习:算法工程师带你去面试 05 梯度提升决策树的基本原理
1700539781
1700539782
1700539783
1700539784 场景描述
1700539785
1700539786 梯度提升决策树(Gradient Boosting Decision Tree,GBDT)是Boosting算法中非常流行的模型,也是近来在机器学习竞赛、商业应用中表现都非常优秀的模型。GBDT非常好地体现了“从错误中学习”的理念,基于决策树预测的残差进行迭代的学习。GBDT几乎是算法工程师的必备技能,也是机器学习面试中常考察的内容。
1700539787
1700539788 知识点
1700539789
1700539790 GBDT,CART
1700539791
1700539792 问题1 GBDT的基本原理是什么?
1700539793
1700539794 难度:★★☆☆☆
1700539795
1700539796 分析与解答
1700539797
1700539798 本章第一节提到Bagging和Boosting两大集成学习的框架。相比于Bagging中各个弱分类器可以独立地进行训练,Boosting中的弱分类器需要依次生成。在每一轮迭代中,基于已生成的弱分类器集合(即当前模型)的预测结果,新的弱分类器会重点关注那些还没有被正确预测的样本。
1700539799
1700539800 Gradient Boosting是Boosting中的一大类算法,其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器,然后将训练好的弱分类器以累加的形式结合到现有模型中。算法1描述了Gradient Boosting算法的基本流程,在每一轮迭代中,首先计算出当前模型在所有样本上的负梯度,然后以该值为目标训练一个新的弱分类器进行拟合并计算出该弱分类器的权重,最终实现对模型的更新。Gradient Boosting算法的伪代码如图12.6所示。
1700539801
1700539802
1700539803
1700539804
1700539805 图12.6 Gradient Boosting算法伪代码
1700539806
1700539807 采用决策树作为弱分类器的Gradient Boosting算法被称为GBDT,有时又被称为MART(Multiple Additive Regression Tree)。GBDT中使用的决策树通常为CART。
1700539808
1700539809 用一个很简单的例子来解释一下GBDT训练的过程,如图12.7所示。模型的任务是预测一个人的年龄,训练集只有A、B、C、D 4个人,他们的年龄分别是14、16、24、26,特征包括了“月购物金额”“上网时长”“上网历史”等。下面开始训练第一棵树,训练的过程跟传统决策树相同,简单起见,我们只进行一次分枝。训练好第一棵树后,求得每个样本预测值与真实值之间的残差。可以看到,A、B、C、D的残差分别是−1、1、−1、1。这时我们就用每个样本的残差训练下一棵树,直到残差收敛到某个阈值以下,或者树的总数达到某个上限为止。
1700539810
1700539811
1700539812
1700539813
1700539814 图12.7 GBDT的一个例子
1700539815
1700539816 由于GBDT是利用残差训练的,在预测的过程中,我们也需要把所有树的预测值加起来,得到最终的预测结果。
1700539817
1700539818 GBDT使用梯度提升(Gradient Boosting)作为训练方法,而在逻辑回归或者神经网络的训练过程中往往采用梯度下降(Gradient Descent)作为训练方法,二者之间有什么联系和区别吗?
1700539819
1700539820 问题2 梯度提升和梯度下降的区别和联系是什么?
1700539821
1700539822 难度:★★☆☆☆
1700539823
1700539824 分析与解答
1700539825
1700539826 表12.1是梯度提升算法和梯度下降算法的对比情况。可以发现,两者都是在每一轮迭代中,利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新,只不过在梯度下降中,模型是以参数化形式表示,从而模型的更新等价于参数的更新。而在梯度提升中,模型并不需要进行参数化表示,而是直接定义在函数空间中,从而大大扩展了可以使用的模型种类。
1700539827
1700539828 表12.1 梯度提升算法和梯度下降算法的对比
[ 上一页 ]  [ :1.700539779e+09 ]  [ 下一页 ]