1700539618
百面机器学习:算法工程师带你去面试 02 集成学习的步骤和例子
1700539619
1700539620
1700539621
1700539622
场景描述
1700539623
1700539624
虽然集成学习的具体算法和策略各不相同,但都共享同样的基本步骤。本小节希望考察读者对于集成学习基本步骤的理解,并希望结合具体的集成学习算法,详细解读集成学习的具体过程。
1700539625
1700539626
知识点
1700539627
1700539628
集成学习,Adaboost,梯度提升决策树
1700539629
1700539630
问题 集成学习有哪些基本步骤?请举几个集成学习的例子
1700539631
1700539632
难度:★★☆☆☆
1700539633
1700539634
分析与解答
1700539635
1700539636
集成学习一般可分为以下3个步骤。
1700539637
1700539638
(1)找到误差互相独立的基分类器。
1700539639
1700539640
(2)训练基分类器。
1700539641
1700539642
(3)合并基分类器的结果。
1700539643
1700539644
合并基分类器的方法有voting和stacking两种。前者是用投票的方式,将获得最多选票的结果作为最终的结果。后者是用串行的方式,把前一个基分类器的结果输出到下一个分类器,将所有基分类器的输出结果相加(或者用更复杂的算法融合,比如把各基分类器的输出作为特征,使用逻辑回归作为融合模型进行最后的结果预测)作为最终的输出。以Adaboost为例,其基分类器的训练和合并的基本步骤如下。
1700539645
1700539646
(1)确定基分类器:这里可以选取ID3决策树作为基分类器。事实上,任何分类模型都可以作为基分类器,但树形模型由于结构简单且较易产生随机性所以比较常用。
1700539647
1700539648
1700539649
(2)训练基分类器:假设训练集为{xi,yi},i=1,…,N,其中yi{−1,1},并且有T个基分类器,则可以按照如下过程来训练基分类器。
1700539650
1700539651
1700539652
1700539653
1700539654
1700539655
1700539656
1700539657
初始化采样分布D1(i)=1/N; 令 t = 1, 2,…, T 循环: 从训练集中,按照Dt分布,采样出子集;用St训练出基分类器ht;计算ht的错误率:,其中I[]为判别函数;计算基分类器ht权重;设置下一次采样
1700539658
1700539659
(12.1)
1700539660
1700539661
并将它归一化为一个概率分布函数。
1700539662
1700539663
1700539664
(3)合并基分类器:给定一个未知样本z,输出分类结果为加权投票的结果。
1700539665
1700539666
从Adaboost的例子中我们可以明显地看到Boosting的思想,对分类正确的样本降低了权重,对分类错误的样本升高或者保持权重不变。在最后进行模型融合的过程中,也根据错误率对基分类器进行加权融合。错误率低的分类器拥有更大的“话语权”。
[
上一页 ]
[ :1.700539617e+09 ]
[
下一页 ]