打字猴:1.700539617e+09
1700539617 百面机器学习:算法工程师带你去面试 [:1700532240]
1700539618 百面机器学习:算法工程师带你去面试 02 集成学习的步骤和例子
1700539619
1700539620
1700539621
1700539622 场景描述
1700539623
1700539624 虽然集成学习的具体算法和策略各不相同,但都共享同样的基本步骤。本小节希望考察读者对于集成学习基本步骤的理解,并希望结合具体的集成学习算法,详细解读集成学习的具体过程。
1700539625
1700539626 知识点
1700539627
1700539628 集成学习,Adaboost,梯度提升决策树
1700539629
1700539630 问题 集成学习有哪些基本步骤?请举几个集成学习的例子
1700539631
1700539632 难度:★★☆☆☆
1700539633
1700539634 分析与解答
1700539635
1700539636 集成学习一般可分为以下3个步骤。
1700539637
1700539638 (1)找到误差互相独立的基分类器。
1700539639
1700539640 (2)训练基分类器。
1700539641
1700539642 (3)合并基分类器的结果。
1700539643
1700539644 合并基分类器的方法有voting和stacking两种。前者是用投票的方式,将获得最多选票的结果作为最终的结果。后者是用串行的方式,把前一个基分类器的结果输出到下一个分类器,将所有基分类器的输出结果相加(或者用更复杂的算法融合,比如把各基分类器的输出作为特征,使用逻辑回归作为融合模型进行最后的结果预测)作为最终的输出。以Adaboost为例,其基分类器的训练和合并的基本步骤如下。
1700539645
1700539646 (1)确定基分类器:这里可以选取ID3决策树作为基分类器。事实上,任何分类模型都可以作为基分类器,但树形模型由于结构简单且较易产生随机性所以比较常用。
1700539647
1700539648
1700539649 (2)训练基分类器:假设训练集为{xi,yi},i=1,…,N,其中yi{−1,1},并且有T个基分类器,则可以按照如下过程来训练基分类器。
1700539650
1700539651  
1700539652
1700539653
1700539654
1700539655
1700539656
1700539657 初始化采样分布D1(i)=1/N; 令 t = 1, 2,…, T 循环: 从训练集中,按照Dt分布,采样出子集;用St训练出基分类器ht;计算ht的错误率:,其中I[]为判别函数;计算基分类器ht权重;设置下一次采样
1700539658
1700539659 (12.1)
1700539660
1700539661 并将它归一化为一个概率分布函数。
1700539662
1700539663
1700539664 (3)合并基分类器:给定一个未知样本z,输出分类结果为加权投票的结果。
1700539665
1700539666 从Adaboost的例子中我们可以明显地看到Boosting的思想,对分类正确的样本降低了权重,对分类错误的样本升高或者保持权重不变。在最后进行模型融合的过程中,也根据错误率对基分类器进行加权融合。错误率低的分类器拥有更大的“话语权”。
[ 上一页 ]  [ :1.700539617e+09 ]  [ 下一页 ]