打字猴:1.700539542e+09
1700539542 百面机器学习:算法工程师带你去面试 [:1700532239]
1700539543 百面机器学习:算法工程师带你去面试 01 集成学习的种类
1700539544
1700539545
1700539546
1700539547 场景描述
1700539548
1700539549 集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。本题希望考察的是读者对于各主要集成学习方法的基本了解程度。
1700539550
1700539551 知识点
1700539552
1700539553 Boosting,Bagging,基分类器
1700539554
1700539555 问题 集成学习分哪几种?他们有何异同?
1700539556
1700539557 难度:★☆☆☆☆
1700539558
1700539559 分析与解答
1700539560
1700539561 ■ Boosting
1700539562
1700539563 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。
1700539564
1700539565 它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
1700539566
1700539567 Boosting的过程很类似于人类学习的过程(见图12.1),我们学习新知识的过程往往是迭代式的,第一遍学习的时候,我们会记住一部分知识,但往往也会犯一些错误,对于这些错误,我们的印象会很深。第二遍学习的时候,就会针对犯过错误的知识加强学习,以减少类似的错误发生。不断循环往复,直到犯错误的次数减少到很低的程度。
1700539568
1700539569
1700539570
1700539571
1700539572 图12.1 Boosting主要思想:迭代式学习
1700539573
1700539574 ■ Bagging
1700539575
1700539576 Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林(Random Forest)。为了让基分类器之间互相独立,将训练集分为若干子集(当训练样本数量较少时,子集之间可能有交叠)。Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出的判断不会完全一致。在最终做决策时,每个个体单独作出判断,再通过投票的方式做出最后的集体决策(见图12.2)。
1700539577
1700539578
1700539579
1700539580
1700539581 图12.2 Bagging主要思想:集体投票决策
1700539582
1700539583 我们再从消除基分类器的偏差和方差的角度来理解Boosting和Bagging方法的差异。基分类器,有时又被称为弱分类器,因为基分类器的错误率要大于集成分类器。基分类器的错误,是偏差和方差两种错误之和。偏差主要是由于分类器的表达能力有限导致的系统性错误,表现在训练误差不收敛。方差是由于分类器对于样本分布过于敏感,导致在训练样本数较少时,产生过拟合。
1700539584
1700539585 Boosting方法是通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差。Bagging方法则是采取分而治之的策略,通过对训练样本多次采样,并分别训练出多个不同模型,然后做综合,来减小集成分类器的方差。假设所有基分类器出错的概率是独立的,在某个测试样本上,用简单多数投票方法来集成结果,超过半数基分类器出错的概率会随着基分类器的数量增加而下降。
1700539586
1700539587 图12.3是Bagging算法的示意图,Model 1、Model 2、Model 3都是用训练集的一个子集训练出来的,单独来看,它们的决策边界都很曲折,有过拟合的倾向。集成之后的模型(红线所示)的决策边界就比各个独立的模型平滑了,这是由于集成的加权投票方法,减小了方差。
1700539588
1700539589
1700539590
1700539591
[ 上一页 ]  [ :1.700539542e+09 ]  [ 下一页 ]