打字猴:1.700539542e+09

1700539542 百面机器学习：算法工程师带你去面试 [:1700532239]

1700539543 百面机器学习：算法工程师带你去面试 01　集成学习的种类

1700539544

1700539545

1700539546

1700539547 场景描述

1700539548

1700539549 集成学习是一大类模型融合策略和方法的统称，其中包含多种集成学习的思想。本题希望考察的是读者对于各主要集成学习方法的基本了解程度。

1700539550

1700539551 知识点

1700539552

1700539553 Boosting，Bagging，基分类器

1700539554

1700539555 问题　集成学习分哪几种？他们有何异同？

1700539556

1700539557 难度：★☆☆☆☆

1700539558

1700539559 分析与解答

1700539560

1700539561 ■ Boosting

1700539562

1700539563 Boosting方法训练基分类器时采用串行的方式，各个基分类器之间有依赖。

1700539564

1700539565 它的基本思路是将基分类器层层叠加，每一层在训练的时候，对前一层基分类器分错的样本，给予更高的权重。测试时，根据各层分类器的结果的加权得到最终结果。

1700539566

1700539567 Boosting的过程很类似于人类学习的过程（见图12.1），我们学习新知识的过程往往是迭代式的，第一遍学习的时候，我们会记住一部分知识，但往往也会犯一些错误，对于这些错误，我们的印象会很深。第二遍学习的时候，就会针对犯过错误的知识加强学习，以减少类似的错误发生。不断循环往复，直到犯错误的次数减少到很低的程度。

1700539568

1700539569

1700539570

1700539571

1700539572 图12.1　Boosting主要思想：迭代式学习

1700539573

1700539574 ■ Bagging

1700539575

1700539576 Bagging与Boosting的串行训练方式不同，Bagging方法在训练过程中，各基分类器之间无强依赖，可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林（Random Forest）。为了让基分类器之间互相独立，将训练集分为若干子集（当训练样本数量较少时，子集之间可能有交叠）。Bagging方法更像是一个集体决策的过程，每个个体都进行单独学习，学习的内容可以相同，也可以不同，也可以部分重叠。但由于个体之间存在差异性，最终做出的判断不会完全一致。在最终做决策时，每个个体单独作出判断，再通过投票的方式做出最后的集体决策（见图12.2）。

1700539577

1700539578

1700539579

1700539580

1700539581 图12.2　Bagging主要思想：集体投票决策

1700539582

1700539583 我们再从消除基分类器的偏差和方差的角度来理解Boosting和Bagging方法的差异。基分类器，有时又被称为弱分类器，因为基分类器的错误率要大于集成分类器。基分类器的错误，是偏差和方差两种错误之和。偏差主要是由于分类器的表达能力有限导致的系统性错误，表现在训练误差不收敛。方差是由于分类器对于样本分布过于敏感，导致在训练样本数较少时，产生过拟合。

1700539584

1700539585 Boosting方法是通过逐步聚焦于基分类器分错的样本，减小集成分类器的偏差。Bagging方法则是采取分而治之的策略，通过对训练样本多次采样，并分别训练出多个不同模型，然后做综合，来减小集成分类器的方差。假设所有基分类器出错的概率是独立的，在某个测试样本上，用简单多数投票方法来集成结果，超过半数基分类器出错的概率会随着基分类器的数量增加而下降。

1700539586

1700539587 图12.3是Bagging算法的示意图，Model 1、Model 2、Model 3都是用训练集的一个子集训练出来的，单独来看，它们的决策边界都很曲折，有过拟合的倾向。集成之后的模型（红线所示）的决策边界就比各个独立的模型平滑了，这是由于集成的加权投票方法，减小了方差。

1700539588

1700539589

1700539590

1700539591

[ 上一页 ] [ :1.700539542e+09 ] [ 下一页 ]