打字猴:1.70053953e+09
1700539530 百面机器学习:算法工程师带你去面试 [:1700532238]
1700539531 百面机器学习:算法工程师带你去面试 第12章 集成学习
1700539532
1700539533 面对一个机器学习问题,通常有两种策略。一种是研发人员尝试各种模型,选择其中表现最好的模型做重点调参优化。这种策略类似于奥运会比赛,通过强强竞争来选拔最优的运动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同贤明的君主广泛地听取众多谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的分类器称为基分类器。
1700539534
1700539535 俗语说“三个臭皮匠,顶一个诸葛亮”,基分类器就类似于“臭皮匠”,而之前介绍的很多复杂模型可以认为是“诸葛亮”。即使单一一个“臭皮匠”的决策能力不强,我们有效地把多个“臭皮匠”组织结合起来,其决策能力很有可能超过“诸葛亮”。而如何将这些基分类器集成起来,就是本章要讨论的重点。
1700539536
1700539537 集成学习不仅在学界的研究热度不减,在业界和众多机器学习竞赛中也有非常成功的应用。例如在Kaggle竞赛中所向披靡的XGBoost,就是成功应用集成学习思想的一个例子。
1700539538
1700539539
1700539540
1700539541
1700539542 百面机器学习:算法工程师带你去面试 [:1700532239]
1700539543 百面机器学习:算法工程师带你去面试 01 集成学习的种类
1700539544
1700539545
1700539546
1700539547 场景描述
1700539548
1700539549 集成学习是一大类模型融合策略和方法的统称,其中包含多种集成学习的思想。本题希望考察的是读者对于各主要集成学习方法的基本了解程度。
1700539550
1700539551 知识点
1700539552
1700539553 Boosting,Bagging,基分类器
1700539554
1700539555 问题 集成学习分哪几种?他们有何异同?
1700539556
1700539557 难度:★☆☆☆☆
1700539558
1700539559 分析与解答
1700539560
1700539561 ■ Boosting
1700539562
1700539563 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。
1700539564
1700539565 它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
1700539566
1700539567 Boosting的过程很类似于人类学习的过程(见图12.1),我们学习新知识的过程往往是迭代式的,第一遍学习的时候,我们会记住一部分知识,但往往也会犯一些错误,对于这些错误,我们的印象会很深。第二遍学习的时候,就会针对犯过错误的知识加强学习,以减少类似的错误发生。不断循环往复,直到犯错误的次数减少到很低的程度。
1700539568
1700539569
1700539570
1700539571
1700539572 图12.1 Boosting主要思想:迭代式学习
1700539573
1700539574 ■ Bagging
1700539575
1700539576 Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林(Random Forest)。为了让基分类器之间互相独立,将训练集分为若干子集(当训练样本数量较少时,子集之间可能有交叠)。Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出的判断不会完全一致。在最终做决策时,每个个体单独作出判断,再通过投票的方式做出最后的集体决策(见图12.2)。
1700539577
1700539578
1700539579
[ 上一页 ]  [ :1.70053953e+09 ]  [ 下一页 ]