打字猴:1.700539558e+09
1700539558
1700539559 分析与解答
1700539560
1700539561 ■ Boosting
1700539562
1700539563 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。
1700539564
1700539565 它的基本思路是将基分类器层层叠加,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。
1700539566
1700539567 Boosting的过程很类似于人类学习的过程(见图12.1),我们学习新知识的过程往往是迭代式的,第一遍学习的时候,我们会记住一部分知识,但往往也会犯一些错误,对于这些错误,我们的印象会很深。第二遍学习的时候,就会针对犯过错误的知识加强学习,以减少类似的错误发生。不断循环往复,直到犯错误的次数减少到很低的程度。
1700539568
1700539569
1700539570
1700539571
1700539572 图12.1 Boosting主要思想:迭代式学习
1700539573
1700539574 ■ Bagging
1700539575
1700539576 Bagging与Boosting的串行训练方式不同,Bagging方法在训练过程中,各基分类器之间无强依赖,可以进行并行训练。其中很著名的算法之一是基于决策树基分类器的随机森林(Random Forest)。为了让基分类器之间互相独立,将训练集分为若干子集(当训练样本数量较少时,子集之间可能有交叠)。Bagging方法更像是一个集体决策的过程,每个个体都进行单独学习,学习的内容可以相同,也可以不同,也可以部分重叠。但由于个体之间存在差异性,最终做出的判断不会完全一致。在最终做决策时,每个个体单独作出判断,再通过投票的方式做出最后的集体决策(见图12.2)。
1700539577
1700539578
1700539579
1700539580
1700539581 图12.2 Bagging主要思想:集体投票决策
1700539582
1700539583 我们再从消除基分类器的偏差和方差的角度来理解Boosting和Bagging方法的差异。基分类器,有时又被称为弱分类器,因为基分类器的错误率要大于集成分类器。基分类器的错误,是偏差和方差两种错误之和。偏差主要是由于分类器的表达能力有限导致的系统性错误,表现在训练误差不收敛。方差是由于分类器对于样本分布过于敏感,导致在训练样本数较少时,产生过拟合。
1700539584
1700539585 Boosting方法是通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差。Bagging方法则是采取分而治之的策略,通过对训练样本多次采样,并分别训练出多个不同模型,然后做综合,来减小集成分类器的方差。假设所有基分类器出错的概率是独立的,在某个测试样本上,用简单多数投票方法来集成结果,超过半数基分类器出错的概率会随着基分类器的数量增加而下降。
1700539586
1700539587 图12.3是Bagging算法的示意图,Model 1、Model 2、Model 3都是用训练集的一个子集训练出来的,单独来看,它们的决策边界都很曲折,有过拟合的倾向。集成之后的模型(红线所示)的决策边界就比各个独立的模型平滑了,这是由于集成的加权投票方法,减小了方差。
1700539588
1700539589
1700539590
1700539591
1700539592 图12.3 Bagging算法的一个示意图
1700539593
1700539594 逸闻趣事 
1700539595
1700539596  
1700539597
1700539598 里奥·布雷曼
1700539599
1700539600 里奥·布雷曼(Leo Breiman)是20世纪著名的统计学家,他是加州大学伯克利分校教授和美国科学院院士。他是CART的发明者之一,Bagging方法和随机森林的提出者。虽然已经于2005年仙逝,但他每年的论文被引用次数仍在稳步增长,仅仅2017年就有一万一千余次引用,可以说他一直活在统计、机器学习研究者们心中。
1700539601
1700539602 布雷曼有着传奇的一生:
1700539603
1700539604 布雷曼的本科是在以高门槛著称的加州理工物理系度过的,大一他的成绩很好,也拿到了奖学金。然而大二开始,他对课程丧失了兴趣,一直到大四,成绩一直在及格线挣扎。学物理不成,他凭借着数学天赋,1954年在加州大学伯克利分校获得了数学博士学位。然而,他接下来却并没有从事学术,而且跑去参军了。后来他去加州大学洛杉矶分校担任教职,直到1980年又回到伯克利担任教授,此时离他从伯克利毕业,已经过去了25年。
1700539605
1700539606 最后,引用两段布雷曼荣退后,1994年时在伯克利统计系毕业时的讲话:
1700539607
[ 上一页 ]  [ :1.700539558e+09 ]  [ 下一页 ]