打字猴:1.70053958e+09
1700539580
1700539581 图12.2 Bagging主要思想:集体投票决策
1700539582
1700539583 我们再从消除基分类器的偏差和方差的角度来理解Boosting和Bagging方法的差异。基分类器,有时又被称为弱分类器,因为基分类器的错误率要大于集成分类器。基分类器的错误,是偏差和方差两种错误之和。偏差主要是由于分类器的表达能力有限导致的系统性错误,表现在训练误差不收敛。方差是由于分类器对于样本分布过于敏感,导致在训练样本数较少时,产生过拟合。
1700539584
1700539585 Boosting方法是通过逐步聚焦于基分类器分错的样本,减小集成分类器的偏差。Bagging方法则是采取分而治之的策略,通过对训练样本多次采样,并分别训练出多个不同模型,然后做综合,来减小集成分类器的方差。假设所有基分类器出错的概率是独立的,在某个测试样本上,用简单多数投票方法来集成结果,超过半数基分类器出错的概率会随着基分类器的数量增加而下降。
1700539586
1700539587 图12.3是Bagging算法的示意图,Model 1、Model 2、Model 3都是用训练集的一个子集训练出来的,单独来看,它们的决策边界都很曲折,有过拟合的倾向。集成之后的模型(红线所示)的决策边界就比各个独立的模型平滑了,这是由于集成的加权投票方法,减小了方差。
1700539588
1700539589
1700539590
1700539591
1700539592 图12.3 Bagging算法的一个示意图
1700539593
1700539594 逸闻趣事 
1700539595
1700539596  
1700539597
1700539598 里奥·布雷曼
1700539599
1700539600 里奥·布雷曼(Leo Breiman)是20世纪著名的统计学家,他是加州大学伯克利分校教授和美国科学院院士。他是CART的发明者之一,Bagging方法和随机森林的提出者。虽然已经于2005年仙逝,但他每年的论文被引用次数仍在稳步增长,仅仅2017年就有一万一千余次引用,可以说他一直活在统计、机器学习研究者们心中。
1700539601
1700539602 布雷曼有着传奇的一生:
1700539603
1700539604 布雷曼的本科是在以高门槛著称的加州理工物理系度过的,大一他的成绩很好,也拿到了奖学金。然而大二开始,他对课程丧失了兴趣,一直到大四,成绩一直在及格线挣扎。学物理不成,他凭借着数学天赋,1954年在加州大学伯克利分校获得了数学博士学位。然而,他接下来却并没有从事学术,而且跑去参军了。后来他去加州大学洛杉矶分校担任教职,直到1980年又回到伯克利担任教授,此时离他从伯克利毕业,已经过去了25年。
1700539605
1700539606 最后,引用两段布雷曼荣退后,1994年时在伯克利统计系毕业时的讲话:
1700539607
1700539608 “试问其他学科诸如物理学、数学和工程学的学生,25年后会和现在有何区别,答案很简单,没啥区别呗。毕竟两千多年前,阿基米德就在研究物理、微积分和工程,25年的变化又算什么呢。但迅速发展的统计学不一样,谁也不知道25年后会是什么样子。”
1700539609
1700539610 “事实上,我并没有学过任何统计学的课程。我的朋友、同事,曾任斯坦福大学统计系主任的杰里·弗莱曼也没有,他原本是一位实验物理学家。约翰·图基曾经是研究纯数学的。乔治·博克斯曾经是一位化学家。许多其他杰出的统计学家,也是因缘际会,来到统计学这条大船上的。”
1700539611
1700539612 一晃又快过去25年了,如今机器学习领域正如文中当年的统计学一样,迅速发展、不问出身。如果你对登上这条新船还有所犹豫的话,看看布雷曼他们的例子,或许会有共鸣。
1700539613
1700539614
1700539615
1700539616
1700539617 百面机器学习:算法工程师带你去面试 [:1700532240]
1700539618 百面机器学习:算法工程师带你去面试 02 集成学习的步骤和例子
1700539619
1700539620
1700539621
1700539622 场景描述
1700539623
1700539624 虽然集成学习的具体算法和策略各不相同,但都共享同样的基本步骤。本小节希望考察读者对于集成学习基本步骤的理解,并希望结合具体的集成学习算法,详细解读集成学习的具体过程。
1700539625
1700539626 知识点
1700539627
1700539628 集成学习,Adaboost,梯度提升决策树
1700539629
[ 上一页 ]  [ :1.70053958e+09 ]  [ 下一页 ]