打字猴:1.700534374e+09
1700534374
1700534375 常用的决策树算法有ID3、C4.5、CART,它们构建树所使用的启发式函数各是什么?除了构建准则之外,它们之间的区别与联系是什么?
1700534376
1700534377 分析与解答
1700534378
1700534379 首先,我们回顾一下这几种决策树构造时使用的准则。
1700534380
1700534381 ■ ID3—— 最大信息增益
1700534382
1700534383 对于样本集合D,类别数为K,数据集D的经验熵表示为
1700534384
1700534385
1700534386
1700534387
1700534388 (3.18)
1700534389
1700534390 其中Ck是样本集合D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示样本集合的元素个数。
1700534391
1700534392 然后计算某个特征A对于数据集D的经验条件熵H(D|A)为
1700534393
1700534394
1700534395
1700534396
1700534397 (3.19)
1700534398
1700534399 其中,Di表示D中特征A取第i个值的样本子集,Dik表示Di中属于第k类的样本子集。
1700534400
1700534401 于是信息增益g(D,A)可以表示为二者之差,可得
1700534402
1700534403
1700534404
1700534405
1700534406 (3.20)
1700534407
1700534408 这些定义听起来有点像绕口令,不妨我们用一个例子来简单说明下计算过程。假设共有5个人追求场景中的女孩,年龄有两个属性(老,年轻),长相有三个属性(帅,一般,丑),工资有三个属性(高,中等,低),会写代码有两个属性(会,不会),最终分类结果有两类(见,不见)。我们根据女孩有监督的主观意愿可以得到表3.1。
1700534409
1700534410 表3.1 5个候选对象的属性以及女孩对应的主观意愿
1700534411
1700534412    
1700534413
1700534414   年龄 
1700534415
1700534416   长相 
1700534417
1700534418   工资 
1700534419
1700534420   写代码 
1700534421
1700534422   类别 
1700534423
[ 上一页 ]  [ :1.700534374e+09 ]  [ 下一页 ]