打字猴:1.700534509e+09
1700534509
1700534510
1700534511
1700534512
1700534513
1700534514 显然,特征“写代码”的信息增益最大,所有的样本根据此特征,可以直接被分到叶结点(即见或不见)中,完成决策树生长。当然,在实际应用中,决策树往往不能通过一个特征就完成构建,需要在经验熵非0的类别中继续生长。
1700534515
1700534516 ■ C4.5——最大信息增益比
1700534517
1700534518 特征A对于数据集D的信息增益比定义为
1700534519
1700534520
1700534521
1700534522
1700534523 (3.21)
1700534524
1700534525 其中
1700534526
1700534527
1700534528
1700534529
1700534530 (3.22)
1700534531
1700534532 称为数据集D关于A的取值熵。针对上述问题,我们可以根据式(3.22)求出数据集关于每个特征的取值熵为
1700534533
1700534534
1700534535
1700534536
1700534537
1700534538
1700534539
1700534540
1700534541
1700534542
1700534543
1700534544 .
1700534545
1700534546 于是,根据式(3.21)可计算出各个特征的信息增益比为
1700534547
1700534548
1700534549
1700534550
1700534551 信息增益比最大的仍是特征“写代码”,但通过信息增益比,特征“年龄”对应的指标上升了,而特征“长相”和特征“工资”却有所下降。
1700534552
1700534553 ■ CART——最大基尼指数(Gini)
1700534554
1700534555 Gini描述的是数据的纯度,与信息熵含义类似。
1700534556
1700534557
1700534558
[ 上一页 ]  [ :1.700534509e+09 ]  [ 下一页 ]