打字猴:1.700500381e+09
1700500381 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497581]
1700500382 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.6 IV和WOE
1700500383
1700500384 当目标变量是二元变量(Binary),自变量是区间型变量(Interval)时,可以通过IV(Information Value)和WOE(Weight of Evidence)进行自变量的判断和取舍。在应用IV和WOE的时候,需要把区间型自变量转换成类别型(次序型)自变量,同时要强调的是目标变量必须是二元变量(Binary),这两点是应用IV和WOE的前提条件。
1700500385
1700500386 举例来说,在一个“预测用户是否在信用卡使用上有信用欺诈嫌疑”的项目里,目标变量是“是否存在信用欺诈行为”,是个二元变量(0,1),0代表没有欺诈,1代表有欺诈;同时,自变量里有一个字段“用户的年收入”,在数据仓库的原始记录里,该字段“用户的年收入”是属于区间型变量(Interval)的,如果采用WOE和IV的指标方法判断其是否具有预测价值,即是否适合作为自变量放进模型里去预测,就需要先把这个区间型的变量“用户的年收入”进行转换,使其变成类别型变量(次序型变量),比如“分箱”成为具有4个区间的类别型变量,且这些变量分别为小于20 000元、[20 000,60 000)、[60 000,100 000),以及100 000元以上,共4类。
1700500387
1700500388 上述举例中的4类区间,又称为变量“用户的年收入”的4个属性(Attribute),针对每个属性(Attribute),可以计算样本数据里的WOE,公式如下:
1700500389
1700500390
1700500391
1700500392
1700500393 其中
1700500394
1700500395
1700500396
1700500397
1700500398
1700500399
1700500400
1700500401
1700500402
1700500403 在上述公式中,和分别代表在该属性值里,样本数据所包含的预测事件和非事件的数量;nevent和Nnonevent分别代表在全体样本数据里所包含的预测事件和非事件的总量。
1700500404
1700500405 而一个变量的总的预测能力是通过IV(Information Value)来表现的,它是该变量的各个属性的WOE的加权总和,IV代表了该变量区分目标变量中的事件与非事件的能力,具体计算公式如下。
1700500406
1700500407
1700500408
1700500409
1700500410 与IV有相似作用的一个变量是Gini分数(Gini Score),Gini分数的计算步骤如下:
1700500411
1700500412 1)根据该字段里每个属性所包含的预测事件(Event)与非事件(Nonevent)的比率,按照各属性的比率的降序进行排列。比如,该字段共有m个属性,排序后共有m个组,每个组对应一个具体的属性,第一组就是包含预测事件比率最高的那个组。
1700500413
1700500414
1700500415
1700500416 2)针对排序后的每个组,分别计算该组内的事件数量和非事件数量。
1700500417
1700500418 3)计算Gini指数,其公式如下:
1700500419
1700500420
1700500421
1700500422
1700500423 上述公式中,Nevent和Nnonevent分别代表样本数据里总的事件数量和非事件数量。
1700500424
1700500425 总体来说,应用IV、WOE、Gini Score3个指标时,可以在数据挖掘实践中实现以下目标:
1700500426
1700500427 ❑通过WOE的变化来调整出最佳的分箱阀值。通常的做法是先把一个区间型变量分成10~20个临时的区间,分别计算各自的WOE的值,然后根据WOE在各区间的变化趋势,做相应的合并,最终实现比较合理的区间划分。
1700500428
1700500429 ❑通过IV值或者Gini分数,筛选出有较高预测价值的自变量,投入模型的训练中。
1700500430
[ 上一页 ]  [ :1.700500381e+09 ]  [ 下一页 ]