打字猴:1.700500381e+09

1700500381 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497581]

1700500382 数据挖掘与数据化运营实战：思路、方法、技巧与应用 8.6.6　IV和WOE

1700500383

1700500384 当目标变量是二元变量（Binary），自变量是区间型变量（Interval）时，可以通过IV（Information Value）和WOE（Weight of Evidence）进行自变量的判断和取舍。在应用IV和WOE的时候，需要把区间型自变量转换成类别型（次序型）自变量，同时要强调的是目标变量必须是二元变量（Binary），这两点是应用IV和WOE的前提条件。

1700500385

1700500386 举例来说，在一个“预测用户是否在信用卡使用上有信用欺诈嫌疑”的项目里，目标变量是“是否存在信用欺诈行为”，是个二元变量（0,1），0代表没有欺诈，1代表有欺诈；同时，自变量里有一个字段“用户的年收入”，在数据仓库的原始记录里，该字段“用户的年收入”是属于区间型变量（Interval）的，如果采用WOE和IV的指标方法判断其是否具有预测价值，即是否适合作为自变量放进模型里去预测，就需要先把这个区间型的变量“用户的年收入”进行转换，使其变成类别型变量（次序型变量），比如“分箱”成为具有4个区间的类别型变量，且这些变量分别为小于20 000元、[20 000,60 000)、[60 000,100 000），以及100 000元以上，共4类。

1700500387

1700500388 上述举例中的4类区间，又称为变量“用户的年收入”的4个属性（Attribute），针对每个属性（Attribute），可以计算样本数据里的WOE，公式如下：

1700500389

1700500390