1700500410
与IV有相似作用的一个变量是Gini分数(Gini Score),Gini分数的计算步骤如下:
1700500411
1700500412
1)根据该字段里每个属性所包含的预测事件(Event)与非事件(Nonevent)的比率,按照各属性的比率的降序进行排列。比如,该字段共有m个属性,排序后共有m个组,每个组对应一个具体的属性,第一组就是包含预测事件比率最高的那个组。
1700500413
1700500414
1700500415
1700500416
2)针对排序后的每个组,分别计算该组内的事件数量和非事件数量。
1700500417
1700500418
3)计算Gini指数,其公式如下:
1700500419
1700500420
1700500421
1700500422
1700500423
上述公式中,Nevent和Nnonevent分别代表样本数据里总的事件数量和非事件数量。
1700500424
1700500425
总体来说,应用IV、WOE、Gini Score3个指标时,可以在数据挖掘实践中实现以下目标:
1700500426
1700500427
❑通过WOE的变化来调整出最佳的分箱阀值。通常的做法是先把一个区间型变量分成10~20个临时的区间,分别计算各自的WOE的值,然后根据WOE在各区间的变化趋势,做相应的合并,最终实现比较合理的区间划分。
1700500428
1700500429
❑通过IV值或者Gini分数,筛选出有较高预测价值的自变量,投入模型的训练中。
1700500430
1700500431
1700500432
1700500433
1700500435
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.7 部分建模算法自身的筛选功能
1700500436
1700500437
除了上述这些具体的、直接的指标计算和参考的方法之外,在数据挖掘商业实战中,还有一种“借力”的巧妙方法,那就是借助于一些成熟的算法进行初步的运算,利用模型的初步结果筛选出有价值的自变量,再把这些经过初期过滤的自变量放进模型和算法中进行真正意义上的建模和验证工作。
1700500438
1700500439
可供“借力”的算法或者模型包括决策树模型、回归(含线性回归和逻辑回归)模型等,在建模前期的变量筛选阶段,借力可以帮助初选出有价值的自变量。需要强调的是,在这些场景中,这些算法工具和模型可能无法实现最终的预测(分类)功能,而仅仅是用作自变量的初步筛选。
1700500440
1700500441
比如线性回归和逻辑回归,算法本身通过不断地增加或者剔除变量,来检验各输入变量对于预测的价值,这就是所谓的Stepwise算法,但是,即便如此,最好在使用之前先进行人为的初步筛选,从而把精简后的变量交给算法去选择。在大数据量建模的时候尤其要如此。
1700500442
1700500443
1700500444
1700500445
1700500447
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.8 降维的方法
1700500448
1700500449
在数据挖掘的实战中,面对数量庞大的原始变量,除了上述种种指标及思路外,还有一种方法也会经常被应用,那就是数据降维,具体来说,包括主成分分析和变量聚类等。其中,对于主成分分析,已在2.3.8节中进行了详细介绍;对于变量聚类,将在8.7节的共线性问题中做专门介绍。
1700500450
1700500451
通过采取降维的措施和方法,可以有效精简输入变量的数目,在一定程度上实现有效筛选模型输入变量的目标。
1700500452
1700500453
1700500454
1700500455
1700500457
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.9 最后的准则
1700500458
1700500459
本节到目前为止,谈到了数据挖掘实战中常见的筛选输入变量的各种方法和原理,这些分析技术层面的技巧和工具的熟练应用可以有效提高我们筛选输入变量的效率和质量。但是,业务环境千差万别,应用场景纷繁复杂,很多时候我们既要考虑技术层面的指标及判断方法,同时又要受实战环境中诸多因素的影响和制约,包括时间、资源、成本和目标等。
[
上一页 ]
[ :1.70050041e+09 ]
[
下一页 ]