打字猴:1.700500363e+09
1700500363 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497580]
1700500364 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.5 卡方检验
1700500365
1700500366 卡方检验(Chi-Square Statistics)在统计学里属于非参数检验,主要用来度量类别型变量,包括次序型变量等定性变量之间的关联性以及比较两个或两个以上的样本率。其基本思想就是比较理论频数和实际频数的吻合程度或拟合度。作为数据挖掘中筛选自变量的重要方法,卡方检验主要是通过类别型目标变量,最常见的就是二元目标变量,0,1与类别型自变量之间的关联程度来进行检验的,关联性大的类别型自变量就有可能是重要的自变量,可以通过初步的筛选进入下一轮的考察。卡方检验的公式如下:
1700500367
1700500368
1700500369
1700500370
1700500371
1700500372
1700500373
1700500374 其中,表示各交叉分类频数的观测值,表示各交叉分类频数的期望值,各交叉分类频数观测值与期望值的偏差为。
1700500375
1700500376 当样本量较大时,X2统计量近似服从自由度为(R-1)(C-1)的X2(卡方)分布。从上述公式可以看出,X2的值与期望值、观测值和期望值之差有关,X2值越大表明观测值与期望值的差异越大,相对应的P-Value就越小,而P-Value代表的是上述差异发生的偶然性。所以,通常讲,如果P-Value值的小于0.01,同时X2,即是卡方(Chi-Square)比较大,则说明可以拒绝该自变量与因变量之间相互独立的原假设,也就是说该类别型自变量与目标变量之间有比较强的关联性,因此可以认为该自变量可能值得输入模型。
1700500377
1700500378
1700500379
1700500380
1700500381 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497581]
1700500382 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.6 IV和WOE
1700500383
1700500384 当目标变量是二元变量(Binary),自变量是区间型变量(Interval)时,可以通过IV(Information Value)和WOE(Weight of Evidence)进行自变量的判断和取舍。在应用IV和WOE的时候,需要把区间型自变量转换成类别型(次序型)自变量,同时要强调的是目标变量必须是二元变量(Binary),这两点是应用IV和WOE的前提条件。
1700500385
1700500386 举例来说,在一个“预测用户是否在信用卡使用上有信用欺诈嫌疑”的项目里,目标变量是“是否存在信用欺诈行为”,是个二元变量(0,1),0代表没有欺诈,1代表有欺诈;同时,自变量里有一个字段“用户的年收入”,在数据仓库的原始记录里,该字段“用户的年收入”是属于区间型变量(Interval)的,如果采用WOE和IV的指标方法判断其是否具有预测价值,即是否适合作为自变量放进模型里去预测,就需要先把这个区间型的变量“用户的年收入”进行转换,使其变成类别型变量(次序型变量),比如“分箱”成为具有4个区间的类别型变量,且这些变量分别为小于20 000元、[20 000,60 000)、[60 000,100 000),以及100 000元以上,共4类。
1700500387
1700500388 上述举例中的4类区间,又称为变量“用户的年收入”的4个属性(Attribute),针对每个属性(Attribute),可以计算样本数据里的WOE,公式如下:
1700500389
1700500390
1700500391
1700500392
1700500393 其中
1700500394
1700500395
1700500396
1700500397
1700500398
1700500399
1700500400
1700500401
1700500402
1700500403 在上述公式中,和分别代表在该属性值里,样本数据所包含的预测事件和非事件的数量;nevent和Nnonevent分别代表在全体样本数据里所包含的预测事件和非事件的总量。
1700500404
1700500405 而一个变量的总的预测能力是通过IV(Information Value)来表现的,它是该变量的各个属性的WOE的加权总和,IV代表了该变量区分目标变量中的事件与非事件的能力,具体计算公式如下。
1700500406
1700500407
1700500408
1700500409
1700500410 与IV有相似作用的一个变量是Gini分数(Gini Score),Gini分数的计算步骤如下:
1700500411
1700500412 1)根据该字段里每个属性所包含的预测事件(Event)与非事件(Nonevent)的比率,按照各属性的比率的降序进行排列。比如,该字段共有m个属性,排序后共有m个组,每个组对应一个具体的属性,第一组就是包含预测事件比率最高的那个组。
[ 上一页 ]  [ :1.700500363e+09 ]  [ 下一页 ]