打字猴:1.700500363e+09

1700500363 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497580]

1700500364 数据挖掘与数据化运营实战：思路、方法、技巧与应用 8.6.5　卡方检验

1700500365

1700500366 卡方检验（Chi-Square Statistics）在统计学里属于非参数检验，主要用来度量类别型变量，包括次序型变量等定性变量之间的关联性以及比较两个或两个以上的样本率。其基本思想就是比较理论频数和实际频数的吻合程度或拟合度。作为数据挖掘中筛选自变量的重要方法，卡方检验主要是通过类别型目标变量，最常见的就是二元目标变量，0,1与类别型自变量之间的关联程度来进行检验的，关联性大的类别型自变量就有可能是重要的自变量，可以通过初步的筛选进入下一轮的考察。卡方检验的公式如下：

1700500367

1700500368

1700500369

1700500370

1700500371

1700500372

1700500373

1700500374 其中，表示各交叉分类频数的观测值，表示各交叉分类频数的期望值，各交叉分类频数观测值与期望值的偏差为。

1700500375

1700500376 当样本量较大时，X2统计量近似服从自由度为(R-1)(C-1)的X2（卡方）分布。从上述公式可以看出，X2的值与期望值、观测值和期望值之差有关，X2值越大表明观测值与期望值的差异越大，相对应的P-Value就越小，而P-Value代表的是上述差异发生的偶然性。所以，通常讲，如果P-Value值的小于0.01，同时X2，即是卡方（Chi-Square）比较大，则说明可以拒绝该自变量与因变量之间相互独立的原假设，也就是说该类别型自变量与目标变量之间有比较强的关联性，因此可以认为该自变量可能值得输入模型。

1700500377

1700500378

1700500379

1700500380

1700500381 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497581]

1700500382 数据挖掘与数据化运营实战：思路、方法、技巧与应用 8.6.6　IV和WOE

1700500383

1700500384 当目标变量是二元变量（Binary），自变量是区间型变量（Interval）时，可以通过IV（Information Value）和WOE（Weight of Evidence）进行自变量的判断和取舍。在应用IV和WOE的时候，需要把区间型自变量转换成类别型（次序型）自变量，同时要强调的是目标变量必须是二元变量（Binary），这两点是应用IV和WOE的前提条件。

1700500385

1700500386 举例来说，在一个“预测用户是否在信用卡使用上有信用欺诈嫌疑”的项目里，目标变量是“是否存在信用欺诈行为”，是个二元变量（0,1），0代表没有欺诈，1代表有欺诈；同时，自变量里有一个字段“用户的年收入”，在数据仓库的原始记录里，该字段“用户的年收入”是属于区间型变量（Interval）的，如果采用WOE和IV的指标方法判断其是否具有预测价值，即是否适合作为自变量放进模型里去预测，就需要先把这个区间型的变量“用户的年收入”进行转换，使其变成类别型变量（次序型变量），比如“分箱”成为具有4个区间的类别型变量，且这些变量分别为小于20 000元、[20 000,60 000)、[60 000,100 000），以及100 000元以上，共4类。

1700500387

1700500388 上述举例中的4类区间，又称为变量“用户的年收入”的4个属性（Attribute），针对每个属性（Attribute），可以计算样本数据里的WOE，公式如下：

1700500389

1700500390