1700500350
1700500351
1700500352
对于每个自变量Xi做偏回归显著性检验,其公式为:,其中,SSR-i为剔除变量Xi之后的回归平方和,SSR-SSR-i反映了在引入Xi之后,Xi对于回归平方和的贡献。
1700500353
1700500354
分别检查各自变量的Fi是否都大于相应的F0.05。
1700500355
1700500356
如果全部Fi都大于F0.05,则结束。
1700500357
1700500358
如果经检查发现有几个自变量的Fi小于F0.05,则每次只能删除其中的一个Xi,这个Xi是所有自变量中其Fi最无显著性的,然后再重新用剩下的自变量进行回归的构建,如此反复,直到所有的有显著性意义的自变量都进入回归方程,而没有显著性意义的变量都被剔除为止。
1700500359
1700500360
1700500361
1700500362
1700500364
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.5 卡方检验
1700500365
1700500366
卡方检验(Chi-Square Statistics)在统计学里属于非参数检验,主要用来度量类别型变量,包括次序型变量等定性变量之间的关联性以及比较两个或两个以上的样本率。其基本思想就是比较理论频数和实际频数的吻合程度或拟合度。作为数据挖掘中筛选自变量的重要方法,卡方检验主要是通过类别型目标变量,最常见的就是二元目标变量,0,1与类别型自变量之间的关联程度来进行检验的,关联性大的类别型自变量就有可能是重要的自变量,可以通过初步的筛选进入下一轮的考察。卡方检验的公式如下:
1700500367
1700500368
1700500369
1700500370
1700500371
1700500372
1700500373
1700500374
其中,表示各交叉分类频数的观测值,表示各交叉分类频数的期望值,各交叉分类频数观测值与期望值的偏差为。
1700500375
1700500376
当样本量较大时,X2统计量近似服从自由度为(R-1)(C-1)的X2(卡方)分布。从上述公式可以看出,X2的值与期望值、观测值和期望值之差有关,X2值越大表明观测值与期望值的差异越大,相对应的P-Value就越小,而P-Value代表的是上述差异发生的偶然性。所以,通常讲,如果P-Value值的小于0.01,同时X2,即是卡方(Chi-Square)比较大,则说明可以拒绝该自变量与因变量之间相互独立的原假设,也就是说该类别型自变量与目标变量之间有比较强的关联性,因此可以认为该自变量可能值得输入模型。
1700500377
1700500378
1700500379
1700500380
1700500382
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.6 IV和WOE
1700500383
1700500384
当目标变量是二元变量(Binary),自变量是区间型变量(Interval)时,可以通过IV(Information Value)和WOE(Weight of Evidence)进行自变量的判断和取舍。在应用IV和WOE的时候,需要把区间型自变量转换成类别型(次序型)自变量,同时要强调的是目标变量必须是二元变量(Binary),这两点是应用IV和WOE的前提条件。
1700500385
1700500386
举例来说,在一个“预测用户是否在信用卡使用上有信用欺诈嫌疑”的项目里,目标变量是“是否存在信用欺诈行为”,是个二元变量(0,1),0代表没有欺诈,1代表有欺诈;同时,自变量里有一个字段“用户的年收入”,在数据仓库的原始记录里,该字段“用户的年收入”是属于区间型变量(Interval)的,如果采用WOE和IV的指标方法判断其是否具有预测价值,即是否适合作为自变量放进模型里去预测,就需要先把这个区间型的变量“用户的年收入”进行转换,使其变成类别型变量(次序型变量),比如“分箱”成为具有4个区间的类别型变量,且这些变量分别为小于20 000元、[20 000,60 000)、[60 000,100 000),以及100 000元以上,共4类。
1700500387
1700500388
上述举例中的4类区间,又称为变量“用户的年收入”的4个属性(Attribute),针对每个属性(Attribute),可以计算样本数据里的WOE,公式如下:
1700500389
1700500390
1700500391
1700500392
1700500393
其中
1700500394
1700500395
1700500396
1700500397
1700500398
1700500399
[
上一页 ]
[ :1.70050035e+09 ]
[
下一页 ]