打字猴:1.700501389e+09
1700501389 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497637]
1700501390 数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.4 初步的相关性检验和共线性排查
1700501391
1700501392 在该阶段进行初步的相关性检验,主要有3个目的:一是进行潜在自变量之间的相关性检验后,高度相关的自变量就可以择一进入模型,而不需要都放进去。二是通过相关性检验,排除共线性高的相关字段,为后期的模型搭建做好前期的基础清查工作。三是,如果潜在自变量与目标变量之间的高度线性相关,则可以作为筛选自变量的方法之一进行初步筛选。
1700501393
1700501394 图10-5是相关性检验的部分截屏,从中可以发现,tradable_grade45_offer_bu与valid_sale_offer_cnt线性相关系数为0.668 53,且P值小于0.000 1,这说明这两变量之间有比较强的线性相关性,在后续的建模中至多只能二选一,也就是说只能挑选出来一个作为潜在的自变量,然后根据其他筛选自变量的方法综合考虑是否最终进入模型中。
1700501395
1700501396
1700501397
1700501398
1700501399 图10-5 相关性检验的截屏图
1700501400
1700501401
1700501402
1700501403
1700501404 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497638]
1700501405 数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.5 潜在自变量的分布转换
1700501406
1700501407 本环节主要是针对前面的基础统计结论,包括偏度Skewness和峰度Kurtosis进行分箱转换、以正态分布为目的的转换,以及其他形式的转换。
1700501408
1700501409 比如,在前面的基础统计结论里,我们发现:
1700501410
1700501411 Valid_Sale_Offer_Cnt偏度(Skewness)为17.008,峰度Kurtosis为438.62,这样的分布非常不均衡,不利于后期模型的拟合,因此需要对这些分布不均匀的变量进行转换,(如图10-6和图10-7)。
1700501412
1700501413
1700501414
1700501415
1700501416 图10-6 变量Valid_Sale_Offer_Cnt的原始分布图
1700501417
1700501418
1700501419
1700501420
1700501421 图10-7 变量Valid_Sale_Offer_Cnt取对数后的分布图
1700501422
1700501423
1700501424
1700501425
1700501426 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497639]
1700501427 数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.6 自变量的筛选
1700501428
1700501429 自变量的筛选有很多方法,比如本书第8.6节就具体分享了各种不同筛选输入变量的方法。在数据挖掘商业实战中,通常的做法是分别采用多种方法,这样可以防止单一筛选方法有可能遗漏一些重要的变量。
1700501430
1700501431 在本项目里,数据分析师采用了多种筛选方法逐一尝试、对比,最终得到了以下一些重要变量,并将其作为自变量收入模型当中,如表10-1所示。
1700501432
1700501433
1700501434
1700501435
1700501436
1700501437
1700501438
[ 上一页 ]  [ :1.700501389e+09 ]  [ 下一页 ]