1700501370
1700501371
❑Company_Reg_Capital这个字段有少数的样本夹杂了中文,与绝大多数观察值中的数字格式不一致,容易引起机器的误判,需要直接把这些少数样本删除。
1700501372
1700501373
❑Credit_Status这个字段有将近40%是空缺的,经过业务讨论,决定直接删除该字段。
1700501374
1700501375
❑Bu_Name这个字段是中文输入,属于类别型变量,为了后期数据分析需要,将其转化为数字格式的类别型变量。
1700501376
1700501377
❑Credit_Balance_Amt有将近20%的观察值是N,而其余观察值是区间型数字变量,经过走访数据仓库相关人员,确认这些为N的观察值实际上应该是0。为了后期数据分析需要,将该字段所有为N的观察值替换成0。
1700501378
1700501379
同时,对原始变量进行基本的统计观察,图10-4是各字段的基本统计指标一览表。
1700501380
1700501381
1700501382
1700501383
1700501384
图10-4 各字段的基本统计指标一览表
1700501385
1700501386
1700501387
1700501388
1700501390
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.4 初步的相关性检验和共线性排查
1700501391
1700501392
在该阶段进行初步的相关性检验,主要有3个目的:一是进行潜在自变量之间的相关性检验后,高度相关的自变量就可以择一进入模型,而不需要都放进去。二是通过相关性检验,排除共线性高的相关字段,为后期的模型搭建做好前期的基础清查工作。三是,如果潜在自变量与目标变量之间的高度线性相关,则可以作为筛选自变量的方法之一进行初步筛选。
1700501393
1700501394
图10-5是相关性检验的部分截屏,从中可以发现,tradable_grade45_offer_bu与valid_sale_offer_cnt线性相关系数为0.668 53,且P值小于0.000 1,这说明这两变量之间有比较强的线性相关性,在后续的建模中至多只能二选一,也就是说只能挑选出来一个作为潜在的自变量,然后根据其他筛选自变量的方法综合考虑是否最终进入模型中。
1700501395
1700501396
1700501397
1700501398
1700501399
图10-5 相关性检验的截屏图
1700501400
1700501401
1700501402
1700501403
1700501405
数据挖掘与数据化运营实战:思路、方法、技巧与应用 10.6.5 潜在自变量的分布转换
1700501406
1700501407
本环节主要是针对前面的基础统计结论,包括偏度Skewness和峰度Kurtosis进行分箱转换、以正态分布为目的的转换,以及其他形式的转换。
1700501408
1700501409
比如,在前面的基础统计结论里,我们发现:
1700501410
1700501411
Valid_Sale_Offer_Cnt偏度(Skewness)为17.008,峰度Kurtosis为438.62,这样的分布非常不均衡,不利于后期模型的拟合,因此需要对这些分布不均匀的变量进行转换,(如图10-6和图10-7)。
1700501412
1700501413
1700501414
1700501415
1700501416
图10-6 变量Valid_Sale_Offer_Cnt的原始分布图
1700501417
1700501418
1700501419
[
上一页 ]
[ :1.70050137e+09 ]
[
下一页 ]