1700500252
8.6.1 为什么要筛选有效的输入变量
1700500253
1700500254
为什么要筛选有效的输入变量?有以下3个方面的理由:
1700500255
1700500256
❑筛选有效的输入变量是提高模型稳定性的需要。过多的输入变量很可能会带来干扰和过拟合等问题,这会导致模型的稳定性下降,模型的效果变差。所以,优质的模型一定是遵循输入变量少而精原则的。
1700500257
1700500258
❑筛选有效的输入变量是提高模型预测能力的需要。过多地输入变量会产生共线性问题,所谓共线性是指自变量之间存在较强的,甚至是完全的线性相关性。当自变量之间高度相关时,数据的小小变化,比如误差的发生都会引起模型参数严重震荡,明显降低模型的预测能力,关于共线性问题,将在8.6.3节做详细介绍。并且,共线性的发生也增加了对模型结果的解释困难,因为要更深入地分析和判断每个自变量对目标变量的影响程度。
1700500259
1700500260
❑当然,筛选有效的输入变量也是提高运算速度和运算效率的需要。
1700500261
1700500262
在采取各种评价指标筛选有价值的输入变量之前,可以先直接删除明显的无价值的变量,这些明显的无价值变量包括的内容如下:
1700500263
1700500264
❑常数变量或者只有一个值的变量。
1700500265
1700500266
❑缺失值比例很高的变量,比如缺失值高达95%,或者视具体业务背景而定。
1700500267
1700500268
❑取值太泛的类别型变量,最常见的例子就是邮政编码,除非采取进一步措施将各个地区的编码整合,减少类别的数量,否则原始的邮政编码数据无法作为输入变量来提供起码的预测功能。
1700500269
1700500270
1700500271
1700500272
1700500274
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.2 结合业务经验进行先行筛选
1700500275
1700500276
这是所有筛选自变量的方法中最核心、最关键、最重要的方法。在本书之前讲解的内容中也反复强调了业务经验和业务判断对数据挖掘的重要影响。正如数据挖掘商业实战的其他各个环节一样,筛选自变量的环节也应该引进业务专家的意见和建议,很多时候业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围,准确圈定部分最有价值的预测变量,从而提高判断和筛选的效率。
1700500277
1700500278
另一方面,业务经验和业务专家的建议难免碎片化,也可能难以面面俱到,更关键的是业务经验和业务专家的建议也需要数据进行科学的验证。所以,在本章的后面的内容中,将详细介绍在数据挖掘实战领域里比较成熟、有效的方法和指标,用于筛选目标变量。在这里要强调的是,下面的具体介绍主要是从原理和算法上进行剖析的,读者只需要从思想上知道并了解这些方法背后的原理就可以了。在实战操作中,不需要大家运用这些最基础的公式进行繁琐的计算。目前有很多成熟的数据挖掘分析软件能够把这些繁琐的计算工作完成得很出色。作为数据分析人员只需要知道其中的原理、思路、分析方法就可以了。当然只有真正从思想上理解并掌握了这些具体的原理和思路,才可以在数据挖掘商业实战中游刃有余,得心应手;如果仅仅知其然,不知其所以然,在具体的数据挖掘商业实战中将会举步维艰,束手无策。
1700500279
1700500280
1700500281
1700500282
1700500284
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.3 用线性相关性指标进行初步筛选
1700500285
1700500286
最简单、最常用的方法就是通过自变量之间的线性相关性指标进行初步筛选。其中,尤以皮尔逊相关系数(Pearson Correlation)最为常用。Pearson相关系数主要用于比例型变量与比例型变量、区间型变量与区间型变量,以及二元变量与区间型变量之间的线性关系描述。其计算公式如下:
1700500287
1700500288
1700500289
1700500290
1700500291
线性相关性的相关系数r的取值范围为[-1,+1],根据经验来看,不同大小的r,表示不同程度的线性相关关系。
1700500292
1700500293
❑|r|<0.3,表示低度线性相关。
1700500294
1700500295
❑0.3≤|r|<0.5,表示中低度线性相关。
1700500296
1700500297
❑0.5≤|r|<0.8,表示中度线性相关。
1700500298
1700500299
❑0.8≤|r|<1.0,表示高度线性相关。
1700500300
[
上一页 ]
[ :1.700500251e+09 ]
[
下一页 ]