1700500220
1700500221
1700500222
1700500224
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5.4 数据的标准化
1700500225
1700500226
数据的标准化(Normalization)转换也是数据挖掘中常见的数据转换措施之一,数据标准化转换的主要目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,使得不同的变量经过标准化处理后可以有平等分析和比较的基础。
1700500227
1700500228
最简单的数据标准化转换是Min-Max标准化,也叫离差标准化,是对原始数据进行线性变换,使得结果在[0,1]区间,其转换公式如下:
1700500229
1700500230
1700500231
1700500232
1700500233
其中,max为样本数据的最大值,min为样本数据的最小值。
1700500234
1700500235
关于数据的标准化转换,将在9.3.2节详细介绍。
1700500236
1700500237
总地来说,数据转换的方式多种多样,操作起来简单、灵活、方便,在实践应用中的价值也是比较明显的。但是,它也有缺点,其中主要的缺点在于,在具体的数据挖掘实践中有些非线性转换如Log转换、平方根转换、多次方转换等的含义无法用清晰的商业逻辑和商业含义向用户(业务应用方)解释。比如,你无法解释“把消费者在线消费金额取对数”在商业上是什么意思,这在一定程度上影响了业务应用方对模型的接受程度和理解能力。
1700500238
1700500239
当然,瑕不掩瑜,毕竟预测模型的最终目的是预测的准确度和精确度,数据转换在商业解释中的这点小小的遗憾当然无损其在强大的数据处理中的重要价值。
1700500240
1700500241
1700500242
1700500243
1700500245
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6 筛选有效的输入变量
1700500246
1700500247
虽然“筛选有效的输入变量”属于模型搭建的技术问题,可以放在后面有关模型搭建的章节里做专门的介绍,但是这个问题在很大程度上也会涉及数据的清洗、整理、探索等数据处理的技巧,所以这里将“筛选有效的输入变量”作为数据处理技巧来进行深入讲解。
1700500248
1700500249
不同类型的模型对于输入变量的要求各不相同,在本书涉及的各种模型和各种项目中,鉴于预测(响应)和分类模型所涉及的变量的筛选最为复杂,最为常见,所以本节将聚焦预测(响应)和分类模型中的输入变量筛选进行深入讲解,至于聚类中的变量筛选将在9.3.3节做深入讲解,其他类型的模型和应用中的输入变量筛选相对来说非常直观和简单,将在相应章节中进行讲解。
1700500250
1700500252
8.6.1 为什么要筛选有效的输入变量
1700500253
1700500254
为什么要筛选有效的输入变量?有以下3个方面的理由:
1700500255
1700500256
❑筛选有效的输入变量是提高模型稳定性的需要。过多的输入变量很可能会带来干扰和过拟合等问题,这会导致模型的稳定性下降,模型的效果变差。所以,优质的模型一定是遵循输入变量少而精原则的。
1700500257
1700500258
❑筛选有效的输入变量是提高模型预测能力的需要。过多地输入变量会产生共线性问题,所谓共线性是指自变量之间存在较强的,甚至是完全的线性相关性。当自变量之间高度相关时,数据的小小变化,比如误差的发生都会引起模型参数严重震荡,明显降低模型的预测能力,关于共线性问题,将在8.6.3节做详细介绍。并且,共线性的发生也增加了对模型结果的解释困难,因为要更深入地分析和判断每个自变量对目标变量的影响程度。
1700500259
1700500260
❑当然,筛选有效的输入变量也是提高运算速度和运算效率的需要。
1700500261
1700500262
在采取各种评价指标筛选有价值的输入变量之前,可以先直接删除明显的无价值的变量,这些明显的无价值变量包括的内容如下:
1700500263
1700500264
❑常数变量或者只有一个值的变量。
1700500265
1700500266
❑缺失值比例很高的变量,比如缺失值高达95%,或者视具体业务背景而定。
1700500267
1700500268
❑取值太泛的类别型变量,最常见的例子就是邮政编码,除非采取进一步措施将各个地区的编码整合,减少类别的数量,否则原始的邮政编码数据无法作为输入变量来提供起码的预测功能。
1700500269
[
上一页 ]
[ :1.70050022e+09 ]
[
下一页 ]