打字猴:1.700500177e+09

1700500177 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497572]

1700500178 数据挖掘与数据化运营实战：思路、方法、技巧与应用 8.5.2　改善变量分布的转换

1700500179

1700500180 在数据挖掘实践中，大多数区间型变量（Interval）原始分布状态偏差都较大，而且是严重不对称的。这种大偏度，严重不对称的分布出现在自变量中常常会干扰模型的拟合，最终会影响模型的效果和效率，如图8-1所示。如果通过各种数学转换，使得自变量的分布呈现（或者近似）正态分布，并形成倒钟形曲线，如图8-2所示，那么模型的拟合常常会有明显的提升，转换后自变量的预测性能也可能得到改善，最终将会显著提高模型的效果和效率。

1700500181

1700500182

1700500183

1700500184

1700500185 图8-1　某区间型变量的原始分布图（明显的偏差大，严重不对称）

1700500186

1700500187

1700500188

1700500189

1700500190 图8-2　变量经过取对数的转换，呈现倒钟形的正态分布图

1700500191

1700500192 常见的改善分布的转换措施如下：

1700500193

1700500194 ❑取对数（Log）。

1700500195

1700500196 ❑开平方根（Square Root）。

1700500197

1700500198 ❑取倒数（Inverse）。

1700500199

1700500200 ❑开平方（Square）。

1700500201

1700500202 ❑取指数（Exponential）。

1700500203

1700500204

1700500205

1700500206

1700500207 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497573]

1700500208 数据挖掘与数据化运营实战：思路、方法、技巧与应用 8.5.3　分箱转换

1700500209

1700500210 对于区间型变量（Interval），除了进行上面提到的改善分布的转换措施之外，还可以进行另外的转换尝试，即分箱转换。

1700500211

1700500212 分箱转换（Binning）就是把区间型变量（Interval）转换成次序型变量（Ordinal），其转换的主要目的如下：

1700500213

1700500214 ❑降低变量（主要是指自变量）的复杂性，简化数据。比如，有一组用户的年龄，原始数据是区间型的，从20～80岁，每1岁都是1个年龄段；如果通过分箱转换，每10岁构成1个年龄组，就可以有效简化数据。

1700500215

1700500216 ❑提升自变量的预测能力。如果分箱恰当，是可以有效提升自变量和因变量的相关性的，这样就可以显著提升模型的预测效率和效果；尤其是当自变量与因变量之间有比较明显的非线性关系时，分箱操作更是不错的手段，可用于探索和发现这些相关性；另外，当自变量的偏度很大时，分箱操作也是值得积极尝试的方法。

1700500217

1700500218 从上面的分析可以看出，分箱操作的价值与改善分布转换的价值类似，都是努力提升自变量的预测能力，强化自变量与因变量的线性（或非线性）关系，从而可以明显提升预测模型的拟合效果。两者有异曲同工之处，在数据挖掘实践中，经常会对这两种方式分别进行尝试，择其优者而用之。

1700500219

1700500220

1700500221

1700500222

1700500223 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497574]

1700500224 数据挖掘与数据化运营实战：思路、方法、技巧与应用 8.5.4　数据的标准化

1700500225

1700500226 数据的标准化（Normalization）转换也是数据挖掘中常见的数据转换措施之一，数据标准化转换的主要目的是将数据按照比例进行缩放，使之落入一个小的区间范围之内，使得不同的变量经过标准化处理后可以有平等分析和比较的基础。

[ 上一页 ] [ :1.700500177e+09 ] [ 下一页 ]