打字猴:1.70050012e+09
1700500120 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497569]
1700500121 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.4.2 异常值的判断和处理
1700500122
1700500123 数据样本中的异常值(Outlier)通常是指一个类别型变量(Category)里某个类别值出现的次数太少、太稀有,比如出现的频率只占0.1%或更少,或者指一个区间型变量(Interval)里某些取值太大,比如,互联网买家用户最近30天在线购买的交易次数,个别用户可以达到3000次,平均每天购买100次,相比数据全集里该字段均值为2次而言,这里的3000交易次数就属于异常值。
1700500124
1700500125 通常来讲,如果不把异常值清理掉,对于数据分析结论或者挖掘模型效果的负面影响是非常大的,很可能会干扰模型系数的计算和评估,从而严重降低模型的稳定性。
1700500126
1700500127 对于异常值的判断内容如下:
1700500128
1700500129 ❑对于类别型变量(Category)来说,如果某个类别值出现的频率太小,太稀有,就可能是异常值。具体拿经验值来参考,一般某个类别值的分布占比不到1%或者更少就很可能是异常值了。当然,这还需要数据分析师根据具体项目的业务背景和数据实际分布作出判断和进行权衡。有些情况下,纵然某个类别值的占比很少,但是如果跟目标变量里的目标事件有显著的正相关关系,这种稀有类别值的价值就不是简单的异常值所可以代表的。
1700500130
1700500131 ❑对于区间型变量(Interval)来说,最简单有效的方法就是把所有的观察对象按照变量的取值按从小到大的顺序进行排列,然后从最大的数值开始倒推0.1%甚至更多的观察值,这些最大的数值就很可能属于异常值,可再结合业务逻辑加以判断。另外一个常用的判断异常值的方法就是以“标准差”作为衡量的尺度,根据不同的业务背景和变量的业务含义,把超过均值n个标准差以上的取值定义为异常值,这里n的取值范围取决于具体的业务场景和不同变量的合理分布,比如超过均值在正负4个标准差以上的数值就要认真评估,确定其是否是异常值。
1700500132
1700500133 对于异常值的处理相对来说就比较简单,主要的措施就是直接删除。
1700500134
1700500135 需要提醒读者的是,在数据挖掘实践中,对于“异常值”的处理是辩证的,在多数情况下,异常值的删除可以有效降低数据的波动,使得处理后的建模数据更加稳定,从而提高模型的稳定性。但是,在某些业务场景下,异常值的应用却是另一个专门的业务方向。比如在前面章节里提到的信用体系中的恶意欺诈事件,从数据分析的角度来看那也是对异常值的分析挖掘应用。对这些有价值的异常值的分析应用包括利用聚类分析技术识别异常值,利用稀有事件的预测模型搭建去监控、预测异常值出现的可能性等。这些应用,将在第9章和第10章专门进行介绍。
1700500136
1700500137
1700500138
1700500139
1700500140 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497570]
1700500141 数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.5 数据转换
1700500142
1700500143 对于数据挖掘分析建模来说,数据转换(Transformation)是最常用、最重要,也是最有效的一种数据处理技术。经过适当的数据转换后,模型的效果常常可以有明显的提升,也正因为这个原因,数据转换成了很多数据分析师在建模过程中最喜欢使用的一种数据处理手段。另一方面,在绝大多数数据挖掘实践中,由于原始数据,在此主要是指区间型变量(Interval)的分布不光滑(或有噪声)、不对称分布(Skewed Distributions),也使得数据转化成为一种必需的技术手段。
1700500144
1700500145 按照采用的转换逻辑和转换目的的不同,数据转换主要可以分为以下四大类:
1700500146
1700500147 ❑产生衍生变量。
1700500148
1700500149 ❑改善变量分布特征的转换,这里主要指对不对称分布(Skewed Distributions)所进行的转换。
1700500150
1700500151 ❑区间型变量的分箱转换。
1700500152
1700500153 ❑针对区间型变量进行的标准化操作。
1700500154
1700500155 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497571]
1700500156 8.5.1 生成衍生变量
1700500157
1700500158 这类转换的目的很直观,即通过对原始数据进行简单、适当的数学公式推导,产生更加有商业意义的新变量。举个简单的例子,在对原始数据中的用户出生年月日进行处理时,把当前的年月日减去用户出生年月日,得到一个新的字段“用户年龄”,这个新的字段作为一个区间型变量(Interval)明显比原始变量用户出生年月日要更有商业含义,也更加适合进行随后的数据分析建模应用。一般常见的衍生变量如下。
1700500159
1700500160 ❑用户月均、年均消费金额和消费次数。
1700500161
1700500162 ❑用户在特定商品类目的消费金额占其全部消费金额的比例。
1700500163
1700500164 ❑家庭人均年收入。
1700500165
1700500166 ❑用户在线交易终止的次数占用户在线交易成功次数的比例。
1700500167
1700500168 ❑用户下单付费的次数占用户下单次数的比例。
1700500169
[ 上一页 ]  [ :1.70050012e+09 ]  [ 下一页 ]