1700500270
1700500271
1700500272
1700500274
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.2 结合业务经验进行先行筛选
1700500275
1700500276
这是所有筛选自变量的方法中最核心、最关键、最重要的方法。在本书之前讲解的内容中也反复强调了业务经验和业务判断对数据挖掘的重要影响。正如数据挖掘商业实战的其他各个环节一样,筛选自变量的环节也应该引进业务专家的意见和建议,很多时候业务专家一针见血的商业敏感性可以有效缩小自变量的考察范围,准确圈定部分最有价值的预测变量,从而提高判断和筛选的效率。
1700500277
1700500278
另一方面,业务经验和业务专家的建议难免碎片化,也可能难以面面俱到,更关键的是业务经验和业务专家的建议也需要数据进行科学的验证。所以,在本章的后面的内容中,将详细介绍在数据挖掘实战领域里比较成熟、有效的方法和指标,用于筛选目标变量。在这里要强调的是,下面的具体介绍主要是从原理和算法上进行剖析的,读者只需要从思想上知道并了解这些方法背后的原理就可以了。在实战操作中,不需要大家运用这些最基础的公式进行繁琐的计算。目前有很多成熟的数据挖掘分析软件能够把这些繁琐的计算工作完成得很出色。作为数据分析人员只需要知道其中的原理、思路、分析方法就可以了。当然只有真正从思想上理解并掌握了这些具体的原理和思路,才可以在数据挖掘商业实战中游刃有余,得心应手;如果仅仅知其然,不知其所以然,在具体的数据挖掘商业实战中将会举步维艰,束手无策。
1700500279
1700500280
1700500281
1700500282
1700500284
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.3 用线性相关性指标进行初步筛选
1700500285
1700500286
最简单、最常用的方法就是通过自变量之间的线性相关性指标进行初步筛选。其中,尤以皮尔逊相关系数(Pearson Correlation)最为常用。Pearson相关系数主要用于比例型变量与比例型变量、区间型变量与区间型变量,以及二元变量与区间型变量之间的线性关系描述。其计算公式如下:
1700500287
1700500288
1700500289
1700500290
1700500291
线性相关性的相关系数r的取值范围为[-1,+1],根据经验来看,不同大小的r,表示不同程度的线性相关关系。
1700500292
1700500293
❑|r|<0.3,表示低度线性相关。
1700500294
1700500295
❑0.3≤|r|<0.5,表示中低度线性相关。
1700500296
1700500297
❑0.5≤|r|<0.8,表示中度线性相关。
1700500298
1700500299
❑0.8≤|r|<1.0,表示高度线性相关。
1700500300
1700500301
在建模前的变量筛选过程中,如果自变量属于中度以上线性相关的(>0.6以上)多个变量,只需要保留一个就可以了。
1700500302
1700500303
上述相关系数的计算公式只是从状态上计算了变量之间的相关关系,但是相关系数是通过样本数据得到的计算结果,来自样本的统计结果需要通过显著性检验才能知道其是否适用于针对总体数据的相关性。关于类似的统计显著性问题,作为统计分析中的基本知识,不在本书的讨论范围之内,并且在目前所有的分析软件里都可以自动计算,有心的读者可以自己在实践中进行体会和学习。
1700500304
1700500305
需要强调的是,有时候尽管上述公式计算出来的相关系数r等于0,也只能说明线性关系不存在,不能排除变量之间存在其他形式的相关关系,比如曲线关系等。
1700500306
1700500307
尽管线性相关性检验是模型的变量筛选中最常用也最直观的有效方法之一,但是在很多时候,某个自变量和因变量的线性相关性却很小,这时可以通过跟其他自变量结合在一起而让其成为预测力很强的自变量。正因为如此,在挑选输入变量的时候,应该多尝试不同的评价指标和不同的挑选方法,减少因采用单一方法而导致的误删除,避免在一棵树上吊死的情况发生。
1700500308
1700500309
1700500310
1700500311
1700500313
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.6.4 R平方
1700500314
1700500315
R平方(R-Square),也叫做R2或Coefficient of Multiple Determination,该方法将借鉴多元线性回归的分析算法来判断和选择对目标变量有重要预测意义及价值的自变量。
1700500316
1700500317
最通俗的解释,R2表示模型输入的各自变量在多大程度上可以解释目标变量的可变性,R2的取值范围在[0,1]之间,R2越大,说明模型的拟合越好。R2的计算公式如下:
1700500318
1700500319
[
上一页 ]
[ :1.70050027e+09 ]
[
下一页 ]