1700500476
8.7.1 如何发现共线性
1700500477
1700500478
常见的识别共线性的方法如下:
1700500479
1700500480
❑相关系数的方法。最常见的就是皮尔逊相关系数(Pearson Correlation),详细内容请参考8.6.3节,对于线性相关指标的详细讨论。
1700500481
1700500482
❑通过模型结论的观察。比如,在回归模型中,如果回归系数的标准差过大,就可能意味着变量之间存在着共线性问题。
1700500483
1700500484
❑主成分分析方法。在主成分分析方法中,主成分里的系数,也就是主成分载荷大小能从一定程度上反映出各个变量的相关性。比如,第一主成分中,某几个原始变量的主成分载荷系数较大,且数值相近,就有可能在其中隐藏着共线性问题。
1700500485
1700500486
❑根据业务经验判断的原本应该没有预测作用的变量突然变得有很强的统计性,那其中就有可能隐藏着共线性问题。
1700500487
1700500488
❑对变量进行聚类。通过对区间型变量进行聚类,同一类中的变量之间具有较强的相似性,也就可能隐藏着共线性问题。
1700500489
1700500490
1700500491
1700500492
1700500494
数据挖掘与数据化运营实战:思路、方法、技巧与应用 8.7.2 如何处理共线性
1700500495
1700500496
水至清则无鱼,人至察则无徒,对于数据挖掘实战中出现的共线性问题,也需要本着中庸之道灵活处理。轻微的共线性是可以容忍的。比如说模型拟合度较高,样本量大的时候,轻微的共线性可以适当的采用视而不见的方法。但是,当样本量较少,很轻微的共线性问题都有可能导致参数的不稳定。如果发生严重的共线性问题,一般采取以下措施:
1700500497
1700500498
❑对相关变量进行取舍。高度共线性的相关变量,可以选择保留对业务方最有价值、最有意义的变量,而过滤掉相关变量。
1700500499
1700500500
❑对相关变量组合,生成一个新的综合性变量。
1700500501
1700500502
❑当我们利用相关变量通过线性的方式衍生出新的变量时,要记得两者之间的共线性问题,并且及时删除相关的原始变量,不要将其投入到模型中。在实践应用中这种情况会经常出现,也很容易被人忽视。
1700500503
1700500504
❑尝试对相关变量进行一些形式的转换(参考8.5节),恰当的转换可以在一定程度上减少甚至去除共线性关系。
1700500505
1700500506
1700500507
1700500508
1700500510
数据挖掘与数据化运营实战:思路、方法、技巧与应用 第9章 聚类分析的典型应用和技术小窍门
1700500511
1700500512
物以类聚,人以群分。
1700500513
1700500514
——《战国策·齐策三》
1700500515
1700500516
9.1 聚类分析的典型应用场景
1700500517
1700500518
9.2 主要聚类算法的分类
1700500519
1700500520
9.3 聚类分析在实践应用中的重点注意事项
1700500521
1700500522
9.4 聚类分析的扩展应用
1700500523
1700500524
9.5 聚类分析在实际应用中的优势和缺点
[
上一页 ]
[ :1.700500475e+09 ]
[
下一页 ]