打字猴:1.700500647e+09
1700500647 具体到数据化运营的聚类实践中,要如何落实聚类变量少而精的原则呢?以下一些经验可以作为参考。
1700500648
1700500649 ❑紧紧围绕具体分析目的和业务需求挑选聚类变量。在分析展开之前,密切保持与业务需求方的沟通,借鉴业务方的业务经验和业务直觉,直接排除大量无关的指标变量,锁定与项目需求关系最密切的核心变量。任何数据挖掘项目都是有明确挖掘任务定义的,聚类分析也是如此,在聚类之前应该有明确的聚类应用目的,然后根据这个目的挑选一些相应的字段。举个简单的例子,如果在10 000个用户样本中,想从产品使用习惯不同的角度来细分群体,以此调整我们的客户服务,可以优先考虑把产品使用频率、产品档次、主要损耗件的类别等作为其中的聚类字段;而如果要从不同的购买习惯的角度来划分群体,以供营销策划参考,则会把付费的方式、产品档次、是否响应促销等作为优先考虑的聚类字段。这个案例主要是想说明,对于任何具体的聚类项目,都应该事先在脑海里有一些相应的基本核心字段可以与该项目相匹配,而不能不管是什么项目、什么任务、什么目的,一股脑把所有变量统统放进去,这种胡子眉毛一把抓的做派是没有任何意义的。
1700500650
1700500651 ❑通过相关性检测,可防止相关性高的变量同时进入聚类计算。比如,在互联网行业的分析中,登录次数、在线时长、PV浏览量等这些变量相互之间都是明显相关的,只取其中一个变量就足够了。
1700500652
1700500653 ❑数据分析也好,数据挖掘也罢,其本身是充满想象艺术的,所谓一半是科学,一半是艺术,相信你在聚类实践中也会体会这个特点。数据分析在很多时候是需要一些衍生变量来画龙点睛的。我们常常容易从现有的数据库中提取现成的字段,而经常忘记一些衍生的新字段,如比率。很多时候,我们的分析中有太多直接提取的绝对值字段,而常会忘记增添一些有价值的相对值(比率)字段,什么时候要考虑哪些有价值的比率字段,这需要业务知识和挖掘经验来支持的。
1700500654
1700500655 ❑主成分分析,作为一种常用的降维方法,可以在聚类之前进行数据的清理,帮助有效精简变量的数量,确保参与聚类运算变量的少而精。然而,任何事物都是具有两面性的,主成分分析在帮助聚类算法精简输入变量数目的同时,也会造成聚类结论的可解释性、可理解性上相对于原始变量而言更复杂,在直观上不容易理解。
1700500656
1700500657
1700500658
1700500659
1700500660 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497599]
1700500661 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.4 聚类分析的扩展应用
1700500662
1700500663 前面内容中谈到的聚类分析都是在典型业务场景中的应用。除此以外,聚类分析还有更多的扩展应用,这些扩展应用有的能显著提升单纯聚类分析所无法实现的商业应用价值,有的可作为辅助工具提升其他建模工具的应用效果,而且效果很显著,还有的突破了常规聚类应用的场景,参与到个性化推荐的应用中了。聚类分析技术的这些扩展应用,生动体现了数据挖掘分析技术在业务实践中的生命力,也对数据分析师提出了自我专业提升的方向和思路,即与时俱进、紧贴业务需求、以不变的聚类原理,从容应对万变的业务场景和业务需求。
1700500664
1700500665 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497600]
1700500666 9.4.1 聚类的核心指标与非聚类的业务指标相辅相成
1700500667
1700500668 聚类分析技术在实践应用中有个比较明显的不足之处,那就是参与聚类的变量数目不能多,需要坚持少而精的原则,否则不仅运算耗时,而且聚类的效果也不好。但是,另一方面,从业务需求的实际出发,业务应用应让尽可能多的指标进入分析范围,这样得到的信息更丰富、更全面,也才更有可能发现业务线索。那如何协调两者的矛盾呢?
1700500669
1700500670 在实践中,已经有了比较成熟且行之有效的方法可以较好地解决上述矛盾。一方面坚持参与聚类的变量少而精的原则,另一方面把非聚类的业务指标与聚类结果一起拿来分析、提炼、挖掘,这种相辅相成的做法在聚类分析的应用实践中已经得到了普遍的认可和采用。
1700500671
1700500672 具体来说,先通过用户行为属性里的核心字段进行聚类分群,在得到比较满意的聚类分群结果之后,针对每个具体细分的对象群体,再分别考察用户的会员属性,包括年龄、性别、地域、收入、爱好等一系列的基础信息。如果这些属性在聚类细分后的群体里有显著的区别或特征,将会明显丰富仅仅依靠参与聚类的少数字段所能揭示的业务特征和线索。
1700500673
1700500674 当然,在具体的聚类分析业务实践中,是否采用这种聚类核心指标与非聚类的业务指标相辅相成的策略,要视具体的分析目的和分析背景而定,但是这种相互结合的方法在大多数的项目实践中被证明是一种简单、有效、快捷的好办法,值得信赖。
1700500675
1700500676
1700500677
1700500678
1700500679 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497601]
1700500680 数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.4.2 数据的探索和清理工具
1700500681
1700500682 前面的内容已经多次提到,聚类技术不仅仅是一种模型技术,可以直接应用于相应的业务需求和项目目的;同时,聚类技术也可以作为一种数据清理工具,在其他数据模型分析的前期,可使用聚类技术进行数据的探索、清理工作,作为其他建模技术有效应用的“清道夫”。聚类技术的这种基础性价值,主要表现在以下几个方面:
1700500683
1700500684 ❑聚类技术产生的聚类类别可以作为一个新的字段加入其他的模型搭建过程中,在适当的项目场景里,这种新的类别字段很可能会有效提高建模的效率和增强效果。
1700500685
1700500686 ❑聚类技术产生的聚类类别在合适的项目场景里,可以作为细分群体的建模依据,并且通常来说,细分建模的模型精度常常比整体建模的模型精度要高些。
1700500687
1700500688 ❑聚类技术的应用本身就是数据探索和熟悉的过程,这个过程对于其他算法的模型搭建来说常常也是必不可少的。而且这种基于聚类技术对数据的认知比盲目的、没有体系的数据认知要来得更加有效率、有章法。
1700500689
1700500690 ❑聚类技术针对变量的聚类是精简变量的有效方法。变量聚类用来检验变量之间的关系,目的是对数量较多的变量进行分类。归于同一组里的变量之间关系紧密,组内变量间的相关性会很高;而不同组群里的变量间相异性很大,即组间变量相互独立。变量聚类的结果可以用作减少变量的依据和方法,在利用变量聚类产生的几个类别中,每个类别里只选取有代表性的变量作为模型的输入变量,就可大大减少输入变量的数量,有利于提升建模的效率。在SAS里,变量聚类可以用简单的代码来实现:PROC VARCLUS DATA=table A。
1700500691
1700500692 ❑聚类技术还可以用来检查数据的共线性问题。关于共线性问题,已经在第8章里进行了详细讲解。识别共线性的方法很多,聚类技术只是其中的一种。具体来说,通过变量聚类,同一组里的变量相似性明显,因此如果将同一聚类组里的变量同时放入建模过程中,就很有可能会产生共线性的问题。通过变量聚类,可以有效锁定可能发生共线性的一些变量,从而通过取舍,减少共线性的产生。
1700500693
1700500694
1700500695
1700500696
[ 上一页 ]  [ :1.700500647e+09 ]  [ 下一页 ]