打字猴:1.700500679e+09

1700500679 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497601]

1700500680 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.4.2　数据的探索和清理工具

1700500681

1700500682 前面的内容已经多次提到，聚类技术不仅仅是一种模型技术，可以直接应用于相应的业务需求和项目目的；同时，聚类技术也可以作为一种数据清理工具，在其他数据模型分析的前期，可使用聚类技术进行数据的探索、清理工作，作为其他建模技术有效应用的“清道夫”。聚类技术的这种基础性价值，主要表现在以下几个方面：

1700500683

1700500684 ❑聚类技术产生的聚类类别可以作为一个新的字段加入其他的模型搭建过程中，在适当的项目场景里，这种新的类别字段很可能会有效提高建模的效率和增强效果。

1700500685

1700500686 ❑聚类技术产生的聚类类别在合适的项目场景里，可以作为细分群体的建模依据，并且通常来说，细分建模的模型精度常常比整体建模的模型精度要高些。

1700500687

1700500688 ❑聚类技术的应用本身就是数据探索和熟悉的过程，这个过程对于其他算法的模型搭建来说常常也是必不可少的。而且这种基于聚类技术对数据的认知比盲目的、没有体系的数据认知要来得更加有效率、有章法。

1700500689

1700500690 ❑聚类技术针对变量的聚类是精简变量的有效方法。变量聚类用来检验变量之间的关系，目的是对数量较多的变量进行分类。归于同一组里的变量之间关系紧密，组内变量间的相关性会很高；而不同组群里的变量间相异性很大，即组间变量相互独立。变量聚类的结果可以用作减少变量的依据和方法，在利用变量聚类产生的几个类别中，每个类别里只选取有代表性的变量作为模型的输入变量，就可大大减少输入变量的数量，有利于提升建模的效率。在SAS里，变量聚类可以用简单的代码来实现：PROC VARCLUS DATA=table A。

1700500691

1700500692 ❑聚类技术还可以用来检查数据的共线性问题。关于共线性问题，已经在第8章里进行了详细讲解。识别共线性的方法很多，聚类技术只是其中的一种。具体来说，通过变量聚类，同一组里的变量相似性明显，因此如果将同一聚类组里的变量同时放入建模过程中，就很有可能会产生共线性的问题。通过变量聚类，可以有效锁定可能发生共线性的一些变量，从而通过取舍，减少共线性的产生。

1700500693

1700500694

1700500695

1700500696

1700500697 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497602]

1700500698 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.4.3　个性化推荐的应用

1700500699

1700500700 个性化推荐是电子商务时代产生的一个新的专业方向，在很多互联网公司里，个性化推荐已经作为一个单独的部门独立于数据分析部门之外了。个性化推荐目前已经产生了诸多的相关算法，其中以协同过滤算法最为普及。聚类分析的思想和原理也可以用到个性化推荐的应用场景里，我们来看以下的业务场景。

1700500701

1700500702 在电子商务平台上，买家与卖家如何高效、精准匹配是个性化推荐的核心任务。当买家进入平台浏览第一个页面时，个性化推荐就需要计算其可能感兴趣的卖家或者特定商品页面，或者特定店面的页面，并第一时间把与之相关的页面发送到买家面前。一般情况下，通过对买家的历史浏览行为进行统计分析，可以确定其感兴趣的特定商品大类，但在此基础上如何进一步精确锁定商品大类下面的具体小类呢？聚类技术提供了一个独特的思路和方法。通过历史数据对该商品大类的买家进行聚类分析，找出不同小类目的买家细分群体（聚类结果），然后用这个聚类模型去判别这个新的买家最可能属于哪个细分群体，再去匹配跟该细分群体最相近的卖家或者卖家的商品小类目，这就是聚类思想在个性化推荐中的应用思路。当然在具体的项目操作中，数据的清理是非常复杂的，前期的阀值确定和规则梳理也非常关键。在个性化推荐的大场景里，聚类技术只是其中的一个思路或环节，不过，聚类技术能突破传统的应用场景，尝试应用于类似个性化推荐之类的崭新的业务需求方面，正体现了包括聚类技术在内的数据分析挖掘技术与时俱进的活力和生命力。

1700500703

1700500704

1700500705

1700500706

1700500707 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497603]

1700500708 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.5　聚类分析在实际应用中的优势和缺点

1700500709

1700500710 聚类分析的优势在实践应用中是很明显的，无论是从其原理上来理解，还是从其应用的普遍程度上来看。尤其是针对大数据集的时候，K-Means算法几乎是目前最主流的算法和应用了。具体来讲，其应用优势体现在以下几个方面：

1700500711

1700500712 ❑目前聚类技术已经比较成熟，算法也比较可靠，而且长期的商业实践应用已经证明它是一个不错的数据群体细分的工具和方法。

1700500713

1700500714 ❑聚类技术不仅本身是一种模型技术，可以直接响应业务需求，提出细分的具体方案来指导实践；同时，聚类技术还经常作为数据分析前期的数据摸底和数据清洗的有效思想和工具。这种多样性的特点使得聚类技术的应用场景更加丰富，其价值也因此更加明显。

1700500715

1700500716 ❑如果聚类技术应用得好，其聚类的结果比较容易用商业和业务的逻辑来理解和解释。可理解、可解释在数据化运营实践中非常重要，它决定了业务应用方是否可以理解模型的结论，在此基础上才谈得上业务方是否真心支持、全力配合、共同推进数据分析（模型）的有效地落地应用。

1700500717

1700500718 ❑K-Means算法具有简洁、高效的特点。K-Means算法的时间复杂度是O(tkn)，其中，t是循环次数，也就是算法收敛时已经迭代的次数；k是聚类的个数，也就是聚类的类别数量；n是数据点的个数，也就是样本数量。由于t和k都要远远小于n，所以K-Means算法的时间复杂度与数据集的大小是线性相关的。

1700500719

1700500720 ❑K-Means算法是一个不依赖顺序的算法。给定一个初始类分布，无论样本算法的顺序如何，聚类过程结束后的数据分区结果都会是一样的。

1700500721

1700500722 K-Means算法有这么多的好处，那它的劣势又有哪些呢?

1700500723

1700500724 尽管在众多的聚类算法中，尤其是针对大数据集的应用场景里，K-Means算法几乎是唯一主流的算法，但是其本身也有一些缺点和不足，主要表现在以下几个方面：

1700500725

1700500726 ❑数据分析师需要事先指定聚类的数目k。在实践中，要测试多个不同的k值才能根据效果比较来选择最合适的k值，这个过程有可能会比较耗时。

1700500727

1700500728 ❑算法对数据噪声和异常值比较敏感。异常值是数据中那些与其他数据点相隔很远的数据点，其可能是数据采集时的失误，也可能是本质不同的数据。由于K-Means算法是采用均值作为每个聚类的聚类中心的，所以异常值会严重干扰正常的聚类中心的计算，造成聚类失真。

[ 上一页 ] [ :1.700500679e+09 ] [ 下一页 ]