打字猴:1.700500537e+09

1700500537 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497589]

1700500538 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.1　聚类分析的典型应用场景

1700500539

1700500540 可以说，聚类分析的典型应用场景是非常普遍的，业务团队几乎每天都要碰到。比如说，把付费用户按照几个特定的维度，如利润贡献、用户年龄、续费次数等进行聚类划分，得到不同特征的群体。举个例子：在将付费用户进行聚类划分后，其中一个群体占总的付费用户人数的40%，其特征是用户年龄在25岁左右，利润贡献不大，但是续费次数多；还有一个群体，占总的付费用户人数的15%，而该群的特征是用户年龄在40岁以上，利润贡献比较大，但是续费次数不多。对于运营方来说，这两个典型群体都是可以“着力”的目标群体，并且分别有不同的运营思路和业务价值。对于第一个群体，虽然利润贡献不大，但是由于续费次数多，其表现出来的产品忠诚度对于企业和产品来说非常重要、非常可贵，因此针对该群体的重要运营目的应该是稳中有升，同时积极预防其流失，密切监控相应的流失率，并且还要进一步分析挖掘该群体的其他特征，从而可以有效复制该群体的规模，针对其25岁左右的年龄这个特点，可以考虑在运营方式和内容上更加贴近年轻人的喜好和兴趣；而针对后一个群体，虽然利润贡献大，但是很不稳定，续费次数少，对企业和产品的忠诚度不高，因此针对该群体的运营重点应该是采取积极措施提升续费率，提升其忠诚度。而该群体“40岁以上的年龄”这个特点，也为相应的运营方式和运营内容的设计提供了比较准确的参考范围。

1700500541

1700500542 从上述简单的案例中，可以看出聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分，而类似这种目标群体的分类常常就是精细化运营、个性化运营的基础和核心，只有进行了正确的分类，才可以有效进行个性化和精细化的运营、服务及产品支持等，从这个角度来看，聚类分析技术对于数据化运营而言是非常重要、非常基础的。

1700500543

1700500544 总地来说，聚类分析技术在数据化运营实践中常见的业务应用场景如下。

1700500545

1700500546 ❑目标用户的群体分类：通过为特定运营目的和商业目的所挑选出的指标变量进行聚类分析，把目标群体划分成几个具有明显特征区别的细分群体，从而可以在运营活动中为这些细分群体采用精细化、个性化的运营和服务，最终提升运营的效率和商业的效果。

1700500547

1700500548 ❑不同产品的价值组合：企业可以按照不同的商业目的，并依照特定的指标变量来为众多的产品种类进行聚类分析，把企业的产品体系进一步细分成具有不同价值、不同目的多维度的产品组合，并且可在此基础上分别制定相应的产品开发计划、运营计划和服务规划。

1700500549

1700500550 ❑探测、发现孤立点、异常值：孤立点就是指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的数据行为特征很不一致。虽然在一般的数据处理过程中会把孤立点作为噪声而剔除出去，但是在许多业务领域里，孤立点的价值非常重要。比如说，互联网的风险管理里，就非常强调对于风险的预防和预判，而相关的风险控制分析中的孤立点很多时候又是风险的最大嫌疑和主要来源。及时发现这些特殊行为对于互联网的风险管理来说至关重要。比如，某B2C电商平台上，比较昂贵的、频繁的交易，就有可能隐含着欺诈的风险成分，需要风控部门提前关注、监控，防患于未然。

1700500551

1700500552

1700500553

1700500554

1700500555 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497590]

1700500556 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.2　主要聚类算法的分类

1700500557

1700500558 聚类算法的深入研究到今天已经持续了半个多世纪，聚类技术也已经成为最常用的数据分析技术之一。其各种算法的提出、发展、演化也使得聚类算法家族“家大口阔，人丁兴旺”。下面就针对目前数据分析和数据挖掘业界主流的认知将聚类算法进行介绍。

1700500559

1700500560 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497591]

1700500561 9.2.1　划分方法

1700500562

1700500563 给定具有n个对象的数据集，采用划分方法（Partitioning Methods）对数据集进行k个划分，每个划分（每个组）代表一个簇，k≤n，并且每个划分（每个簇）至少包含一个对象，而且每个对象一般来说只能属于一个组。对于给定的k值，划分方法一般要做一个初始划分，然后采取迭代重新定位技术，通过让对象在不同组间移动来改进划分的准确度和精度。一个好的划分原则是：同一个簇中对象之间的相似性很高（或距离很近），而不同簇的对象之间相异度很高（或距离很远）。目前主流的划分方法如下。

1700500564

1700500565 ❑K-Means算法：又叫K均值算法，这是目前最著名、使用最广泛的聚类算法。在给定一个数据集和需要划分的数目k后，该算法可以根据某个距离函数反复把数据划分到k个簇中，直到收敛为止。K-Means算法用簇中对象的平均值来表示划分的每个簇，其大致的步骤是，首先从随机抽取的k个数据点作为初始的聚类中心（种子中心），然后计算每个数据点到每个种子中心的距离，并把每个数据点分配到距离它最近的种子中心；一旦所有的数据点都被分配完成，每个聚类的聚类中心（种子中心）按照本聚类（本簇）的现有数据点重新计算；这个过程不断重复，直到收敛，即满足某个终止条件为止，最常见的终止条件是误差平方和（SSE）局部最小。

1700500566

1700500567 ❑K-Medoids算法：又叫K中心点算法，该算法用最接近簇中心的一个对象来表示划分的每个簇。K-Medoids算法与K-Means算法的划分过程相似，两者最大的区别是K-Medoids算法是用簇中最靠近中心点的一个真实的数据对象来代表该簇的，而K-Means算法是用计算出来的簇中对象的平均值来代表该簇的，这个平均值是虚拟的，并没有一个真实的数据对象具有这些平均值。

1700500568

1700500569

1700500570

1700500571

1700500572 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497592]

1700500573 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.2.2　层次方法

1700500574

1700500575 在给定n个对象的数据集后，可用层次方法（Hierarchical Methods）对数据集进行层次分解，直到满足某种收敛条件为止。按照层次分解的形式不同，层次方法又可以分为凝聚层次聚类和分裂层次聚类：

1700500576

1700500577 ❑凝聚层次聚类：又叫自底向上方法，一开始将每个对象作为单独的一类，然后相继合并与其相近的对象或类，直到所有小的类别合并成一个类，即层次的最上面，或者达到一个收敛，即终止条件为止。

1700500578

1700500579 ❑分裂层次聚类：又叫自顶向下方法，一开始将所有对象置于一个簇中，在迭代的每一步中，类会被分裂成更小的类，直到最终每个对象在一个单独的类（簇）中，或者满足一个收敛，即终止条件为止。

1700500580

1700500581 层次方法最大的缺陷在于，合并或者分裂点的选择比较困难，对于局部来说，好的合并或者分裂点的选择往往并不能保证会得到高质量的全局的聚类结果，而且一旦一个步骤（合并或分裂）完成，它就不能被撤销了。

1700500582

1700500583

1700500584

1700500585

1700500586 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497593]

[ 上一页 ] [ :1.700500537e+09 ] [ 下一页 ]