打字猴:1.70050055e+09

1700500550 ❑探测、发现孤立点、异常值：孤立点就是指相对于整体数据对象而言的少数数据对象，这些对象的行为特征与整体的数据行为特征很不一致。虽然在一般的数据处理过程中会把孤立点作为噪声而剔除出去，但是在许多业务领域里，孤立点的价值非常重要。比如说，互联网的风险管理里，就非常强调对于风险的预防和预判，而相关的风险控制分析中的孤立点很多时候又是风险的最大嫌疑和主要来源。及时发现这些特殊行为对于互联网的风险管理来说至关重要。比如，某B2C电商平台上，比较昂贵的、频繁的交易，就有可能隐含着欺诈的风险成分，需要风控部门提前关注、监控，防患于未然。

1700500551

1700500552

1700500553

1700500554

1700500555 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497590]

1700500556 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.2　主要聚类算法的分类

1700500557

1700500558 聚类算法的深入研究到今天已经持续了半个多世纪，聚类技术也已经成为最常用的数据分析技术之一。其各种算法的提出、发展、演化也使得聚类算法家族“家大口阔，人丁兴旺”。下面就针对目前数据分析和数据挖掘业界主流的认知将聚类算法进行介绍。

1700500559

1700500560 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497591]

1700500561 9.2.1　划分方法

1700500562

1700500563 给定具有n个对象的数据集，采用划分方法（Partitioning Methods）对数据集进行k个划分，每个划分（每个组）代表一个簇，k≤n，并且每个划分（每个簇）至少包含一个对象，而且每个对象一般来说只能属于一个组。对于给定的k值，划分方法一般要做一个初始划分，然后采取迭代重新定位技术，通过让对象在不同组间移动来改进划分的准确度和精度。一个好的划分原则是：同一个簇中对象之间的相似性很高（或距离很近），而不同簇的对象之间相异度很高（或距离很远）。目前主流的划分方法如下。

1700500564

1700500565 ❑K-Means算法：又叫K均值算法，这是目前最著名、使用最广泛的聚类算法。在给定一个数据集和需要划分的数目k后，该算法可以根据某个距离函数反复把数据划分到k个簇中，直到收敛为止。K-Means算法用簇中对象的平均值来表示划分的每个簇，其大致的步骤是，首先从随机抽取的k个数据点作为初始的聚类中心（种子中心），然后计算每个数据点到每个种子中心的距离，并把每个数据点分配到距离它最近的种子中心；一旦所有的数据点都被分配完成，每个聚类的聚类中心（种子中心）按照本聚类（本簇）的现有数据点重新计算；这个过程不断重复，直到收敛，即满足某个终止条件为止，最常见的终止条件是误差平方和（SSE）局部最小。

1700500566

1700500567 ❑K-Medoids算法：又叫K中心点算法，该算法用最接近簇中心的一个对象来表示划分的每个簇。K-Medoids算法与K-Means算法的划分过程相似，两者最大的区别是K-Medoids算法是用簇中最靠近中心点的一个真实的数据对象来代表该簇的，而K-Means算法是用计算出来的簇中对象的平均值来代表该簇的，这个平均值是虚拟的，并没有一个真实的数据对象具有这些平均值。

1700500568

1700500569

1700500570

1700500571

1700500572 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497592]

1700500573 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.2.2　层次方法

1700500574

1700500575 在给定n个对象的数据集后，可用层次方法（Hierarchical Methods）对数据集进行层次分解，直到满足某种收敛条件为止。按照层次分解的形式不同，层次方法又可以分为凝聚层次聚类和分裂层次聚类：

1700500576

1700500577 ❑凝聚层次聚类：又叫自底向上方法，一开始将每个对象作为单独的一类，然后相继合并与其相近的对象或类，直到所有小的类别合并成一个类，即层次的最上面，或者达到一个收敛，即终止条件为止。

1700500578

1700500579 ❑分裂层次聚类：又叫自顶向下方法，一开始将所有对象置于一个簇中，在迭代的每一步中，类会被分裂成更小的类，直到最终每个对象在一个单独的类（簇）中，或者满足一个收敛，即终止条件为止。

1700500580

1700500581 层次方法最大的缺陷在于，合并或者分裂点的选择比较困难，对于局部来说，好的合并或者分裂点的选择往往并不能保证会得到高质量的全局的聚类结果，而且一旦一个步骤（合并或分裂）完成，它就不能被撤销了。

1700500582

1700500583

1700500584

1700500585

1700500586 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497593]

1700500587 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.2.3　基于密度的方法

1700500588

1700500589 传统的聚类算法都是基于对象之间的距离，即距离作为相似性的描述指标进行聚类划分，但是这些基于距离的方法只能发现球状类型的数据，而对于非球状类型的数据来说，只根据距离来描述和判断是不够的。鉴于此，人们提出了一个密度的概念，基于密度的方法（Density-Based Methods），其原理是：只要邻近区域里的密度（对象的数量）超过了某个阀值，就继续聚类。换言之，给定某个簇中的每个数据点（数据对象），在一定范围内必须包含一定数量的其他对象。该算法从数据对象的分布密度出发，把密度足够大的区域连接在一起，因此可以发现任意形状的类。该算法还可以过滤噪声数据（异常值）。基于密度的方法的典型算法包括DBSCAN（Density-Based Spatial Clustering of Application with Noise）以及其扩展算法OPTICS（Ordering Points to Identify the Clustering Structure）。其中，DBSCAN算法会根据一个密度阀值来控制簇的增长，将具有足够高密度的区域划分为类，并可在带有噪声的空间数据库里发现任意形状的聚类。尽管此算法优势明显，但是其最大的缺点就是，该算法需要用户确定输入参数，而且对参数十分敏感。

1700500590

1700500591

1700500592

1700500593

1700500594 数据挖掘与数据化运营实战：思路、方法、技巧与应用 [:1700497594]

1700500595 数据挖掘与数据化运营实战：思路、方法、技巧与应用 9.2.4　基于网格的方法

1700500596

1700500597 基于网格的方法（Grid-Based Methods）将把对象空间量化为有限数目的单元，而这些单元则形成了网格结构，所有的聚类操作都是在这个网格结构中进行的。该算法的优点是处理速度快，其处理时间常常独立于数据对象的数目，只跟量化空间中每一维的单元数目有关。基于网格的方法的典型算法是STING（Statistical Information Grid）算法。该算法是一种基于网格的多分辨率聚类技术，将空间区域划分为不同分辨率级别的矩形单元，并形成一个层次结构，且高层的低分辨率单元会被划分为多个低一层次的较高分辨率单元。这种算法从最底层的网格开始逐渐向上计算网格内数据的统计信息并储存。网格建立完成后，则用类似DBSCAN的方法对网格进行聚类。

1700500598

1700500599

[ 上一页 ] [ :1.70050055e+09 ] [ 下一页 ]