1700500573
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.2.2 层次方法
1700500574
1700500575
在给定n个对象的数据集后,可用层次方法(Hierarchical Methods)对数据集进行层次分解,直到满足某种收敛条件为止。按照层次分解的形式不同,层次方法又可以分为凝聚层次聚类和分裂层次聚类:
1700500576
1700500577
❑凝聚层次聚类:又叫自底向上方法,一开始将每个对象作为单独的一类,然后相继合并与其相近的对象或类,直到所有小的类别合并成一个类,即层次的最上面,或者达到一个收敛,即终止条件为止。
1700500578
1700500579
❑分裂层次聚类:又叫自顶向下方法,一开始将所有对象置于一个簇中,在迭代的每一步中,类会被分裂成更小的类,直到最终每个对象在一个单独的类(簇)中,或者满足一个收敛,即终止条件为止。
1700500580
1700500581
层次方法最大的缺陷在于,合并或者分裂点的选择比较困难,对于局部来说,好的合并或者分裂点的选择往往并不能保证会得到高质量的全局的聚类结果,而且一旦一个步骤(合并或分裂)完成,它就不能被撤销了。
1700500582
1700500583
1700500584
1700500585
1700500587
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.2.3 基于密度的方法
1700500588
1700500589
传统的聚类算法都是基于对象之间的距离,即距离作为相似性的描述指标进行聚类划分,但是这些基于距离的方法只能发现球状类型的数据,而对于非球状类型的数据来说,只根据距离来描述和判断是不够的。鉴于此,人们提出了一个密度的概念,基于密度的方法(Density-Based Methods),其原理是:只要邻近区域里的密度(对象的数量)超过了某个阀值,就继续聚类。换言之,给定某个簇中的每个数据点(数据对象),在一定范围内必须包含一定数量的其他对象。该算法从数据对象的分布密度出发,把密度足够大的区域连接在一起,因此可以发现任意形状的类。该算法还可以过滤噪声数据(异常值)。基于密度的方法的典型算法包括DBSCAN(Density-Based Spatial Clustering of Application with Noise)以及其扩展算法OPTICS(Ordering Points to Identify the Clustering Structure)。其中,DBSCAN算法会根据一个密度阀值来控制簇的增长,将具有足够高密度的区域划分为类,并可在带有噪声的空间数据库里发现任意形状的聚类。尽管此算法优势明显,但是其最大的缺点就是,该算法需要用户确定输入参数,而且对参数十分敏感。
1700500590
1700500591
1700500592
1700500593
1700500595
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.2.4 基于网格的方法
1700500596
1700500597
基于网格的方法(Grid-Based Methods)将把对象空间量化为有限数目的单元,而这些单元则形成了网格结构,所有的聚类操作都是在这个网格结构中进行的。该算法的优点是处理速度快,其处理时间常常独立于数据对象的数目,只跟量化空间中每一维的单元数目有关。基于网格的方法的典型算法是STING(Statistical Information Grid)算法。该算法是一种基于网格的多分辨率聚类技术,将空间区域划分为不同分辨率级别的矩形单元,并形成一个层次结构,且高层的低分辨率单元会被划分为多个低一层次的较高分辨率单元。这种算法从最底层的网格开始逐渐向上计算网格内数据的统计信息并储存。网格建立完成后,则用类似DBSCAN的方法对网格进行聚类。
1700500598
1700500599
1700500600
1700500601
1700500603
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.3 聚类分析在实践应用中的重点注意事项
1700500604
1700500605
在数据化运营实践中,由于针对大规模数据集所采用的聚类算法主要是K-Means算法应用,因为其简洁、高效、易理解、易实施。因此,除非特别说明,本章所展开讲解的聚类技术的具体内容都是针对K-Means算法进行分析和阐述的。
1700500606
1700500608
9.3.1 如何处理数据噪声和异常值
1700500609
1700500610
K-Means算法对噪声和异常值非常敏感,这些个别数据对于平均值的影响非常大,相对而言,K-中心点的方法不像K-Means算法,它不是求样本的平均值,而是用类中最接近于中心点的对象来代表类,因此K-中心点的方法对于噪声和异常值没有K-Means算法那么敏感。鉴于K-Means算法的这一局限性,我们应用该算法时需要特别注意这些数据噪声和异常值。
1700500611
1700500612
针对聚类中的数据噪声和异常值,常用的处理方法如下:
1700500613
1700500614
❑直接删除那些比其他任何数据点都要远离聚类中心点的异常值。为了防止误删的情况发生,数据分析师需要在多次的聚类循环中监控这些异常值,然后依据业务逻辑与多次的循环结果进行对比,再决定是否删除这些异常值。
1700500615
1700500616
❑随机抽样的方法也可以较好地规避数据噪声的影响。因为是随机抽样,作为稀有事件的数据噪声和异常值能被随机抽进样本中的概率会很小,这样随机抽出的样本就比较干净。针对该随机样本进行聚类分析时不仅可以避免数据噪声的误导和干扰,而且其聚类后的结果作为聚类模型可以应用到剩余的数据集中,完成对整个数据集的聚类划分。利用这种随机抽样方式得到的聚类模型,在应用于整个数据集时至少有以下两种方式。
1700500617
1700500618
1)直接用该聚类模型对剩余的数据集进行判断,也就是把剩余的数据分配给那些离它们最近的聚类中心,这种方法最简单、最直观、最快捷。
1700500619
1700500620
2)利用监督学习中的分类器的原理,每个聚类被认为是一个类别,已经参与聚类的这些随机抽样数据则被看做是学习样本,由此产生的分类器可以用于判断剩余的那些数据点最适合放进哪个类别或者哪个聚类群体中。这种方式相比第一种方式来说比较费时,尤其是当聚类出来的群体较多的时候,利用分类器的原理去分别判断时会更加耗时,不过其作为一种思路和方法倒是未尝不可。
1700500621
[
上一页 ]
[ :1.700500572e+09 ]
[
下一页 ]