1700500590
1700500591
1700500592
1700500593
1700500595
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.2.4 基于网格的方法
1700500596
1700500597
基于网格的方法(Grid-Based Methods)将把对象空间量化为有限数目的单元,而这些单元则形成了网格结构,所有的聚类操作都是在这个网格结构中进行的。该算法的优点是处理速度快,其处理时间常常独立于数据对象的数目,只跟量化空间中每一维的单元数目有关。基于网格的方法的典型算法是STING(Statistical Information Grid)算法。该算法是一种基于网格的多分辨率聚类技术,将空间区域划分为不同分辨率级别的矩形单元,并形成一个层次结构,且高层的低分辨率单元会被划分为多个低一层次的较高分辨率单元。这种算法从最底层的网格开始逐渐向上计算网格内数据的统计信息并储存。网格建立完成后,则用类似DBSCAN的方法对网格进行聚类。
1700500598
1700500599
1700500600
1700500601
1700500603
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.3 聚类分析在实践应用中的重点注意事项
1700500604
1700500605
在数据化运营实践中,由于针对大规模数据集所采用的聚类算法主要是K-Means算法应用,因为其简洁、高效、易理解、易实施。因此,除非特别说明,本章所展开讲解的聚类技术的具体内容都是针对K-Means算法进行分析和阐述的。
1700500606
1700500608
9.3.1 如何处理数据噪声和异常值
1700500609
1700500610
K-Means算法对噪声和异常值非常敏感,这些个别数据对于平均值的影响非常大,相对而言,K-中心点的方法不像K-Means算法,它不是求样本的平均值,而是用类中最接近于中心点的对象来代表类,因此K-中心点的方法对于噪声和异常值没有K-Means算法那么敏感。鉴于K-Means算法的这一局限性,我们应用该算法时需要特别注意这些数据噪声和异常值。
1700500611
1700500612
针对聚类中的数据噪声和异常值,常用的处理方法如下:
1700500613
1700500614
❑直接删除那些比其他任何数据点都要远离聚类中心点的异常值。为了防止误删的情况发生,数据分析师需要在多次的聚类循环中监控这些异常值,然后依据业务逻辑与多次的循环结果进行对比,再决定是否删除这些异常值。
1700500615
1700500616
❑随机抽样的方法也可以较好地规避数据噪声的影响。因为是随机抽样,作为稀有事件的数据噪声和异常值能被随机抽进样本中的概率会很小,这样随机抽出的样本就比较干净。针对该随机样本进行聚类分析时不仅可以避免数据噪声的误导和干扰,而且其聚类后的结果作为聚类模型可以应用到剩余的数据集中,完成对整个数据集的聚类划分。利用这种随机抽样方式得到的聚类模型,在应用于整个数据集时至少有以下两种方式。
1700500617
1700500618
1)直接用该聚类模型对剩余的数据集进行判断,也就是把剩余的数据分配给那些离它们最近的聚类中心,这种方法最简单、最直观、最快捷。
1700500619
1700500620
2)利用监督学习中的分类器的原理,每个聚类被认为是一个类别,已经参与聚类的这些随机抽样数据则被看做是学习样本,由此产生的分类器可以用于判断剩余的那些数据点最适合放进哪个类别或者哪个聚类群体中。这种方式相比第一种方式来说比较费时,尤其是当聚类出来的群体较多的时候,利用分类器的原理去分别判断时会更加耗时,不过其作为一种思路和方法倒是未尝不可。
1700500621
1700500622
1700500623
1700500624
1700500626
数据挖掘与数据化运营实战:思路、方法、技巧与应用 9.3.2 数据标准化
1700500627
1700500628
在数据化运营的商业实战中,参与聚类的变量绝大多数都是区间型变量(Interval),不同区间型变量之间的数量单位不同,如果不加处理直接进行聚类,很容易造成聚类结果的失真。比如,长度单位有的是公里,有的是毫米;质量单位有的是吨,有的是克;一般而言,变量的单位越小,变量可能的值域就越大,对聚类结果的影响也就越大。为了避免对度量单位选择的依赖,在聚类之前所要采取的一个重要的技术措施就是进行数据标准化。
1700500629
1700500630
数据标准化是聚类分析中最重要的一个数据预处理步骤,这主要是因为它不仅可以为聚类计算中的各个属性赋予相同的权重,还可以有效化解不同属性因度量单位不统一所带来的潜在的数量等级的差异,这些差异如果不处理,会造成聚类结果的失真。
1700500631
1700500632
数据的标准化有多种不同的方式,其中,尤以标准差标准化最常用。标准差标准化,又叫Z-Score标准化(Zero-Mean Normalization),经过这种方法处理后的数据符合标准正态分布,即均值为0,标准差为1,其转化公式如下:
1700500633
1700500634
1700500635
1700500636
1700500637
其中,μ为所有样本数据的均值,σ为所有样本数据的标准差。
1700500638
1700500639
[
上一页 ]
[ :1.70050059e+09 ]
[
下一页 ]