1702658866
12.1 聚类分析及其方法
1702658867
1702658868
聚类分析指将物理或抽象对象的集合分组成由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,因此,聚类分析这个有用的数学工具越来越受到人们的重视,在许多领域中得到广泛的应用。
1702658869
1702658871
12.1.1 聚类分析概述
1702658872
1702658873
聚类分析又称为类分析,是一种探索性的分析,是研究样品或指标分类问题的一种多元统计方法。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的元素个体的集合,不同类之间具有明显的区别。在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
1702658874
1702658875
聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇的这样一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
1702658876
1702658877
聚类分析是一种数值分类方法,即完全根据数据关系进行分类的方法。所以,要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是一个变量组合。入选的每个指标必须能够刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,它们互相配合,共同刻画事物的特征。
1702658878
1702658879
所谓完备的指标体系,是说入选的指标是充分的,其他任何新增变量对辨别事物差异无显著影响。如果所选指标不完备,则导致分类出现偏差。在社会经济领域中存在着大量分类问题,比如要对一批学生的综合素质进行分类,一般不是逐个学生去分析,而较好的做法是选取能够反映学生综合素质的代表指标。这时候就要有描述学生综合素质的一系列变量,结合这些变量分析就能够充分地反映出不同学生所具有的综合素质情况。
1702658880
1702658881
简单地说,聚类分析的结果往往取决于变量的选择和变量值的获取两个方面。变量的选择越准确,变量的测量越可靠,那么得到的分类结果就越能够描述事物各类间的本质区别。
1702658882
1702658883
聚类分析所使用的方法不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
1702658884
1702658885
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、图论聚类法、聚类预报法、分解法、加入法、动态聚类法、有序样品聚类法、有重叠聚类法和模糊聚类法等。
1702658886
1702658887
在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。
1702658888
1702658889
在地理分类和分区研究中,被聚类的对象常常是由多个要素构成的。不同要素的数据往往具有不同的单位和量纲,其数值的变异可能是很大的,这就会对分类结果产生影响。因此,当分类要素的对象确定之后,在进行聚类分析之前,首先要对聚类要素进行数据处理。
1702658890
1702658891
假设有m个聚类的对象,每一个聚类对象都由n个要素构成。它们所对应的要素数据如图12.1所示。
1702658892
1702658893
1702658894
1702658895
1702658896
图12.1 聚类对象与要素数据示意图
1702658897
1702658898
1702658899
1702658900
1702658902
Excel统计分析与应用大全 12.1.2 聚类分析方法概述
1702658903
1702658904
在聚类分析中,常用的聚类要素的数据处理方法有以下几种。
1702658905
1702658906
(1)总和标准化
1702658907
1702658908
分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即
1702658909
1702658910
1702658911
1702658912
1702658913
这种标准化方法所得到的新数据满足如下定义:
1702658914
[
上一页 ]
[ :1.702658865e+09 ]
[
下一页 ]