1702659360
图12.33 合并第1区和第3区
1702659361
1702659362
⑧在步骤7之后余下的元素中,除去对角线元素以外,只有d51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列。此时,第1、2、3、4、5、6、7、8、9区已归并为一类。
1702659363
1702659364
根据示例4的步骤,可以作出直接聚类谱系图,如图12.34所示。
1702659365
1702659366
1702659367
1702659368
1702659369
图12.34 直接聚类谱系图
1702659370
1702659371
1702659372
1702659373
1702659375
Excel统计分析与应用大全 12.2 聚类分析的应用
1702659376
1702659377
聚类分析的基本思想是以统计量为划分类型的依据,把一些相似程度较大的样本聚为一类,把另外一些彼此之间相似程度较大的样本又聚为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本都聚合完毕,形成一个由小到大的分类系统。例如,聚类分析在金融投资方面有很大的研究价值。将聚类分析和方差分析相结合进行投资分析,对股票的收益性、成长性等方面进行分析,建立较为合理的指标体系,衡量样本股票的“相似程度”,再通过聚类分析为投资者确定投资范围和投资价值。
1702659378
1702659379
衡量样本股票的“相似程度”的指标便是“距离”——样本股票收益性、成长性等方面的差距。也就是说,根据股票的收益与成长对股票进行聚类分析就是根据股票收益性、成长性等方面的差距的大小,将收益与成长不同的股票分到不同的类别当中去。这种“距离”的应用在生活中是非常普遍的。
1702659380
1702659381
类别的数目则视具体情况而定。如果要将股票的收益分为高、中、低三档,那么就需要分为三类。如果要求分类非常精确,方便其他研究,那么有时候会需要更多分类。当然,分类数目也要考虑最终的分类效果。如果分成两个类别,一类中只有少数股票,而另一类中却有很多股票,那么一般会认为分成两类是不合理的,因此还需要进一步聚类,直至几个类别的样本数量相当。当然,如果没有具体要求,应当将可能的所有分类都列举出来。
1702659382
1702659383
总而言之,在聚类分析过程中,核心是定义和计算“距离”,然后根据具体要求确定类别数目。
1702659384
1702659386
12.2.1 最短距离法的应用
1702659387
1702659388
下面通过示例5,介绍如何在Excel 2013中通过最短距离法的运用进行相应的聚类分析。
1702659389
1702659390
示例5:
1702659391
1702659392
假定以下数据为某地14家中小企业去年年均收入统计汇总,要求以该数据文件为基础,运用最短距离法对该地14家中小企业去年年均收入的汇总数据进行聚类分析,并且将企业年均收入分为较高、中等、一般、较低和很低5个类别。原始数据如图12.35所示。
1702659393
1702659394
1702659395
1702659396
1702659397
图12.35 示例5原始数据
1702659398
1702659399
为了消除量纲影响,一般先要将数据标准化。操作步骤如下:
1702659400
1702659401
①设置单元格区域。在C1单元格和D1单元格中分别输入“标准化企业年均收入”和“标准差”,如图12.36所示。
1702659402
1702659403
1702659404
1702659405
1702659406
图12.36 单元格区域设置
1702659407
1702659409
[
上一页 ]
[ :1.70265936e+09 ]
[
下一页 ]