1700498481
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.8 主成分分析
1700498482
1700498483
严格意义上讲,主成分分析(Principal Components Analysis)属于传统的统计分析技术范畴,但是正如本章前面所阐述的,统计分析与数据挖掘并没有严格的分割,因此在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
1700498484
1700498485
主成分分析会通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面是可以大幅降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。
1700498486
1700498487
主成分分析的主要步骤如下:
1700498488
1700498489
1)通常要先进行各变量的标准化工作,标准化的目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。关于数据标准化的详细介绍,可参考本书8.5.4节和9.3.2节。
1700498490
1700498491
2)选择协方差阵或者相关阵计算特征根及对应的特征向量。
1700498492
1700498493
3)计算方差贡献率,并根据方差贡献率的阀值选取合适的主成分个数。
1700498494
1700498495
4)根据主成分载荷的大小对选择的主成分进行命名。
1700498496
1700498497
5)根据主成分载荷计算各个主成分的得分。
1700498498
1700498499
将主成分进行推广和延伸即成为因子分析(Factor Analysis),因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中,每类变量即是一个因子。之所以称其为因子,是因为它们实际上是不可测量的,只能解释。
1700498500
1700498501
主成分分析是因子分析的一个特例,两者的区别和联系主要表现在以下方面:
1700498502
1700498503
❑主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合。这个区别最直观也最容易记住。
1700498504
1700498505
❑主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差。
1700498506
1700498507
❑在主成分分析中,有几个原始变量就有几个主成分,而在因子分析中,因子个数可以根据业务场景的需要人为指定,并且指定的因子数量不同,则分析结果也会有差异。
1700498508
1700498509
❑在主成分分析中,给定的协方差矩阵或者相关矩阵的特征值是唯一时,主成分也是唯一的,但是在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子。
1700498510
1700498511
主成分分析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面,同时作为统计学里的基本而重要的分析工具和分析方法,它们在一些专题分析中也有着广泛的应用。
1700498512
1700498513
1700498514
1700498515
1700498517
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.9 假设检验
1700498518
1700498519
假设检验(Hypothesis Test)是现代统计学的基础和核心之一,其主要研究在一定的条件下,总体是否具备某些特定特征。
1700498520
1700498521
假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生。如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中,小概率事件没有发生,那么也只能说明没有足够理由相信假设是错误的,但是也并不能说明假设是正确的,因为无法收集到所有的证据来证明假设是正确的。
1700498522
1700498523
假设检验的结论是在一定的显著性水平下得出的。因此,当采用此方法观测事件并下结论时,有可能会犯错,这些错误主要有两大类:
1700498524
1700498525
❑第Ⅰ类错误:当原假设为真时,却否定它而犯的错误,即拒绝正确假设的错误,也叫弃真错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,α=1-置信度。
1700498526
1700498527
❑第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误,即接受错误假设的错误,也叫纳伪错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。
1700498528
1700498529
上述这两类错误在其他条件不变的情况下是相反的,即α增大时,β就减小;α减小时,β就增大。α错误容易受数据分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05,也可以取0.1或0.001。
[
上一页 ]
[ :1.70049848e+09 ]
[
下一页 ]