打字猴:1.700498466e+09
1700498466
1700498467 图中圆形和方形代表两类样本,H为分类线,H1、H2,分别为过各类样本中离分类线最近的样本并且平行于分类线的直线,它们之间的距离叫做分类间隔(Margin)。所谓的最优分类线就是要求分类线不但能将两类正确分开(训练错误为0),而且能使分类间隔最大。推广到高维空间,最优分类线就成了最优分类面。
1700498468
1700498469 其中,距离超平面最近的一类向量被称为支持向量(Support Vector),一组支持向量可以唯一地确定一个超平面。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器则可以最大化类与类的间隔,因而有较好的适应能力和较高的分类准确率。
1700498470
1700498471 支持向量机的缺点是训练数据较大,但是,它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容易过拟合[1]。
1700498472
1700498473 支持向量机主要用在预测、分类这样的实际分析需求场景中。
1700498474
1700498475 [1]过拟合,是指模型在训练的时候对样本“模拟”过好,不能反映真实的输入输出函数关系,所以一旦模型面对新的应用数据的时候,就表现为不准确的程度较大。
1700498476
1700498477
1700498478
1700498479
1700498480 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497500]
1700498481 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.8 主成分分析
1700498482
1700498483 严格意义上讲,主成分分析(Principal Components Analysis)属于传统的统计分析技术范畴,但是正如本章前面所阐述的,统计分析与数据挖掘并没有严格的分割,因此在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
1700498484
1700498485 主成分分析会通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面是可以大幅降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。
1700498486
1700498487 主成分分析的主要步骤如下:
1700498488
1700498489 1)通常要先进行各变量的标准化工作,标准化的目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。关于数据标准化的详细介绍,可参考本书8.5.4节和9.3.2节。
1700498490
1700498491 2)选择协方差阵或者相关阵计算特征根及对应的特征向量。
1700498492
1700498493 3)计算方差贡献率,并根据方差贡献率的阀值选取合适的主成分个数。
1700498494
1700498495 4)根据主成分载荷的大小对选择的主成分进行命名。
1700498496
1700498497 5)根据主成分载荷计算各个主成分的得分。
1700498498
1700498499 将主成分进行推广和延伸即成为因子分析(Factor Analysis),因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中,每类变量即是一个因子。之所以称其为因子,是因为它们实际上是不可测量的,只能解释。
1700498500
1700498501 主成分分析是因子分析的一个特例,两者的区别和联系主要表现在以下方面:
1700498502
1700498503 ❑主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合。这个区别最直观也最容易记住。
1700498504
1700498505 ❑主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差。
1700498506
1700498507 ❑在主成分分析中,有几个原始变量就有几个主成分,而在因子分析中,因子个数可以根据业务场景的需要人为指定,并且指定的因子数量不同,则分析结果也会有差异。
1700498508
1700498509 ❑在主成分分析中,给定的协方差矩阵或者相关矩阵的特征值是唯一时,主成分也是唯一的,但是在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子。
1700498510
1700498511 主成分分析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面,同时作为统计学里的基本而重要的分析工具和分析方法,它们在一些专题分析中也有着广泛的应用。
1700498512
1700498513
1700498514
1700498515
[ 上一页 ]  [ :1.700498466e+09 ]  [ 下一页 ]