打字猴:1.700498443e+09
1700498443
1700498444
1700498445
1700498446
1700498447 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497499]
1700498448 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.7 支持向量机
1700498449
1700498450 支持向量机(Support Vector Machine)是Vapnik等人于1995年率先提出的,是近年来机器学习研究的一个重大成果。与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一。
1700498451
1700498452 作为一种新的分类方法,支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射,两类数据总可以被超平面分开。
1700498453
1700498454 支持向量机的基本概念如下:
1700498455
1700498456 设给定的训练样本集为{(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,y∈{-1,1}。
1700498457
1700498458 再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+b=0。
1700498459
1700498460 支持向量机的基本思想可用图2-2的两维情况举例说明。
1700498461
1700498462
1700498463
1700498464
1700498465 图2-2 线性可分情况下的最优分类线
1700498466
1700498467 图中圆形和方形代表两类样本,H为分类线,H1、H2,分别为过各类样本中离分类线最近的样本并且平行于分类线的直线,它们之间的距离叫做分类间隔(Margin)。所谓的最优分类线就是要求分类线不但能将两类正确分开(训练错误为0),而且能使分类间隔最大。推广到高维空间,最优分类线就成了最优分类面。
1700498468
1700498469 其中,距离超平面最近的一类向量被称为支持向量(Support Vector),一组支持向量可以唯一地确定一个超平面。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器则可以最大化类与类的间隔,因而有较好的适应能力和较高的分类准确率。
1700498470
1700498471 支持向量机的缺点是训练数据较大,但是,它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容易过拟合[1]。
1700498472
1700498473 支持向量机主要用在预测、分类这样的实际分析需求场景中。
1700498474
1700498475 [1]过拟合,是指模型在训练的时候对样本“模拟”过好,不能反映真实的输入输出函数关系,所以一旦模型面对新的应用数据的时候,就表现为不准确的程度较大。
1700498476
1700498477
1700498478
1700498479
1700498480 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497500]
1700498481 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.8 主成分分析
1700498482
1700498483 严格意义上讲,主成分分析(Principal Components Analysis)属于传统的统计分析技术范畴,但是正如本章前面所阐述的,统计分析与数据挖掘并没有严格的分割,因此在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
1700498484
1700498485 主成分分析会通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面是可以大幅降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。
1700498486
1700498487 主成分分析的主要步骤如下:
1700498488
1700498489 1)通常要先进行各变量的标准化工作,标准化的目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。关于数据标准化的详细介绍,可参考本书8.5.4节和9.3.2节。
1700498490
1700498491 2)选择协方差阵或者相关阵计算特征根及对应的特征向量。
1700498492
[ 上一页 ]  [ :1.700498443e+09 ]  [ 下一页 ]