1700498430
1700498431
此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,根据贝叶斯定理
1700498432
1700498433
1700498434
1700498435
1700498436
可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。
1700498437
1700498438
为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当
1700498439
1700498440
P(Ci|X)>P(Cj|X)1≤j≤m,j≠i
1700498441
1700498442
贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。
1700498443
1700498444
1700498445
1700498446
1700498448
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.7 支持向量机
1700498449
1700498450
支持向量机(Support Vector Machine)是Vapnik等人于1995年率先提出的,是近年来机器学习研究的一个重大成果。与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一。
1700498451
1700498452
作为一种新的分类方法,支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射,两类数据总可以被超平面分开。
1700498453
1700498454
支持向量机的基本概念如下:
1700498455
1700498456
设给定的训练样本集为{(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,y∈{-1,1}。
1700498457
1700498458
再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+b=0。
1700498459
1700498460
支持向量机的基本思想可用图2-2的两维情况举例说明。
1700498461
1700498462
1700498463
1700498464
1700498465
图2-2 线性可分情况下的最优分类线
1700498466
1700498467
图中圆形和方形代表两类样本,H为分类线,H1、H2,分别为过各类样本中离分类线最近的样本并且平行于分类线的直线,它们之间的距离叫做分类间隔(Margin)。所谓的最优分类线就是要求分类线不但能将两类正确分开(训练错误为0),而且能使分类间隔最大。推广到高维空间,最优分类线就成了最优分类面。
1700498468
1700498469
其中,距离超平面最近的一类向量被称为支持向量(Support Vector),一组支持向量可以唯一地确定一个超平面。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器则可以最大化类与类的间隔,因而有较好的适应能力和较高的分类准确率。
1700498470
1700498471
支持向量机的缺点是训练数据较大,但是,它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确,并且也不太容易过拟合[1]。
1700498472
1700498473
支持向量机主要用在预测、分类这样的实际分析需求场景中。
1700498474
1700498475
[1]过拟合,是指模型在训练的时候对样本“模拟”过好,不能反映真实的输入输出函数关系,所以一旦模型面对新的应用数据的时候,就表现为不准确的程度较大。
1700498476
1700498477
1700498478
1700498479
[
上一页 ]
[ :1.70049843e+09 ]
[
下一页 ]