1700498412
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.6 贝叶斯分类方法
1700498413
1700498414
贝叶斯分类方法(Bayesian Classifier)是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
1700498415
1700498416
贝叶斯定理的公式如下:
1700498417
1700498418
1700498419
1700498420
1700498421
其中,X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。因为P(H|X)是后验概率(Posterior Probability),所以又称其为在条件X下,H的后验概率。
1700498422
1700498423
举例来说,假设数据属性仅限于用教育背景和收入来描述顾客,而X是一位硕士学历,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机,则P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;相反,P(X|H)则表示如果已知顾客购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;而P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。
1700498424
1700498425
从上面的介绍可见,相比于先验概率P(H),后验概率P(H|X)基于了更多的信息(比如顾客的信息属性),而P(H)是独立于X的。
1700498426
1700498427
贝叶斯定理是朴素贝叶斯分类法(Naive Bayesian Classifier)的基础,如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察值是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯分类方法预测X属于类别Ci时,表示当且仅当
1700498428
1700498429
P(Ci|X)>P(Cj|X)1≤j≤m,j≠i
1700498430
1700498431
此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,根据贝叶斯定理
1700498432
1700498433
1700498434
1700498435
1700498436
可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。
1700498437
1700498438
为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当
1700498439
1700498440
P(Ci|X)>P(Cj|X)1≤j≤m,j≠i
1700498441
1700498442
贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。
1700498443
1700498444
1700498445
1700498446
1700498448
数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.7 支持向量机
1700498449
1700498450
支持向量机(Support Vector Machine)是Vapnik等人于1995年率先提出的,是近年来机器学习研究的一个重大成果。与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升,因此它成为当今机器学习领域的热点之一。
1700498451
1700498452
作为一种新的分类方法,支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射,两类数据总可以被超平面分开。
1700498453
1700498454
支持向量机的基本概念如下:
1700498455
1700498456
设给定的训练样本集为{(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,y∈{-1,1}。
1700498457
1700498458
再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+b=0。
1700498459
1700498460
支持向量机的基本思想可用图2-2的两维情况举例说明。
[
上一页 ]
[ :1.700498411e+09 ]
[
下一页 ]