打字猴:1.700498397e+09
1700498397
1700498398 聚类分析的算法可以分为划分的方法(Partitioning Method)、层次的方法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-based Method)等,其中,前面两种方法最为常用。
1700498399
1700498400 对于划分的方法(Partitioning Method),当给定m个对象的数据集,以及希望生成的细分群体数量K后,即可采用这种方法将这些对象分成K组(K≤m),使得每个组内对象是相似的,而组间的对象是相异的。最常用的划分方法是K-Means方法,其具体原理是:首先,随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值或初始的组中心值;对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的(最相似)小组;然后,重新计算每个小组新的均值;这个过程不断重复,直到所有的对象在K组分布中都找到离自己最近的组。
1700498401
1700498402 层次的方法(Hierarchical Method)则是指依次让最相似的数据对象两两合并,这样不断地合并,最后就形成了一棵聚类树。
1700498403
1700498404 聚类技术在数据分析和数据化运营中的主要用途表现在:既可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和相应的运营方案建议,又可在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系等。
1700498405
1700498406 关于聚类技术的详细介绍和应用实践中的注意事项,可参考本书第9章。
1700498407
1700498408
1700498409
1700498410
1700498411 数据挖掘与数据化运营实战:思路、方法、技巧与应用 [:1700497498]
1700498412 数据挖掘与数据化运营实战:思路、方法、技巧与应用 2.3.6 贝叶斯分类方法
1700498413
1700498414 贝叶斯分类方法(Bayesian Classifier)是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
1700498415
1700498416 贝叶斯定理的公式如下:
1700498417
1700498418
1700498419
1700498420
1700498421 其中,X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。因为P(H|X)是后验概率(Posterior Probability),所以又称其为在条件X下,H的后验概率。
1700498422
1700498423 举例来说,假设数据属性仅限于用教育背景和收入来描述顾客,而X是一位硕士学历,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机,则P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;相反,P(X|H)则表示如果已知顾客购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;而P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。
1700498424
1700498425 从上面的介绍可见,相比于先验概率P(H),后验概率P(H|X)基于了更多的信息(比如顾客的信息属性),而P(H)是独立于X的。
1700498426
1700498427 贝叶斯定理是朴素贝叶斯分类法(Naive Bayesian Classifier)的基础,如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察值是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯分类方法预测X属于类别Ci时,表示当且仅当
1700498428
1700498429 P(Ci|X)>P(Cj|X)1≤j≤m,j≠i
1700498430
1700498431 此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,根据贝叶斯定理
1700498432
1700498433
1700498434
1700498435
1700498436 可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。
1700498437
1700498438 为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当
1700498439
1700498440 P(Ci|X)>P(Cj|X)1≤j≤m,j≠i
1700498441
1700498442 贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。
1700498443
1700498444
1700498445
1700498446
[ 上一页 ]  [ :1.700498397e+09 ]  [ 下一页 ]