1700507810
1700507811
1700507812
1700507813
1700507814
图11-22 三维空间和二维空间聚类效果
1700507815
1700507816
聚类研究的对象是由距离或者稠密程度形成的聚簇对象及其特点。如图11-22左图所示就是一个三维空间K-Means算法聚类的效果图。K-Means算法的步骤大致如下。
1700507817
1700507818
(1)从n个向量对象中任意选择k个向量作为初始聚类中心。
1700507819
1700507820
(2)根据在步骤(1)中设置的k个向量(中心对象向量),分别计算每个对象与这k个向量的距离。这里的距离都是欧氏距离(Euclidean Distance)。
1700507821
1700507822
(3)对于步骤(2)中的计算,任何一个向量与向量k之间都有一段距离,有的远,有的近。把这个向量和距离它最近的中心向量对象归在一个类簇中。
1700507823
1700507824
(4)重新计算每个类簇的中心对象向量位置。
1700507825
1700507826
(5)重复步骤(3)、(4),直到类簇聚类方案中的向量归类变化极小为止。
1700507827
1700507828
由于K-Means算法是给定若干个聚类中心点的向量,通过计算空间重心的方式进行聚合,所以聚合出来的基本都是某一半径的高维“球体”包络下的空间向量集合。
1700507829
1700507830
而对如图11-22右图所示的聚簇形状不规则的数据集,应使用密度聚类的方式(例如DBSCAN算法)。除此之外,就是研究那些离群点(也叫“孤立点”,是指那些不在任何聚类当中的离散的点向量)。对孤立点的研究,通常也是研究它的一些特性或者成因。
1700507831
1700507832
另一种典型的非监督学习叫作“隐马尔可夫模型”,也称“马尔可夫链”(如图11-23所示)。马尔可夫链是一个数学概念,因为它由俄罗斯物理学家、数学家安德烈·马尔可夫(A. A. Markov)提出的,所以得名。马尔可夫链的核心是:在给定当前知识或信息的情况下,观察对象过去的历史状态对于预测将来而言是无关的。也可以说,在观察一个系统中序列值变化的时候,下一个状态(第n+1个状态)如何的概率只需要观察和统计当前状态(第n个状态)即可正确得出。另外,我们在一些资料中会看到贝叶斯信念网络的分类模型概念。隐马尔可夫链和贝叶斯信念网络的模型,其思维方式有些相似,区别在于隐马尔可夫链的模型更为简化,或者我们可以认为,隐马尔可夫链就是贝叶斯信念网络的一种特例。而且,隐马尔科夫链是一个双重随机过程,不仅状态转移之间是一个随机事件,状态和输出之间也是一个随机过程。
1700507833
1700507834
1700507835
1700507836
1700507837
图11-23 马尔可夫链
1700507838
1700507839
在一个完整的观察过程中有一些状态的转换,就是如图11-23所示用虚线圈标出的X1到XT。在观察中,X1到XT的状态存在一个客观的转化规律,但是我们无法直接观测到。我们观测到的是每个X状态下能让我们看到的输出O,也就是O1到OT这些输出值。我们需要通过这些输出值进行模型建立和状态转移的概率计算。
1700507840
1700507841
这种学习过程的结果是得到一个概率转化矩阵。这是一个无监督的过程,不需要人对它进行任何标注。在得到转化矩阵之后,能做的事情就比较多了,基本都是关于序列预测的。这种模型衍生出了多种重要的算法,例如维特比算法(Viterbi Algorithm)、前向算法(Forward Algorithm)和后向算法(Backward Algorithm)。
1700507842
1700507843
我们可以这样看待隐马尔可夫模型这种非监督学习方式。
1700507844
1700507845
在一个长期产生输出的序列中,我们能够观察到的输出的序列对象就是O1到OT。每一次输出的序列都用一个向量表示,这个向量也同样能够形成一个集合Q,每个成员用Qi表示,i是从1到T的正整数。通过对一个邻接矩阵的统计,可以得到一个转换的概率关系(如表11-6所示)。
1700507846
1700507847
表11-6 转换概率矩阵
1700507848
1700507849
1700507850
1700507851
1700507852
这个概率矩阵通过对任意Qm到Qn项的转换数量的统计来计算转换概率,而且在这个模型中,在统计环节也只看输出项Oi和Oi-1的关系。对建立一个认知模型来说,过程已经得到了极度简化,而且我们也不用担心Oi与Oi-2的关系没有被计入。在隐马尔可夫模型的应用中,对Xi和Oi的划分是比较宽泛的。如果我们觉得讨论前后的概率关系需要参考一些更远的状态,只要将临近的多个Xi和Oi合并观察和建模即可。观察状态的时间宽度在隐马尔可夫模型中没有严格的限制,可以是实际生产中的1秒、1分钟、1小时、1天或更久,所以Oi与其前部很远位置的状态其实也会根据观察者观察尺度的变化而变化。
1700507853
1700507854
这种认知方式对前后变化规律明显的模型有极大的应用优势。例如,隐马尔可夫模型在NLP(Natural Language Processing,自然语言处理)领域有着得天独厚的优势,在不同的场景中,语音所表示的语义前后相关性极高,所以同音汉字在这种前后相关的语境中可以通过统计学及隐马尔可夫模型实现最大概率汉字的检出。除此之外,通信工程领域3G/4G广泛使用的码分多址(Code Division Multiple Access,CDMA)技术也是典型的以隐马尔可夫模型为理论基础的工学应用。
1700507855
1700507857
11.8.2 监督学习
1700507858
1700507859
监督学习和非监督学习的方式有所不同。在监督学习的范畴,样本对象除了有自己的特征向量以外,还有标签向量(或称“分类向量”)。以特征向量表示输入,以标签向量表示输出或预测值,为确立这样的映射关系让计算机进行的自动化归纳运算就是监督学习。
[
上一页 ]
[ :1.70050781e+09 ]
[
下一页 ]