打字猴:1.700507799e+09

1700507799 数据科学家养成手册 [:1700503589]

1700507800 11.8.1　非监督学习

1700507801

1700507802 非监督学习直接对输入的数据集建模，例如聚类（Clustering）和隐马尔可夫模型（Hidden Markov Model，HMM）等。

1700507803

1700507804 非监督学习，顾名思义，是一个不加干预的学习过程。在这个学习过程中，每个被观察的对象没有明确的标签属性，只有量化特征维度X。X是一个n维向量，分量分别是

1700507805

1700507806

1700507807

1700507808

1700507809 然后，在这个n维空间里尝试寻找聚类（如图11-22所示）。

1700507810

1700507811

1700507812

1700507813

1700507814 图11-22　三维空间和二维空间聚类效果

1700507815

1700507816 聚类研究的对象是由距离或者稠密程度形成的聚簇对象及其特点。如图11-22左图所示就是一个三维空间K-Means算法聚类的效果图。K-Means算法的步骤大致如下。

1700507817

1700507818 （1）从n个向量对象中任意选择k个向量作为初始聚类中心。

1700507819

1700507820 （2）根据在步骤（1）中设置的k个向量（中心对象向量），分别计算每个对象与这k个向量的距离。这里的距离都是欧氏距离（Euclidean Distance）。

1700507821

1700507822 （3）对于步骤（2）中的计算，任何一个向量与向量k之间都有一段距离，有的远，有的近。把这个向量和距离它最近的中心向量对象归在一个类簇中。

1700507823

1700507824 （4）重新计算每个类簇的中心对象向量位置。

1700507825

1700507826 （5）重复步骤（3）、（4），直到类簇聚类方案中的向量归类变化极小为止。

1700507827

1700507828 由于K-Means算法是给定若干个聚类中心点的向量，通过计算空间重心的方式进行聚合，所以聚合出来的基本都是某一半径的高维“球体”包络下的空间向量集合。

1700507829

1700507830 而对如图11-22右图所示的聚簇形状不规则的数据集，应使用密度聚类的方式（例如DBSCAN算法）。除此之外，就是研究那些离群点（也叫“孤立点”，是指那些不在任何聚类当中的离散的点向量）。对孤立点的研究，通常也是研究它的一些特性或者成因。

1700507831

1700507832 另一种典型的非监督学习叫作“隐马尔可夫模型”，也称“马尔可夫链”（如图11-23所示）。马尔可夫链是一个数学概念，因为它由俄罗斯物理学家、数学家安德烈·马尔可夫（A. A. Markov）提出的，所以得名。马尔可夫链的核心是：在给定当前知识或信息的情况下，观察对象过去的历史状态对于预测将来而言是无关的。也可以说，在观察一个系统中序列值变化的时候，下一个状态（第n+1个状态）如何的概率只需要观察和统计当前状态（第n个状态）即可正确得出。另外，我们在一些资料中会看到贝叶斯信念网络的分类模型概念。隐马尔可夫链和贝叶斯信念网络的模型，其思维方式有些相似，区别在于隐马尔可夫链的模型更为简化，或者我们可以认为，隐马尔可夫链就是贝叶斯信念网络的一种特例。而且，隐马尔科夫链是一个双重随机过程，不仅状态转移之间是一个随机事件，状态和输出之间也是一个随机过程。

1700507833

1700507834

1700507835

1700507836

1700507837 图11-23　马尔可夫链

1700507838

1700507839 在一个完整的观察过程中有一些状态的转换，就是如图11-23所示用虚线圈标出的X1到XT。在观察中，X1到XT的状态存在一个客观的转化规律，但是我们无法直接观测到。我们观测到的是每个X状态下能让我们看到的输出O，也就是O1到OT这些输出值。我们需要通过这些输出值进行模型建立和状态转移的概率计算。

1700507840

1700507841 这种学习过程的结果是得到一个概率转化矩阵。这是一个无监督的过程，不需要人对它进行任何标注。在得到转化矩阵之后，能做的事情就比较多了，基本都是关于序列预测的。这种模型衍生出了多种重要的算法，例如维特比算法（Viterbi Algorithm）、前向算法（Forward Algorithm）和后向算法（Backward Algorithm）。

1700507842

1700507843 我们可以这样看待隐马尔可夫模型这种非监督学习方式。

1700507844

1700507845 在一个长期产生输出的序列中，我们能够观察到的输出的序列对象就是O1到OT。每一次输出的序列都用一个向量表示，这个向量也同样能够形成一个集合Q，每个成员用Qi表示，i是从1到T的正整数。通过对一个邻接矩阵的统计，可以得到一个转换的概率关系（如表11-6所示）。

1700507846

1700507847 表11-6　转换概率矩阵

1700507848

[ 上一页 ] [ :1.700507799e+09 ] [ 下一页 ]