打字猴:1.700507799e+09
1700507799 数据科学家养成手册 [:1700503589]
1700507800 11.8.1 非监督学习
1700507801
1700507802 非监督学习直接对输入的数据集建模,例如聚类(Clustering)和隐马尔可夫模型(Hidden Markov Model,HMM)等。
1700507803
1700507804 非监督学习,顾名思义,是一个不加干预的学习过程。在这个学习过程中,每个被观察的对象没有明确的标签属性,只有量化特征维度X。X是一个n维向量,分量分别是
1700507805
1700507806
1700507807
1700507808
1700507809 然后,在这个n维空间里尝试寻找聚类(如图11-22所示)。
1700507810
1700507811
1700507812
1700507813
1700507814 图11-22 三维空间和二维空间聚类效果
1700507815
1700507816 聚类研究的对象是由距离或者稠密程度形成的聚簇对象及其特点。如图11-22左图所示就是一个三维空间K-Means算法聚类的效果图。K-Means算法的步骤大致如下。
1700507817
1700507818 (1)从n个向量对象中任意选择k个向量作为初始聚类中心。
1700507819
1700507820 (2)根据在步骤(1)中设置的k个向量(中心对象向量),分别计算每个对象与这k个向量的距离。这里的距离都是欧氏距离(Euclidean Distance)。
1700507821
1700507822 (3)对于步骤(2)中的计算,任何一个向量与向量k之间都有一段距离,有的远,有的近。把这个向量和距离它最近的中心向量对象归在一个类簇中。
1700507823
1700507824 (4)重新计算每个类簇的中心对象向量位置。
1700507825
1700507826 (5)重复步骤(3)、(4),直到类簇聚类方案中的向量归类变化极小为止。
1700507827
1700507828 由于K-Means算法是给定若干个聚类中心点的向量,通过计算空间重心的方式进行聚合,所以聚合出来的基本都是某一半径的高维“球体”包络下的空间向量集合。
1700507829
1700507830 而对如图11-22右图所示的聚簇形状不规则的数据集,应使用密度聚类的方式(例如DBSCAN算法)。除此之外,就是研究那些离群点(也叫“孤立点”,是指那些不在任何聚类当中的离散的点向量)。对孤立点的研究,通常也是研究它的一些特性或者成因。
1700507831
1700507832 另一种典型的非监督学习叫作“隐马尔可夫模型”,也称“马尔可夫链”(如图11-23所示)。马尔可夫链是一个数学概念,因为它由俄罗斯物理学家、数学家安德烈·马尔可夫(A. A. Markov)提出的,所以得名。马尔可夫链的核心是:在给定当前知识或信息的情况下,观察对象过去的历史状态对于预测将来而言是无关的。也可以说,在观察一个系统中序列值变化的时候,下一个状态(第n+1个状态)如何的概率只需要观察和统计当前状态(第n个状态)即可正确得出。另外,我们在一些资料中会看到贝叶斯信念网络的分类模型概念。隐马尔可夫链和贝叶斯信念网络的模型,其思维方式有些相似,区别在于隐马尔可夫链的模型更为简化,或者我们可以认为,隐马尔可夫链就是贝叶斯信念网络的一种特例。而且,隐马尔科夫链是一个双重随机过程,不仅状态转移之间是一个随机事件,状态和输出之间也是一个随机过程。
1700507833
1700507834
1700507835
1700507836
1700507837 图11-23 马尔可夫链
1700507838
1700507839 在一个完整的观察过程中有一些状态的转换,就是如图11-23所示用虚线圈标出的X1到XT。在观察中,X1到XT的状态存在一个客观的转化规律,但是我们无法直接观测到。我们观测到的是每个X状态下能让我们看到的输出O,也就是O1到OT这些输出值。我们需要通过这些输出值进行模型建立和状态转移的概率计算。
1700507840
1700507841 这种学习过程的结果是得到一个概率转化矩阵。这是一个无监督的过程,不需要人对它进行任何标注。在得到转化矩阵之后,能做的事情就比较多了,基本都是关于序列预测的。这种模型衍生出了多种重要的算法,例如维特比算法(Viterbi Algorithm)、前向算法(Forward Algorithm)和后向算法(Backward Algorithm)。
1700507842
1700507843 我们可以这样看待隐马尔可夫模型这种非监督学习方式。
1700507844
1700507845 在一个长期产生输出的序列中,我们能够观察到的输出的序列对象就是O1到OT。每一次输出的序列都用一个向量表示,这个向量也同样能够形成一个集合Q,每个成员用Qi表示,i是从1到T的正整数。通过对一个邻接矩阵的统计,可以得到一个转换的概率关系(如表11-6所示)。
1700507846
1700507847 表11-6 转换概率矩阵
1700507848
[ 上一页 ]  [ :1.700507799e+09 ]  [ 下一页 ]