打字猴:1.70050783e+09

1700507830 而对如图11-22右图所示的聚簇形状不规则的数据集，应使用密度聚类的方式（例如DBSCAN算法）。除此之外，就是研究那些离群点（也叫“孤立点”，是指那些不在任何聚类当中的离散的点向量）。对孤立点的研究，通常也是研究它的一些特性或者成因。

1700507831

1700507832 另一种典型的非监督学习叫作“隐马尔可夫模型”，也称“马尔可夫链”（如图11-23所示）。马尔可夫链是一个数学概念，因为它由俄罗斯物理学家、数学家安德烈·马尔可夫（A. A. Markov）提出的，所以得名。马尔可夫链的核心是：在给定当前知识或信息的情况下，观察对象过去的历史状态对于预测将来而言是无关的。也可以说，在观察一个系统中序列值变化的时候，下一个状态（第n+1个状态）如何的概率只需要观察和统计当前状态（第n个状态）即可正确得出。另外，我们在一些资料中会看到贝叶斯信念网络的分类模型概念。隐马尔可夫链和贝叶斯信念网络的模型，其思维方式有些相似，区别在于隐马尔可夫链的模型更为简化，或者我们可以认为，隐马尔可夫链就是贝叶斯信念网络的一种特例。而且，隐马尔科夫链是一个双重随机过程，不仅状态转移之间是一个随机事件，状态和输出之间也是一个随机过程。

1700507833

1700507834

1700507835

1700507836

1700507837 图11-23　马尔可夫链

1700507838

1700507839 在一个完整的观察过程中有一些状态的转换，就是如图11-23所示用虚线圈标出的X1到XT。在观察中，X1到XT的状态存在一个客观的转化规律，但是我们无法直接观测到。我们观测到的是每个X状态下能让我们看到的输出O，也就是O1到OT这些输出值。我们需要通过这些输出值进行模型建立和状态转移的概率计算。

1700507840

1700507841 这种学习过程的结果是得到一个概率转化矩阵。这是一个无监督的过程，不需要人对它进行任何标注。在得到转化矩阵之后，能做的事情就比较多了，基本都是关于序列预测的。这种模型衍生出了多种重要的算法，例如维特比算法（Viterbi Algorithm）、前向算法（Forward Algorithm）和后向算法（Backward Algorithm）。

1700507842

1700507843 我们可以这样看待隐马尔可夫模型这种非监督学习方式。

1700507844

1700507845 在一个长期产生输出的序列中，我们能够观察到的输出的序列对象就是O1到OT。每一次输出的序列都用一个向量表示，这个向量也同样能够形成一个集合Q，每个成员用Qi表示，i是从1到T的正整数。通过对一个邻接矩阵的统计，可以得到一个转换的概率关系（如表11-6所示）。

1700507846

1700507847 表11-6　转换概率矩阵

1700507848

1700507849

1700507850

1700507851

1700507852 这个概率矩阵通过对任意Qm到Qn项的转换数量的统计来计算转换概率，而且在这个模型中，在统计环节也只看输出项Oi和Oi-1的关系。对建立一个认知模型来说，过程已经得到了极度简化，而且我们也不用担心Oi与Oi-2的关系没有被计入。在隐马尔可夫模型的应用中，对Xi和Oi的划分是比较宽泛的。如果我们觉得讨论前后的概率关系需要参考一些更远的状态，只要将临近的多个Xi和Oi合并观察和建模即可。观察状态的时间宽度在隐马尔可夫模型中没有严格的限制，可以是实际生产中的1秒、1分钟、1小时、1天或更久，所以Oi与其前部很远位置的状态其实也会根据观察者观察尺度的变化而变化。

1700507853

1700507854 这种认知方式对前后变化规律明显的模型有极大的应用优势。例如，隐马尔可夫模型在NLP（Natural Language Processing，自然语言处理）领域有着得天独厚的优势，在不同的场景中，语音所表示的语义前后相关性极高，所以同音汉字在这种前后相关的语境中可以通过统计学及隐马尔可夫模型实现最大概率汉字的检出。除此之外，通信工程领域3G/4G广泛使用的码分多址（Code Division Multiple Access，CDMA）技术也是典型的以隐马尔可夫模型为理论基础的工学应用。

1700507855

1700507856 数据科学家养成手册 [:1700503590]

1700507857 11.8.2　监督学习

1700507858

1700507859 监督学习和非监督学习的方式有所不同。在监督学习的范畴，样本对象除了有自己的特征向量以外，还有标签向量（或称“分类向量”）。以特征向量表示输入，以标签向量表示输出或预测值，为确立这样的映射关系让计算机进行的自动化归纳运算就是监督学习。

1700507860

1700507861 监督学习有两个工作环节，一个是“学习”，另一个是“分类”。

1700507862

1700507863 通过大量训练样本的特征向量及它们各自的分类向量，让计算机根据算法逻辑对这个映射模型进行归纳，这个过程就是“学习”过程。用这个学习过程得到的结果模型去对任意一个输入的特征向量进行分类判断，就是“分类”过程。

1700507864

1700507865 这种“学习”和“分类”的过程是绝大多数监督学习的工作模式。在实际应用中，“学习”和“分类”迭代进行，用“分类”的结果验证“学习”的正确性，调整“学习”后，再用不断的“分类”实践来进行验证和反馈调整——这就是监督学习的完整过程。

1700507866

1700507867 监督学习的体系非常丰富，看上去让人有点眼花缭乱，但是仔细品味一下，做的都是同一件事情。

1700507868

1700507869 1．贝叶斯概率

1700507870

1700507871 有一个著名的公式

1700507872

1700507873

1700507874

1700507875

1700507876 或写作

1700507877

1700507878

1700507879

[ 上一页 ] [ :1.70050783e+09 ] [ 下一页 ]