打字猴:1.700507788e+09

1700507788 数据科学家养成手册 [:1700503588]

1700507789 数据科学家养成手册 11.8　机器学习——自动归纳

1700507790

1700507791 谈到机器学习，就要先说说数据挖掘。数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科，而且数据挖掘与机器学习有很多相互覆盖的子领域或者算法，例如贝叶斯概率、聚类、分类、回归等概念在机器学习和数据挖掘领域都有讨论。

1700507792

1700507793 要进行数据挖掘，就要有一定量的数据作为研究对象。“挖掘”这个词很形象，说明一些东西并不是在表面，让人一眼就能看明白，而是要进行深度的研究、对比、甄别等工作，最终从中找到规律或者获得知识。在我看来，数据挖掘和机器学习研究的都是数据在深层的联系问题，并进行了相应的体系性量化工作。

1700507794

1700507795 机器学习也是近年来非常火爆的一个计算机算法分支学科。以前的算法大都是为了解决一个模型上确定的问题，由人直接编写，由计算机根据算法的指示一步步执行顺序、循环、分支这样的流程逻辑来处理输入的数据。而机器学习要解决的问题是，通过设计算法，对输入的数据进行归纳，然后根据归纳的结果进行相应的响应输出，这是二者最大的区别。这个归纳的目标就是条件尽可能准确，这也是评价一个训练算法是否优秀的重要条件。这种方式很像人类学习客观事物的过程，所以得名“机器学习”。

1700507796

1700507797 机器学习可以粗略地分成非监督学习（Non-Supervised Learning）、监督学习（Supervised Learning）、半监督学习（Semi-Supervised Learning）及强化学习（Reinforcement Learning）等多个大类。

1700507798

1700507799 数据科学家养成手册 [:1700503589]

1700507800 11.8.1　非监督学习

1700507801

1700507802 非监督学习直接对输入的数据集建模，例如聚类（Clustering）和隐马尔可夫模型（Hidden Markov Model，HMM）等。

1700507803

1700507804 非监督学习，顾名思义，是一个不加干预的学习过程。在这个学习过程中，每个被观察的对象没有明确的标签属性，只有量化特征维度X。X是一个n维向量，分量分别是

1700507805

1700507806

1700507807

1700507808

1700507809 然后，在这个n维空间里尝试寻找聚类（如图11-22所示）。

1700507810

1700507811

1700507812

1700507813

1700507814 图11-22　三维空间和二维空间聚类效果

1700507815

1700507816 聚类研究的对象是由距离或者稠密程度形成的聚簇对象及其特点。如图11-22左图所示就是一个三维空间K-Means算法聚类的效果图。K-Means算法的步骤大致如下。

1700507817

1700507818 （1）从n个向量对象中任意选择k个向量作为初始聚类中心。

1700507819

1700507820 （2）根据在步骤（1）中设置的k个向量（中心对象向量），分别计算每个对象与这k个向量的距离。这里的距离都是欧氏距离（Euclidean Distance）。

1700507821

1700507822 （3）对于步骤（2）中的计算，任何一个向量与向量k之间都有一段距离，有的远，有的近。把这个向量和距离它最近的中心向量对象归在一个类簇中。

1700507823

1700507824 （4）重新计算每个类簇的中心对象向量位置。

1700507825

1700507826 （5）重复步骤（3）、（4），直到类簇聚类方案中的向量归类变化极小为止。

1700507827

1700507828 由于K-Means算法是给定若干个聚类中心点的向量，通过计算空间重心的方式进行聚合，所以聚合出来的基本都是某一半径的高维“球体”包络下的空间向量集合。

1700507829

1700507830 而对如图11-22右图所示的聚簇形状不规则的数据集，应使用密度聚类的方式（例如DBSCAN算法）。除此之外，就是研究那些离群点（也叫“孤立点”，是指那些不在任何聚类当中的离散的点向量）。对孤立点的研究，通常也是研究它的一些特性或者成因。

1700507831

1700507832 另一种典型的非监督学习叫作“隐马尔可夫模型”，也称“马尔可夫链”（如图11-23所示）。马尔可夫链是一个数学概念，因为它由俄罗斯物理学家、数学家安德烈·马尔可夫（A. A. Markov）提出的，所以得名。马尔可夫链的核心是：在给定当前知识或信息的情况下，观察对象过去的历史状态对于预测将来而言是无关的。也可以说，在观察一个系统中序列值变化的时候，下一个状态（第n+1个状态）如何的概率只需要观察和统计当前状态（第n个状态）即可正确得出。另外，我们在一些资料中会看到贝叶斯信念网络的分类模型概念。隐马尔可夫链和贝叶斯信念网络的模型，其思维方式有些相似，区别在于隐马尔可夫链的模型更为简化，或者我们可以认为，隐马尔可夫链就是贝叶斯信念网络的一种特例。而且，隐马尔科夫链是一个双重随机过程，不仅状态转移之间是一个随机事件，状态和输出之间也是一个随机过程。

1700507833

1700507834

1700507835

1700507836

1700507837 图11-23　马尔可夫链

[ 上一页 ] [ :1.700507788e+09 ] [ 下一页 ]