打字猴:1.70050778e+09

1700507780

1700507781 梯度下降法也好，牛顿法也罢，得到的都是一个近似解，都不是理想的、满足条件的最优解——总是差那么一丁点。但是，只要这个差距足够小、能够满足工程需要就够了，毕竟即使求出了这个最理想的位置，在实现中也会由于各种其他误差的引入而使为向这个理想位置逼近的努力付诸东流。这就是理想和现实的区别，希望这个方法能够治好大多数人的“强迫症”。

1700507782

1700507783 在生产实践中解决，我们通常会想办法把一个复杂问题的评价函数变成一个凸函数或者连续函数，然后通过迭代法逐步逼近，使问题得到解决。只要算法设计合理，往往能起到事半功倍的效果。

1700507784

1700507785

1700507786

1700507787

1700507788 数据科学家养成手册 [:1700503588]

1700507789 数据科学家养成手册 11.8　机器学习——自动归纳

1700507790

1700507791 谈到机器学习，就要先说说数据挖掘。数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科，而且数据挖掘与机器学习有很多相互覆盖的子领域或者算法，例如贝叶斯概率、聚类、分类、回归等概念在机器学习和数据挖掘领域都有讨论。

1700507792

1700507793 要进行数据挖掘，就要有一定量的数据作为研究对象。“挖掘”这个词很形象，说明一些东西并不是在表面，让人一眼就能看明白，而是要进行深度的研究、对比、甄别等工作，最终从中找到规律或者获得知识。在我看来，数据挖掘和机器学习研究的都是数据在深层的联系问题，并进行了相应的体系性量化工作。

1700507794

1700507795 机器学习也是近年来非常火爆的一个计算机算法分支学科。以前的算法大都是为了解决一个模型上确定的问题，由人直接编写，由计算机根据算法的指示一步步执行顺序、循环、分支这样的流程逻辑来处理输入的数据。而机器学习要解决的问题是，通过设计算法，对输入的数据进行归纳，然后根据归纳的结果进行相应的响应输出，这是二者最大的区别。这个归纳的目标就是条件尽可能准确，这也是评价一个训练算法是否优秀的重要条件。这种方式很像人类学习客观事物的过程，所以得名“机器学习”。

1700507796

1700507797 机器学习可以粗略地分成非监督学习（Non-Supervised Learning）、监督学习（Supervised Learning）、半监督学习（Semi-Supervised Learning）及强化学习（Reinforcement Learning）等多个大类。

1700507798

1700507799 数据科学家养成手册 [:1700503589]

1700507800 11.8.1　非监督学习

1700507801

1700507802 非监督学习直接对输入的数据集建模，例如聚类（Clustering）和隐马尔可夫模型（Hidden Markov Model，HMM）等。

1700507803

1700507804 非监督学习，顾名思义，是一个不加干预的学习过程。在这个学习过程中，每个被观察的对象没有明确的标签属性，只有量化特征维度X。X是一个n维向量，分量分别是

1700507805

1700507806

1700507807

1700507808

1700507809 然后，在这个n维空间里尝试寻找聚类（如图11-22所示）。

1700507810

1700507811

1700507812

1700507813

1700507814 图11-22　三维空间和二维空间聚类效果

1700507815

1700507816 聚类研究的对象是由距离或者稠密程度形成的聚簇对象及其特点。如图11-22左图所示就是一个三维空间K-Means算法聚类的效果图。K-Means算法的步骤大致如下。

1700507817

1700507818 （1）从n个向量对象中任意选择k个向量作为初始聚类中心。

1700507819

1700507820 （2）根据在步骤（1）中设置的k个向量（中心对象向量），分别计算每个对象与这k个向量的距离。这里的距离都是欧氏距离（Euclidean Distance）。

1700507821

1700507822 （3）对于步骤（2）中的计算，任何一个向量与向量k之间都有一段距离，有的远，有的近。把这个向量和距离它最近的中心向量对象归在一个类簇中。

1700507823

1700507824 （4）重新计算每个类簇的中心对象向量位置。

1700507825

1700507826 （5）重复步骤（3）、（4），直到类簇聚类方案中的向量归类变化极小为止。

1700507827

1700507828 由于K-Means算法是给定若干个聚类中心点的向量，通过计算空间重心的方式进行聚合，所以聚合出来的基本都是某一半径的高维“球体”包络下的空间向量集合。

1700507829

[ 上一页 ] [ :1.70050778e+09 ] [ 下一页 ]