1700507760
000011110000111100001
1700507761
1700507762
假如在第7位后断开,那么生成的2个后代的基因组就是
1700507763
1700507764
000011101010101010101
1700507765
1700507766
101010110000111100001
1700507767
1700507768
1700507769
最终,一共产生了个新的后代基因。
1700507770
1700507771
1700507772
1700507773
在当前的M个评价函数值最大的基因和个新的后代基因中再次进行这个评价函数的排序,并选择前M个作为产生下一代的备选基因。
1700507774
1700507775
在这个过程中,可以用概率p来调整其中某一位由0变成1或由1变成0的可能性,这个环节叫作“变异”,它给某个基因组提供了从一个多维空间中评价函数较低位置跳跃到较高位置的机会。虽然也有一定的概率会从较高位置跳跃到较低位置,但是跳跃到较高位置的会有更大的概率被保留下来。
1700507776
1700507777
接下来,循环进行这个遴选与剩余的过程,直到连续K轮的函数最大值不再增加,就可以判断为函数收敛。在这个算法中,N、M、K都属于可调整的参数。一般来说,N、M、K越大,找到优质解的可能性也就越大(代价是消耗的计算资源增多)。
1700507778
1700507779
遗传算法是启发式(Heuristic Algorithm)算法的一种,因为在这种几乎没有确切方向的优化场景中,需要让计算机来进行一定的“智能”选择。这种“智能”就是我们通过对基因的编码,以及对基因编码的交换,从中找出那些在一轮一轮的遴选中由计算机挑选出来的编码体现出更好特性的对象。这些优秀的对象所蕴含的编码就是逼近最优解的模板,并通过不断尝试重构这些编码来获取更好的解,这一发掘过程是一种人启发计算机的过程。
1700507780
1700507781
梯度下降法也好,牛顿法也罢,得到的都是一个近似解,都不是理想的、满足条件的最优解——总是差那么一丁点。但是,只要这个差距足够小、能够满足工程需要就够了,毕竟即使求出了这个最理想的位置,在实现中也会由于各种其他误差的引入而使为向这个理想位置逼近的努力付诸东流。这就是理想和现实的区别,希望这个方法能够治好大多数人的“强迫症”。
1700507782
1700507783
在生产实践中解决,我们通常会想办法把一个复杂问题的评价函数变成一个凸函数或者连续函数,然后通过迭代法逐步逼近,使问题得到解决。只要算法设计合理,往往能起到事半功倍的效果。
1700507784
1700507785
1700507786
1700507787
1700507789
数据科学家养成手册 11.8 机器学习——自动归纳
1700507790
1700507791
谈到机器学习,就要先说说数据挖掘。数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科,而且数据挖掘与机器学习有很多相互覆盖的子领域或者算法,例如贝叶斯概率、聚类、分类、回归等概念在机器学习和数据挖掘领域都有讨论。
1700507792
1700507793
要进行数据挖掘,就要有一定量的数据作为研究对象。“挖掘”这个词很形象,说明一些东西并不是在表面,让人一眼就能看明白,而是要进行深度的研究、对比、甄别等工作,最终从中找到规律或者获得知识。在我看来,数据挖掘和机器学习研究的都是数据在深层的联系问题,并进行了相应的体系性量化工作。
1700507794
1700507795
机器学习也是近年来非常火爆的一个计算机算法分支学科。以前的算法大都是为了解决一个模型上确定的问题,由人直接编写,由计算机根据算法的指示一步步执行顺序、循环、分支这样的流程逻辑来处理输入的数据。而机器学习要解决的问题是,通过设计算法,对输入的数据进行归纳,然后根据归纳的结果进行相应的响应输出,这是二者最大的区别。这个归纳的目标就是条件尽可能准确,这也是评价一个训练算法是否优秀的重要条件。这种方式很像人类学习客观事物的过程,所以得名“机器学习”。
1700507796
1700507797
机器学习可以粗略地分成非监督学习(Non-Supervised Learning)、监督学习(Supervised Learning)、半监督学习(Semi-Supervised Learning)及强化学习(Reinforcement Learning)等多个大类。
1700507798
1700507800
11.8.1 非监督学习
1700507801
1700507802
非监督学习直接对输入的数据集建模,例如聚类(Clustering)和隐马尔可夫模型(Hidden Markov Model,HMM)等。
1700507803
1700507804
非监督学习,顾名思义,是一个不加干预的学习过程。在这个学习过程中,每个被观察的对象没有明确的标签属性,只有量化特征维度X。X是一个n维向量,分量分别是
1700507805
1700507806
1700507807
1700507808
1700507809
然后,在这个n维空间里尝试寻找聚类(如图11-22所示)。
[
上一页 ]
[ :1.70050776e+09 ]
[
下一页 ]