打字猴:1.70050826e+09
1700508260
1700508261
1700508262 这就是一个(z1, z2)坐标系中的直线方程了。
1700508263
1700508264
1700508265
1700508266
1700508267
1700508268 在核函数的技巧中,可以通过不构造的方式构造符合要求的核函数K(x, z)。这里有一个充要条件,就是让K(x, z)为正定核。设是定义在χ×χ上的对称函数,如果对任意对应的Gram矩阵是半正定矩阵,则称K(x, z)是正定核。
1700508269
1700508270 常用的核函数有多项式核函数
1700508271
1700508272
1700508273
1700508274
1700508275 高斯核函数(径向核函数)
1700508276
1700508277
1700508278
1700508279
1700508280 等。这些核函数都能够帮助x升维,进而达到线性可分的分类效果。由于只需要构建K(x, z),不需要构建(Φ)x,所以在训练中不给出样本的空间坐标,只给出它们之间的距离,同样能够成功学习出分类规则。这是SVM非常强大的地方。
1700508281
1700508282 数据科学家养成手册 [:1700503591]
1700508283 11.8.3 强化学习
1700508284
1700508285 与非监督学习和监督学习的工作方式不同,强化学习是一种极为重视反馈的学习过程(如图11-36所示)。非监督学习中的聚类,在我们设置了超参数(Hyperparameter)以后,就可以不对学习过程进行干预了(所以称为“非监督学习”)。对于监督学习,我们在一开始就为所有训练样本设置了标签,让算法根据标签进行分类条件的归纳。强化学习是一种基于与环境互动的学习方式。
1700508286
1700508287
1700508288
1700508289
1700508290 图11-36 强化学习流程
1700508291
1700508292 所谓强化学习是指从环境状态到行为映射的学习,以使系统行为从环境中获得的累积奖励值最大。
1700508293
1700508294 在训练主体的过程中,首先赋予主体对外界状态和奖励的感知能力。这里的“奖励”是指广义的奖励,如果是正值就是奖励(Reward),如果是负值就是惩罚(Penalty)。让主体具备感知“利”与“弊”的基本能力是一种很“高级”的学习方式。对周围一切能够被主体感知的因素,包括声音、图像、视频、文字、温度、湿度等,主体每次输出某个动作都会诱发环境产生奖励的反馈。主体通过一系列动作反馈的奖励积累来归纳在某个或某些状态下给予什么样的动作是最为“有利”或“正确”的。这就是强化学习的本质。
1700508295
1700508296 强化学习不是具体的一个算法,而是一类算法的解决方案总括。在这种思想的指导下,从20世纪50年代开始涌现出了一代又一代强化学习算法体系来解决相应的问题,例如马尔科夫决策过程(Markov Decision Process)、A-Learning、Q-Learning等著名的算法。
1700508297
1700508298 我们通过Q-Learning算法的过程来感觉一下强化学习的基本过程吧,看一下伪代码。
1700508299
1700508300 Initialize Q(S,A)arbitrarilyRepeart(for each episode)  Initialize S  Repeat(for each step of episode)  Choose A from S using policy derived from Q  Take action A, observe R,S’    Q(S,A)←Q(S,A)+α[R+γmaxa’(S’,A’)-Q(S,A)]    S→S’Until S is terminal
1700508301
1700508302 这段伪代码看上去不太容易理解,下面进行详细的分析。
1700508303
1700508304 首先,任意初始化一个Q函数的值。重复进行一个训练过程,直到S结束。这个S是指环境描述向量(State),S结束就是整个训练过程完毕的一个标识。例如,我们训练一个2D飞机游戏的外挂——AI自动打游戏机器人,S可以设定为游戏终止状态,例如通关、所有生命都消耗光(如图11-37所示)。
1700508305
1700508306
1700508307
1700508308
1700508309 图11-37 2D飞机游戏
[ 上一页 ]  [ :1.70050826e+09 ]  [ 下一页 ]