小陈集

小陈集

机器学习 强化学习解决决策问题的行家(上)

返回>来源:未知   发布时间:2019-08-11 03:21    关注度:

  由内容质量、互动评论、分享传布等多维度分值决定,勋章级别越高(),代表其在平台内的分析表示越好。

  原题目:机械进修 强化进修,处理决策问题的里手(上)

  本文笔者将与大师讲述:强化进修的根基道理、两个根基类型,以及基于这两个类型下的相关算法。

  本文笔者将与大师讲述:强化进修的根基道理、两个根基类型,以及基于这两个类型下的相关算法。

  一般地,我们认为,机械进修范畴最根基的三个标的目的就是“监视进修”“无监视进修”和“强化进修”,而深度进修、半监视进修、元进修都是由它们在某些方面迭代衍生出来的优化后的模子。

  颠末前两篇的笔记,我们曾经对监视进修和无监视进修有了一个根基的领会,此次我们就来领会一下:奥秘而强大的强化进修(Reinforcement Learning)是什么?

  与一些新兴的算秘诀户比拟,强化进修算是有着长久的汗青,早在几十年前就有相关的算法降生。

  我们都晓得了,监视进修基于给定的数据和响应的标注,可以或许完成一系列的分类、回归问题;无监视进修基于无标注的数据,可以或许以比力低的人力成本处理聚类问题。而强化进修,则次要处理决策问题(Decision-Making),特别是对于持续决策问题很是拿手。

  这个图简单地展现了强化进修的根基模子,里面的五个单词也就是强化进修的几个根基元素,他们别离是:

  怎样去理解这几个词呢,又到了举栗子时间。

  在上图的情境里,小陈就是我们的进修主体,他的“行为”是一个调集,这个调集里有两个元素“活动”和“偷懒”,活动将获得表彰,偷懒将蒙受攻讦。

  小本是小陈行为的监视者和见证人,在这个情境里小陈的“形态”由小本说了算,所以小本便是“情况”。

  小本对小陈的“奖赏”也是一个调集,调集中也是两个元素“表彰”和“攻讦”,而这两个元素对应着小本对小陈的评价——“形态”,胖了就攻讦,瘦了就表彰。

  那小陈若何对小本的评价做出反映呢?

  在文章的开首我们就提到了,强化进修次要处理决策问题,这里的决策比力简单,只要“活动”和“偷懒”,而小本对小陈的奖赏则决定了小陈会做出什么决策。

  在一个强化进修的系统里,一般会按照最终目标来制定奖赏的机制,好比:在上面的系统里,我们但愿最终的成果是小陈可以或许减肥,那么我们就会给小本的“奖赏”赋值,表彰是+1,攻讦是-1,而系统的全体方针则是获得更高的分数。如许一来,小陈就会在每一次的奖赏中大白,“活动”是更好的选择,也就慢慢地减下了肥~

  在上面的栗子里,我们领会了强化进修的根基道理,接下来我们一路简单地领会一下它的两个根基类型和基于这两个类型下的相关算法:

  “Model-based 测验考试model这个情况,最终基于这个情况选择最优的策略。 Model-free 则不断在每一步中去测验考试进修最优的策略,在多次迭代后就获得了整个情况最优的策略(e.g:Q-learning)。”

  “Model-based 测验考试model这个情况,最终基于这个情况选择最优的策略。 Model-free 则不断在每一步中去测验考试进修最优的策略,在多次迭代后就获得了整个情况最优的策略(e.g:Q-learning)。”

  这段话援用自quora的一个回覆,可能看起来仍是不太容易理解,那么又到了栗子时间。

  此刻小曹要进修打乒乓球,他花了大量时间旁观乒乓球讲授视频,通过看书研究了乒乓球拍的各类分歧的握持发力体例,在网长进修了各品种型的发球体例,还领会了空气动力学、人体解刨学等学问,力图将每一个球打得完。然后终究有一天小曹叫上伴侣走到了乒乓球桌前,发觉本人一个球也接不到。

  这种进修体例就是Model-based,焦点是:通过进修先验学问对现有的情况有了一个大要的领会,可以或许对将来的形态和报答做出预测。

  但明显,小曹进修乒乓球这个过程,更好的方式是间接拿其球拍进行实践,也就是通过Model-free的体例来进修乒乓球。

  此刻小曹终究通过model-free的体例学会了乒乓球,他发觉这个方式真好,所以小曹在去打球的路上决定利用model-free的方式来找到去乒乓球室的路。

  半天过去了,小曹在某不出名冷巷里认识到了model-free不是全能的,于是他掏出了手机打开了高达导航,找到了他此刻的位置和乒乓球室地点的位置,并规划好了路线,model-based最终协助小曹找到了准确的路线。

  在z我们讲到了Model-free和Model-based,这其实只是强化进修方式中针对进修主题理不睬解情况所做的一种分类。而现实上强化进修的使用情况愈加复杂,这一种分类方式可能不足以协助我们对所有的环境进行判断,我们还需要愈加深切地领会强化进修的更多分类和算法以及相关栗子。

  按照分歧的判断尺度,强化进修的方式能够按如下几种体例来分类:

  好了,又到了栗子时间。

  我们把前次小陈跑步的系统里的一部门拿出来,上图就是说小陈正在利用Policy-based的体例选择策略,看起来很好理解,也就是按照做出某项行为的概率来选择下一步行为。

  那么,按照一样的逻辑,基于价值也就很好理解啦:

  这就是一个最简单的value-based的决策模子,小陈会毫不犹疑地按照每项行为的价值来决定选择怎样做,不带一点客观色彩~

  除了判断体例以外,两种方式的区别,以及响应的好坏势是什么呢?

  来做讲解吧~

  先从出名的Q-learning说起:它是value-based模子下的一个典范算法,上面曾经有提到,value-based的焦点思惟是根绝每项行为的价值来选择下一步行为,那么Q-learning也是如斯,让我们再次祭出小陈作栗子。

  能够看到,小陈在这个图里有两个选择,跑步或是偷懒。我们和小陈在之前的栗子中都曾经晓得了,小陈若是选择偷懒,就会遭到来自小本的攻讦,反之,则遭到表彰。

  在Q-learning的模子中,这个情境变成了“持续的”。小陈选择一个行为之后将获得一个行为对应的形态,然后在新的形态下继续做选择。

  如图所示,在S1时,小陈通过之前堆集的经验晓得了跑步将会获得小本的表彰,偷懒则会遭到攻讦,所以小陈选择了跑步(a1),小陈的形态也就从S1变化为了S2。

  那么每一步的行为具体是怎样拔取呢?小陈是若何判断每一个选择的价值的呢?

  这里就需要引入Q-table,也能够叫做Q表,Q-table的内容现实上就是每一个形态和选择对应的值,也就是在每一个形态下对分歧业为的反馈期望。

  小陈通过Q-table就能够晓得:在S2的时候,选择a1,也就是跑步,将获得更大的收益,这是不需要通过现实步履就能够得知的。

  是不是感觉这个表述很熟悉?

  没错,Q-learning除了是value-based的代表性算法以外,它也同样属于model-based下的一种算法,小陈通过先验学问得知了他该若何做出选择,这是model-free做不到的。

  总结一下,Q-learning的步调如下:

  我们曾经领会了前面四个步调,但我们还不晓得最初一步,Q表中的值是若何更新的,此刻让我们看看Q-learning 的焦点方程(这是一个贝尔曼方程,也叫动态规划方程)。

  Q(s,a)代表的是算法对某一个形态的行为的估量值,好比Q(S1,a1)就是1。

  后面括号里的工具代表我们估量出来的值与现实值之间的误差,R(s,a)指的是某个形态下做出某个行为获得的奖励(留意这个奖励是现实施行后从情况获得的一个反馈,而Q(s,a)只是通过想象获得的一个值,一个是现实值,一个是想象值),γ是一个衰减系数,γmaxQ’(s’,a’)就是将来某个形态行为奖励的衰减值。

  括号外的α指的是进修率,也就是此次的误差有几多要被进修,它是一个小于1的数。

  其实Q-learning素质就是一种动作值函数的算法,输入“形态”和“行为”,获得一个“奖励”,也就是一个具体的值。agent按照最大的值对应的行为做出选择,而选择获得的成果又会反向传送,对Q-table的值进行更新。

  但愿大师看到这里还没有进入懵逼形态,由于我们接下来就要领会Policy Gradients是怎样一回事了。不外别担忧,理解了Q-learning再来看Policy Gradients就很简单啦!

  在上面的进修中,我们晓得了value-based方式是计较分歧动作的值来判断更好的选择,那么此刻让我们来看看若是情境变成了如许:

  小陈在操场跑步,而且小陈能够选择360°肆意一个标的目的作为前进的标的目的。

  操场上可能捡到钱(矩形),也可能踩到狗屎(三角形),小陈该若何针对这个环境制定合适的步履方案呢?

  相较于value-based中的栗子,小陈的选择从无限的(跑步和偷懒),变成了无限的(肆意一个标的目的)。在这个时候,value-based就变得无力了,Q-learning能够通过动作值函数计较出某个形态下某个动作的期望值,但它无法在无限多个选择中求解。

  而policy-based方式也就在这种环境下应运而生啦!

  Policy-based分歧于value-based先得出值再选择动作,它按照对形态的观测间接给出一个具体的策略。

  Policy Gradients(策略梯度算法)是Policy-based中的一类典范算法,其焦点思惟也包含在了它的名字中——基于策略来做梯度下降。

  这是一个简单的一元二次方程y=x²+1,途中的两个梯度标的目的现实上就是在这两个点时y=x²+1的导数标的目的。而梯度下降法是一个求解最小值的方式,好比在上图中,梯度标的目的一个向左上,一个向右上。我们能够确定这两个点两头必然有更小的值,而不竭地对这个区间内的函数求导,最终就能够将我们的成果收敛到最小值。

  再看回这张图,假设小陈在一起头通过观测得出的概率进行了如许的步履,获得了钱,我们就给他一个响应的奖励。而策略梯度算法的焦点,就是将按照这个奖励/赏罚进行一个反向传送,让这个标的目的(获得奖励的策略)鄙人一次被选中的概率提拔。反之,则让这个标的目的鄙人一次被选中的概率降低。

  公式的推导和参数的更新若是感乐趣的话能够鄙人面的参考材料中自行进修,这里再赘述可能反而会影响大师对它的理解,这一期的强化进修就到这里啦。下一次让我们领会一下集成了两种方式的Actor-critic算法和一些其他没有提到的分类体例~

  作者:小曹,公家号:小曹的AI进修笔记

  本文由 @小曹 原创发布于人人都是产物司理。未经许可,禁止转载

  题图来自Unsplash,基于CC0和谈前往搜狐,查看更多

http://scitechlab.com/xiaochenji/674.html
上一篇:小本和小陈的冰火魔龙 下一篇:闪耀暖暖金币怎么获得 金币快速获取攻略

报名参赛