从累计奖励到GAE,浅谈强化学习奖励的各种表达形式
符号定义
价值表达
蒙特卡洛式
从头到尾走一遍,每次action都能拿到采样的真实收益。
累计奖励
强化学习的特点,当前动作选择时,不仅只考虑当下,也要考虑未来长期收益。
累计折扣奖励
更注重当下,越远的未来折扣越大。
模型预估式
结合蒙特卡洛和模型预估
1-Step
当前一步通过采样得到真实收益,未来通过模型预估。
考虑未来折扣。
k-Step
更普遍的,先走k步得到采样收益,剩下的通过模型预估。当
考虑未来折扣。
价值表达 -> 优势表达
价值表达表示action的绝对价值,通过一些采样得到收益,如果收益都是正值,那么被采样的action就会得到正梯度,会强化下次被采样到的概率。相当于谁被采到谁受益,形成了马太效应。所以,通过减去一个baseline,得到action的相对收益,这就是优势表达的思路。
baseline的形式
蒙特卡洛式
采样很多action,用均值表示
模型预估式
用
优势表达的常用形式
下面是k-Step价值表达
上式对于每个token,都需要累加k次才能计算出
首先发现,
只需要从最后一个token往前累加即可得到每个token的
或者
优势表达 -> 广义的优势表达
可以看到,当k越大,需要采样的
那么选择什么k值最合适呢?
最优的k值难以确定,我们可以叠加很多
当
或者
公式
当
虽然推导时基于
参考
- [1][台大李宏毅强化学习课程](http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html)
- [2][High-Dimensional Continuous Control Using Generalized Advantage Estimation](http://arxiv.org/abs/1506.02438)