我去这也太全了 Policy Gradient Algorithms | Lil’Log
直接优化策略函数(Policy Gradient)
(参考Part 3: Intro to Policy Optimization — Spinning Up documentation,Vanilla Policy Gradient — Spinning Up documentation)
调整分布以最大化奖励
首先考虑一个最简单的情况,是我做动作的概率,由参数控制,x是动作,R(x)是单个动作的奖励。我现在想要调整概率分布以最大化期望奖励。
最简单的办法就是选择让R(x)最大的x,但是一般来说很难,因为x可能的空间会很大,比如说可以是一条轨迹,可以是一段token序列。所以一个最简单的想法就是求梯度。
那怎么样对分布求梯度呢?推导如下