[1506.02438] High-Dimensional Continuous Control Using Generalized Advantage Estimation
策略梯度算法中,很重要的一块就是估计优势函数A(s,a),它表示的是一个动作究竟有多好。有了它,我们才能训练策略函数去增大好动作的概率,降低坏动作的概率。下面按照自己的理解推导一下,和原论文有些不同。
价值函数估计
先回顾价值函数的定义
Q函数的定义
其中, 表示的是给定当前状态,后续使用和采样出来的轨迹。表示的是给定当前状态和动作,后续用策略和环境展开的轨迹序列。
将V函数的定义拆开,可以发现