策略梯度算法

我去这也太全了 Policy Gradient Algorithms | Lil’Log

直接优化策略函数（Policy Gradient）

（参考Part 3: Intro to Policy Optimization — Spinning Up documentation，Vanilla Policy Gradient — Spinning Up documentation）

调整分布以最大化奖励

首先考虑一个最简单的情况，是我做动作的概率，由参数控制，x是动作，R(x)是单个动作的奖励。我现在想要调整概率分布以最大化期望奖励。

最简单的办法就是选择让R(x)最大的x，但是一般来说很难，因为x可能的空间会很大，比如说可以是一条轨迹，可以是一段token序列。所以一个最简单的想法就是求梯度。
那怎么样对分布求梯度呢？推导如下

👾 xlinker's blog

Explorer

策略梯度算法

直接优化策略函数（Policy Gradient）

调整分布以最大化奖励

Graph View

Table of Contents

Backlinks