策略梯度

2016-09-12 ML

策略梯度

策略梯度以一种不同的方式给出了衰减期望的目标函数。

$L(\theta )=E(r\_{1} +\gamma r\_{2} + \gamma^{2} r\_{3}+…|\pi (,\theta))$

构造损失函数

$L(\theta )=\sum log\pi(a|s,\theta)f(s,a)$

损失函数推导：

$\bigtriangledown\_{\theta}E\_{x}\left [ f(x) \right ] =\bigtriangledown\_{\theta}\sum\_{x}^{ } p(x)f(x)\\\\ =\sum\_{x}^{ }\bigtriangledown\_{\theta}p(x)f(x)\\\\ =\sum\_{x}^{ }p(x)\frac{\bigtriangledown\_{\theta}p(x)}{p(x)}f(x)\\\\ =\sum\_{x}^{ }p(x)\bigtriangledown\_{\theta}logp(x)f(x)\\\\ =E\_{x}[f(x)\bigtriangledown\_{\theta}logp(x)]$