明 光 大 正

策略梯度

    ML

策略梯度

策略梯度以一种不同的方式给出了衰减期望的目标函数。

L(θ)=E(r_1+γr_2+γ2r_3+|π(,θ))

构造损失函数

L(θ)=logπ(a|s,θ)f(s,a)

损失函数推导:

_θE_x[f(x)]=_θ_xp(x)f(x)=_x_θp(x)f(x)=_xp(x)_θp(x)p(x)f(x)=_xp(x)_θlogp(x)f(x)=E_x[f(x)_θlogp(x)]
页阅读量:  ・  站访问量:  ・  站访客数: