策略梯度 2016-09-12 ML 策略梯度策略梯度以一种不同的方式给出了衰减期望的目标函数。 L(θ)=E(r_1+γr_2+γ2r_3+…|π(,θ))构造损失函数 L(θ)=∑logπ(a|s,θ)f(s,a)损失函数推导: ▽_θE_x[f(x)]=▽_θ∑_xp(x)f(x)=∑_x▽_θp(x)f(x)=∑_xp(x)▽_θp(x)p(x)f(x)=∑_xp(x)▽_θlogp(x)f(x)=E_x[f(x)▽_θlogp(x)]