明 光 大 正
策略梯度
2016-09-12
ML
策略梯度
策略梯度以一种不同的方式给出了衰减期望的目标函数。
构造损失函数
损失函数推导:
页阅读量:
・ 站访问量:
・ 站访客数: