明 光 大 正

策略梯度

    ML

策略梯度

策略梯度以一种不同的方式给出了衰减期望的目标函数。

构造损失函数

损失函数推导:

页阅读量:  ・  站访问量:  ・  站访客数: