明 光 大 正

Double-Q

    研究生生活     paper

这是一篇Double Q-learning的论文,很关键啊

$Q_{t+1}(s_{t},a_{t}) = Q_{t}(s_{t},a_{t})+\alpha_{(s_{t},a_{t})}(r_{t}+\gamma\underset{a}{max}Q_{t}(s_{t+1},a_{t})-Q_{t}(s_{t},a_{t})) (1)$

上式中的 $R_{sa}^{s’}=E\{r_{t}|(s,a,s’)=(s_{t},a_{t},s_{t+1})\}$

$\forall s,a : Q^{星号}(s,a) = \sum_{s’}P_{sa}^{s’}(R_{sa}^{s’}+\gamma\underset{a}{max} Q^{星号}(s’,a)) (2)$

折扣因子 $\gamma \in [0,1)$ 的两点含义,一是立即反馈的权重大,二是可证明在有限的情况下Q学习达到最优。

过度估计的原因:使用max操作去决定下一状态的价值。

下面是见证奇迹的时刻。

假定个随机变量,,有一类问题是关注最大期望
$\underset{i}{max}E \{ X_{i} \} (3)$,
但是在函数形式和分布情况不确定的情况下,这个东西没法证明。
我们让中是的集合。变量之间相互独立且同分布。
期望值的无偏估计可以通过计算每一个变量的样本均值求得:
$E\{X_{i}\} = E\{\mu_{i}\}\approx \mu _{i}(S)= \frac{1}{|S_{i}|}\sum_{s\in S_{i}}s$,其中
每一个样本都是的无偏估计,所以上式逼近是无偏的。
那么近似误差就由估计量的方差构成,并且随样本增多而减小。
然后定义一下概率密度函数PDF和分布函数CDF,那么最大期望即是

单一估计量

页阅读量:  ・  站访问量:  ・  站访客数: