强化学习(二)

最优值函数和最优值函数贝尔曼方程

Posted by An automatic pencil on December 5, 2018

最优策略

由上一节我们已经知道,在确定环境后,一个给定的策略$\pi$确定值函数$v$和$q$,所以我们将贝尔曼方程表示为

记$\Pi$为所有策略的集合,下面先定义$\Pi$和$v$值函数上的偏序。

$\pi \geq \pi^{‘}$当且仅当对$\forall s \in S$,有$v_{\pi}(s) \ge v_{\pi^{‘}}(s)$

同理$\Pi$和$q$值函数上的偏序定义为

$\pi \geq \pi^{‘}$当且仅当对$\forall s \in S,a \in A$,有$q_{\pi}(s,a) \ge q_{\pi^{‘}}(s,a)$

记$\pi_{*}$为最优策略,则

由(1.2)和(1.3),当$\pi = \pi_{*}$时,$q$函数也取到最优值。

最优值函数贝尔方程

由上述结论和(1.1),(1.2)我们会有

由2.1,如果我们给定最优行为值函数$q_{*}$,有

$$\pi_{*}(a|s)=1 \quad if \quad a = argmax_{a}[q_{*}(s,a)]$$ $$\pi_{*}(a|s)=0 \quad ohterwise \tag{2.3}$$

但是我们还要说明此时的策略$\pi_{*}$能保证$q$取到$q_{*}$

由2.1和2.2我们有

我们要验证给定$q_{*}$我们(2.3)确定的策略可以使$q$取到$q_{*}$,由(2.4),取我们的策略时,右边是可以取到最大值的,而右边是等同于左边的。这表明我们的$q$取到了最大值。

后续~