2.3 Value Iteration and Policy Iteration (值迭代)

SuperEgg included in category 额外学习

2025-12-09 2025-12-10 851 words 4 minutes

Contents

前置知识

2.2 Optimal State Values and Bellman Optimality Equality (BoE 求解)

Value Iteration Algorithm

回忆一下BOE的形式

\(v_{k+1}=\max _{\pi \in \Pi}\left(r_\pi+\gamma P_\pi v_k\right), \quad k=0,1,2, \ldots\)

在使用它求解BOE的时候，其产是分2步进行的

第一步：策略更新

针对给定的\(v_k\)，求得更新后的策略\(\pi_{k+1}\)

\(\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_k\right)\)
第二步：值更新

针对求得的新的策略，计算value 值\(v_{k+1}\)

\(v_{k+1}=r_{\pi_{k+1}}+\gamma P_{\pi_{k+1}} v_k\)

这里要注意的是，上述迭代过程中,\(v_k\) 并不是state value.

也就是说，初始时候给定的一个\(v_k\),我们直接拿它算所有动作值，再利用动作值更新策略，更用策略和BOE计算新的\(v_k\)，此过程中的每一步的\(v_k\)都不是state value，它只是根据新的策略算出来的一个向量，前面说过其实可以利用迭代法计算出真正的\(v_k\)，但是此过程中并没有这么算。如果每一次都算出真正的\(v_k\)，那么恭喜你，学会了Policy Iteration算法。

如何求新策略：

首先求得所有的q

\(\pi_{k+1}(s)=\arg \max _\pi \sum_a \pi(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)\right)}_{q_k(s, a)}, \quad s \in \mathcal{S}\)
更新action，策略动作价值最大的action来替换原策略中的action：

\(\pi_{k+1}(a \mid s)= \begin{cases}1, & a=a_k^*(s) \\ 0, & a \neq a_k^*(s)\end{cases}\)

如何进行值更新：

\(v_{k+1}(s)=\sum_a \pi_{k+1}(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_k\left(s^{\prime}\right)\right)}_{q_k(s, a)}, \quad s \in \mathcal{S}\).

利用新的策略代入旧式子，即可获得新的value。