2.1 Optimal State Values and Bellman Optimality Equality

SuperEgg included in category 额外学习

2025-12-03 2025-12-04 1022 words 5 minutes

Contents

前置知识

请学会前置知识再看本节

对于这个例子，我们先求每个状态的state value, 结果如下(当前状态的reward + discount * 未来状态的state value)：

当我们取discount = 0.9时，可求得每个状态的state value 为:

再根据这些state value，求得在s1时它的所有的 action value：

从结果可以看到，s1处的 a3的action value 是最大的。

而当下的策略如下：

即在s1处，采用当下的策略，一定会选择的action = a2。

但其实在s1状态时，a3的action value是最大的，所以我们可以对当下的策略做一个更新，即新策略为：

即更新的时候，在每个状态选择action value最大的那个:

当说一个策略比另一个策略好，要求是在这个策略上，其所有状态的state value 都优于另一个策略的state value，表达如下：

因此最优策略即为：其state value要比所有的其他策略都好

需要注意的是：

其实定义比较抽象，即是在原来的bellman equation的前面加了个max, 如下：

它的矩阵向量形式如下：

其中：

公式的第二行是使用了action value的表达。

在bellman equation里面，有多少个state，就有多少个equation，使我们可以刚好求得所有的state value。

但是在这里，多了一个未知量，即\(\pi\), 是我们要求的策略。

这里主要有一个数学技巧，