ReinforcementLearning

强化学习（四）

策略迭代与值迭代实践

Posted by An automatic pencil on December 25, 2018

介绍

上一次我们理解并证明了策略迭代和值迭代算法后，本次进行实践。

问题

给定一个$n*n$的网格，在某一个网格存在宝藏，给定宝藏位置，在每个网格处只能向上下左右四个方向移动。我们需要找出每个网格处为尽快找到宝藏我们应该采取的动作。

设计解决方案

状态空间：当前所在的网格位置构成的集合
动作空间：上下左右以及不动
即时奖励：除了宝藏位置，其他位置只要移动就为-1，宝藏位置离开奖励为0

实战代码

点我看实现