介绍
上一次我们理解并证明了策略迭代和值迭代算法后,本次进行实践。
问题
给定一个$n*n$的网格,在某一个网格存在宝藏,给定宝藏位置,在每个网格处只能向上下左右四个方向移动。我们需要找出每个网格处为尽快找到宝藏我们应该采取的动作。
设计解决方案
- 状态空间:当前所在的网格位置构成的集合
- 动作空间:上下左右以及不动
- 即时奖励:除了宝藏位置,其他位置只要移动就为-1,宝藏位置离开奖励为0
上一次我们理解并证明了策略迭代和值迭代算法后,本次进行实践。
给定一个$n*n$的网格,在某一个网格存在宝藏,给定宝藏位置,在每个网格处只能向上下左右四个方向移动。我们需要找出每个网格处为尽快找到宝藏我们应该采取的动作。