强化学习(四)

策略迭代与值迭代实践

Posted by An automatic pencil on December 25, 2018

介绍

上一次我们理解并证明了策略迭代和值迭代算法后,本次进行实践。

问题

给定一个$n*n$的网格,在某一个网格存在宝藏,给定宝藏位置,在每个网格处只能向上下左右四个方向移动。我们需要找出每个网格处为尽快找到宝藏我们应该采取的动作。

设计解决方案

  • 状态空间:当前所在的网格位置构成的集合
  • 动作空间:上下左右以及不动
  • 即时奖励:除了宝藏位置,其他位置只要移动就为-1,宝藏位置离开奖励为0

实战代码

点我看实现