TL;DR
暂无
Bellman 公式中总结了对于 With model RL 的基本原则和更新方式,但是现实中的问题通常不能保证有严谨的公式。本笔记想对 model free RL的基本方法和思想进行一些概括和总结,好对后面的Actor Critic等算法打好基础。此处所说的 model 指的是环境模型,即对环境的状态转移概率和奖励机制进行建模。在拥有 Model 的情况下(类似围棋),智能体可以预知执行某个动作后环境会发生怎样的变化(确定性或随机性);而 Model-free RL 则是要在不掌握这些环境动态规律的情况下,直接通过与环境的交互来学习策略。
蒙特卡洛方法
蒙特卡罗方法是所有 model free RL 的基础,因为没有了 Model 预测执行某个动作后会发生,就只能通过蒙特卡洛的概率进行预测状态转移的概率。