
2.1 马尔可夫决策过程
强化学习是机器学习领域的一个重要分支,是一种通过不断与环境交互学习最终获得最优策略的学习范式。智能体与环境的交互过程可建模为马尔可夫决策过程(Markov Decision Process,MDP)[1]。MDP 通常用状态、动作、状态转移概率、初始状态概率和奖励函数构成的五元组(S, A, P, P0, r)表示,其中:
S表示状态空间,是所有状态的集合, st表示 t时刻所处状态;
A表示动作空间,是所有动作的集合, at表示 t时刻所选择的动作;
P 表示状态转移概率,即环境模型;根据状态转移概率是否已知,强化学习方法分为模型化强化学习和无模型强化学习;状态转移概率表明从当前状态st,采取的动作 at,转移到下一状态st+1的概率,表示为 P(s t+1|s t,a t);
P0表示初始状态概率,表示随机选择某一初始状态的可能性;
rt表示 t时刻的瞬时奖励。
智能体是具有决策能力的主体,通过状态感知、动作选择和接收反馈与环境进行互动。在每个时间步 t,智能体首先观察当前环境状态 st,并根据当前策略函数选择所要采取的动作 at,所采取的动作一方面与环境交互,依据状态转移概率 P(s t+1|s t,a t)实现当前状态 st到下一状态st+1的转移;另一方面,根据所采取的动作 at及状态的转移获得瞬时奖励 rt。上述过程不断迭代 T次直至最终状态,得到路径,其中 T为整条路径的长度,具体过程如图2-1所示。

图2-1 马尔可夫决策过程
在强化学习任务中,状态 S和动作 A均可以为离散状态动作空间,也可以是连续状态动作空间。其中在许多机器人控制任务中,状态和动作往往是连续的或者是高维离散的。本书将旨在解决状态空间 S完全可被观测,该空间维度已知并且为高维连续的任务。当上述条件不成立时,任务转化为部分可观测马尔可夫决策过程(POMDP)[2]。此外,关于路径长度 T 可以是有限的,也可以是无限的,路径是有限长度的任务意味着任务在 T 步内完成,被称为回合制任务(Episodic Task),如围棋任务,初始时棋盘为空,最后棋盘摆满,一局棋相当于一次回合制任务。另一方面,无限长度路径对应连续型任务,此类问题无明确的开始和结束标志。在本书中,我们考虑路径长度有限的回合制任务。
强化学习的核心是动作选择策略。简单地说,策略是从感知到的状态到采取的动作的映射,它既可以是确定性策略也可以是随机性策略。确定性策略是给定状态 st,可以得到确定的动作 a:at=π( st);随机性策略是将状态空间映射到动作空间的分布,即a t~ π(at|st),表示在状态st下执行动作at的条件概率密度。强化学习是试错学习机制,需要通过与环境的交互寻找最优策略。探索和利用就是进行决策时需要平衡的两个方面,而随机性策略恰好可以满足强化学习的探索机制。
智能体与环境交互并探索动作选择策略,该策略将从任意给定步骤中最大化从该点开始所获得的折扣累积奖励。为得到最优策略,需要优化策略函数,该策略函数的更新优化需要搜集多条路径作为训练样本。如何获得最优策略即为强化学习的核心内容,根据策略函数优化对象的不同,强化学习可分为基于值函数的策略学习算法和策略搜索算法,下面将进行详细阐述。