强化学习-马尔科夫决策过程（MDP）

1、强化学习介绍

强化学习任务通常使用马尔科夫决策过程（Markov Decision Process，简称MDP）来描述，具体而言：机器处在一个环境中，每个状态为机器对当前环境的感知；机器只能通过动作来影响环境，当机器执行一个动作后，会使得环境按某种概率转移到另一个状态；同时，环境会根据潜在的奖励函数反馈给机器一个奖赏。综合而言，强化学习主要包含四个要素：状态、动作、转移概率以及奖赏函数。

根据上图，agent（智能体）在进行某个任务时，首先与environment进行交互，产生新的状态state，同时环境给出奖励reward，如此循环下去，agent和environment不断交互产生更多新的数据。强化学习算法就是通过一系列动作策略与环境交互，产生新的数据，再利用新的数据去修改自身的动作策略，经过数次迭代后，agent就会学习到完成任务所需要的动作策略。

2、马尔科夫决策过程（Markov Process）

马尔可夫性当前状态包含了对未来预测所需要的有用信息，过去信息对未来预测不重要，该就满足了马尔科夫性，严格来说，就是某一状态信息包含了所有相关的历史，只要当前状态可知，所有的历史信息都不再需要，当前状态就可以决定未来，则认为该状态具有马尔科夫性。用公式描述为：

$P(S_{t+1}|S_t)=p(S_{t+1}|S_1,S_2,···,S_t)$

马尔科夫过程又叫做马尔科夫链（Markov Chain）,它是一个无记忆的随机过程，可以用一个元组<S, P>表示，其中

S 是有限数量的状态集 $S={s_1,s_2,s_3,\cdots,s_t}$
P 是状态转移概率矩阵 $p(S_{t+1}=s'|s_t=s)$ 其中 $s'$ 表示下一时刻的状态，s表示当前状态如下所示：对于状态 $s_1$ 来说，有0.1的概率保持不变，有0.2的概率转移到 $s_2$ 状态，有0.7的概率转移到 $s_4$ 状态。