逆强化学习笔记

1.逆强化学习与强化学习的联系

强化学习的基本模型是马尔可夫决策过程（Markov Decision Process,MDP），其可以使用五元组来表示： \((S,A,P,R,T/\gamma)\) ，分别代表状态空间、动作空间、状态转移概率、奖赏函数、迭代次数（折损因子）。实际上，在之前的学习中，我们已经知道，根据转移概率 \(P\) 是否为已知，可以将强化学习分为 有模型强化学习 和 免模型强化学习 。同理，逆强化就是研究五元组中奖赏函数 \(R\) 的。

奖赏函数作为参与强化学习的一个基本条件，不同的奖赏函数可能会对模型的最终价值产生影响。在普通的强化学习中，我们通常只是将目标点的奖赏值设置为一个正的很大的数，将环境中类似于陷阱、墙壁等的状态奖赏值设置为一个负的数，但对于路径过程中其他状态的处理往往过于简单，例如全部设定为某一固定的值，这种做法存在着一定的欠缺。

另一方面，在实际的强化学习多步决策任务中，搜索空间十分巨大，我们能否通过利用已有的人类专家的决策过程，进而加快策略收敛、提上算法效率呢？

所以，通过利用人类专家的决策过程范例，来学习奖赏函数的逆强化学习应运而生。

2.模仿学习/示教学习的分类

模仿学习(imitation learning)是指利用已有人类专家决策过程进行学习的方法。模仿学习可分为直接模仿学习/行为克隆、逆强化学习、基于博弈的模仿学习等。

所谓直接模仿学习，即直接从人类专家的决策轨迹数据中，利用监督学习的方法学习获得模型。

例如我们现在已获得了一批人类专家的决策轨迹数据如下：

\[\tau_i = <s_{1}^{i},a_{1}^{i},s_{2}^{i},a_{2}^{i},...,s_{n_i+1}^{i}> , i=1,2,...
\]

其中 \(n_i\) 为第i条轨迹中的转移次数。有了这批人类专家的轨迹数据相当于拥有了一批标签数据，即可以以状态为特征，动作为标记，将轨迹中的“状态-动作”对抽取出来形成标签数据集合：

\[D = {(s_1,a_1),(s_2,a_2),...(s_{\sum^{m}_{i=1}n_i},a_{\sum^{m}_{i=1}n_i})}
\]

接着就可以使用分类（对离散动作空间）、回归（对连续动作空间）等算法即可得到策略模型。

但是使用直接模型学习也存在严重的复合误差(compounding errors)并且难以有效学习到人类专家的决策行为动机，因此需要人工标记数据进行模型矫正，而这也使其无法适应状态空间较大的情况。

我们主要探讨如何从人类专家提供的范例数据中反推奖赏函数的逆强化学习。

3.逆强化学习

逆强化学习最早由伯克利大学的 Andrew Y.Ng 和 Stuart Russell 在《Algorithms for Inverse Reinfocement Learning》（2004）中提出。逆强化学习的核心思想为：要想训练出与人类专家范例一致行为的策略，相当于找到一种奖赏环境，而在该奖赏环境中，最有策略产生的轨迹与范例数据一致。

逆强化学习依据其求解奖赏函数的方法，可以分为如下两种：