Key Concepts in Reinforcement Learning

本文主要摘录自 OpenAI Spinning Up Documentation Part 1: Key Concepts in RL，忽略了对具体实现的讲解，同时对回报，价值函数等概念进行了更规范的形式化表述。此外，对 Bellman Equations 展开了详尽地推导。A (Long) Peek into Reinforcement Learning | Lil’Log 一文对这些概念的讲解更加理论深入。

Overview of Reinforcement Learning

强化学习（Reinforcement Learning, RL）中的主要角色是智能体（Agent） 和 环境（Environment）。agent 位于环境中，且与环境进行交互。在每一步交互中，

agent 会观测当前环境状态（State）的（可能不完整的）部分信息，然后决定采取一个动作（Action）
agent 的动作会改变环境，但环境也可能自行发生变化。同时，环境会给 agent 一个奖励（Reward），用来告诉它当前状态的好坏。

强化学习的目标在于，学习如何采取行动，以最大化其累计奖励，也称为回报（Return）。

States and Observations

状态（State） $s$ ：对环境状态的完整描述
观测（Observation） $o$ ：对环境状态的部分描述，可能会遗漏一些信息

Action Spaces

不同的环境允许不同种类的动作。给定环境中所有有效动作的集合通常称为动作空间（Action Space），表示为 $\mathcal{A}$ 。动作空间可能是离散的（如围棋），也可能是连续的（如机器人控制）

Policies

策略（Policy）是 agent 用于决定动作的规则。它可以是确定性的（Deterministic Policy），如给定状态总是选择相同动作，表示为 $a_{t} = \mu_{\theta}(s_{t})$ ；或随机性的（Stochastic Policy），如根据概率分布采样。 $A_{t} \sim \pi_{\theta}(\cdot \mid s_{t})$ 。具体地，随机性策略可表示为：

$\pi(a \mid s) = \mathbb{P}(A = a \mid S = s)$

其中：

$A = a$ 表示动作随机变量 $A$ 当前的观测值为 $a$ 。 $S=s$ 同理
$\mathbb{P}(\cdot)$ 表示概率分布

在深度强化学习中，策略通常通过神经网络参数化：

确定性策略： $a_{t} = \mu_{\theta}(s_{t})$
随机性策略： $A_{t} \sim \pi_{\theta}(\cdot \mid s_{t})$

Trajectories

轨迹（Trajectory, a.k.a. Episode or Rollout） $\tau$ 是由环境中的状态和动作构成的序列：

$\tau=(S_{0}, A_{0}, S_{1}, A_{1}, \ldots)$

其中，初始状态 $S_{0}$ 从初始状态概率分布 $\rho_{0}(\cdot)$ 中采样得到。

在具体的交互过程中，轨迹通常是有限的， $T$ -step 轨迹可以表示如下：

$\tau=(S_{0}, A_{0}, S_{1}, A_{1}, \ldots,S_{T-1},A_{T-1},S_{T})$

State Transitions

状态转移（State Transitions）描述环境如何从状态 $s_{t}$ 转移到下一状态 $s_{t+1}$ 的。可以是确定性的：

$s_{t+1} = f(s_{t}, a_{t})$

也可以是随机性的：

$S_{t+1} \sim P(\cdot \mid s_{t}, a_{t})$

状态转移函数由环境决定，仅依赖于最近的动作 $a_{t}$ 与状态 $s_{t}$

Summary: Two Sources of Randomness

总结当前系统中出现的两个随机性：

动作的随机性： $A \sim \pi(\cdot \mid s)$
状态的随机性： $S_{t+1} \sim P(\cdot \mid s_{t}, a_{t})$

Reward and Return

Reward

即时奖励（Reward） $R_{t}$ 为 agent 提供反馈，表明当前状态 $s_{t}$ 或动作 $a_{t}$ 的好坏。奖励函数（Reward Function） $R$ 依赖于当前状态 $s_{t}$ ，动作 $a_{t}$ 与下一状态 $s_{t+1}$ ，可表示为：

$R_{t} = R(s_{t}, a_{t}, s_{t+1})$

但也可以简化为：

仅依赖当前状态： $R_{t} = R(s_{t})$
依赖状态 - 动作对： $R_{t}= R(s_{t}, a_{t})$

此时，我们可以更新 $T$ -step 轨迹 $\tau$ 的表示，将即时奖励加入到轨迹中：

$\tau = (S_{0},A_{0},R_{0},S_{1},A_{1},\ldots,S_{T-1},A_{T-1},R_{T-1},S_{T})$

Return

强化学习的目标是最大化某种累计奖励，即：回报（Return）。回报可以表示成多种形式，如：

1. finite-horizon undiscounted return. 在固定步长 $T$ 内获得奖励的总和：

$G_{t:t+T} = R_{t} + R_{t+1} + \cdots + R_{t+T-1}= \sum_{k=0}^{T-1} R_{t+k}$

2. infinite-horizon discounted return 从时间 $t$ 开始所有折扣奖励和：

$G_{t}^{(\infty)} = R_{t} + \gamma R_{t+1} + \gamma^{2} R_{t+2} + \cdots = \sum_{k=0}^{\infty} \gamma^{k} R_{t+k}$

其中， $\gamma \in [0,1]$ 是折扣因子。折扣因子既具有直观意义（" 现在的钱比未来的钱更值钱 "），又在数学上使得无限步长奖励和在合理条件下收敛，便于处理。

Note

上文的有限步/无限步，有无折扣这两个条件可以随机组合。在理论推导中，通常使用 $G_{t}$ ，默认表示为无限折扣奖励和，而在实际应用中，一般为有限折扣奖励和。

Value Functions

Action-Value Function

On-Policy Action-Value Function 给出：在状态 $s_{t}$ 下采取动作 $a_{t}$ ，之后始终按照策略 $\pi$ 行动，所能获得的期望回报：

$Q^{\pi}(s_{t},a_{t}) = \mathbb{E}_{\pi} \big[G_{t} \mid S_{t} = s_{t}, A_{t} = a_{t}\big]$

该函数

依赖于当前状态 $s_{t}$ 、动作 $a_{t}$ 、策略 $\pi$ 以及状态转移函数 $P$
与后续状态 $S_{t+1},\ldots$ 和动作 $A_{t+1}, \ldots$ 独立

Optimal Action-Value Function 给出：在状态 $s_{t}$ 下采取动作 $a_{t}$ ，之后始终按照环境中的最优策略行动，所能获得的期望回报：

$Q^{*}(s_{t},a_{t}) = \max_\pi Q^{\pi}(s_{t},a_{t})$

State-Value Function

On-Policy State-Value Function 给出：在状态 $s_{t}$ 下，始终按照策略 $\pi$ 行动，所能获得的期望回报：

$V^{\pi}(s_{t}) = \mathbb{E}_{\pi}[G_{t} \mid S_{t} = s_{t}]$

Optimal State-Value Function 给出：在状态 $s_{t}$ 下，始终按照环境中的最优策略行动，所能获得的最大期望回报：

$V^{*}(s_{t}) = \max_{\pi} V^{\pi}(s_{t})$

Connections Between Action-Value Function and State-Value Function

首先， $V^{\pi}(s_{t})$ 可以视为当前时刻 $t$ ，所有可能动作的价值 $Q^{\pi}(s_{t},a_{t})$ 的加权平均，权重由策略 $\pi(a_{t} \mid s_{t})$ 决定。对于离散动作空间：

$V^{\pi}(s_{t}) = \mathbb{E}_{A_{t} \sim \pi(\cdot \mid s_{t})}\big[Q^{\pi}(S_{t},A_{t}) \mid S_{t}=s_{t}\big] = \sum_{a_{t} \in \mathcal{A}} \pi(a_{t} \mid s_{t}) \cdot Q^{\pi}(s_{t},a_{t})$

其中， $\mathcal{A}$ 为所有有效动作的集合。而对于连续动作空间，则为：

$V^{\pi}(s_{t}) = \mathbb{E}_{A_{t} \sim \pi(\cdot \mid s_{t})}\big[Q^{\pi}(S_{t},A_{t}) \mid S_{t}=s_{t}\big] = \int \pi(a_{t} \mid s_{t}) \cdot Q^{\pi}(s_{t},a_{t}) da_{t}$

在 Bellman Equations 一节，会对该结论给出详尽的推导。

其次， $V^{*}(s_{t})$ 可看作是从状态 $s_{t}$ 开始，通过选择最佳动作 $a_{t}$ 所能实现的最大期望回报：

$V^{*}(s_{t}) = \max_{a_{t}}Q^{*}(s_{t},a_{t})$

换句话说，如果已知 $Q^{*}$ ，那么当前时刻最优动作可直接得到：

$a^{*}_{t}(s_{t}) = \arg\max_{a_{t}}Q^{*}(s_{t},a_{t})$

Advantage Functions

在强化学习中，有时我们不需要绝对地描述某个动作有多好，而只关心它相对于平均水平的优势，即该动作比按照策略随机选择的动作更好多少。为此，我们定义优势函数（Advantage Function）：

$A^{\pi}(s_{t},a_{t}) = Q^{\pi}(s_{t},a_{t}) - V^{\pi}(s_{t})$

在 Bellman Equations 一节，会进一步深入探讨该优势函数。

Formalism: Markov Decision Process

Agent 与环境的交互过程可以形式化为一个马尔可夫决策过程。一个马尔可夫决策过程（Markov Decision Process, MDP）是一个五元组 $\langle \mathcal{S},\mathcal{A},P,R,\gamma \rangle$ ，其中：

$\mathcal{S}$ : 所有有效状态的集合
$\mathcal{A}$ : 所有有效动作的集合
$P:\mathcal{S} \times \mathcal{A} \to \mathbb{P}(\mathcal{S})$ : 状态转移概率函数，其中 $P(s^{\prime} \mid s,a)$ 表示从状态 $s$ 出发、采取动作 $a$ 后转移到状态 $s^{\prime}$ 的概率
$R:\mathcal{S} \times \mathcal{A} \times \mathcal{S} \to \mathbb{R}$ : 奖励函数，对应 $R_{t} = R(s_{t},a_{t},s_{t+1})$
$\gamma \in [0,1]$ : 折扣因子

MDP 这一名称表明系统满足 Markov Property：即状态转移只依赖于最近的状态和动作，而与之前的历史无关。这一性质会在 Bellman Equations 的推导中起到重要作用。

Bellman Equations

Overview of Bellman Equations

Bellman Equations 概括起来为：一个状态的价值，等于期望从该状态获得的即时奖励，加上下一步所到达的后继状态的价值。形式化表述如下：

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}_{a \sim \pi(\cdot \mid s)} \Big[\mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[R_{t} + \gamma V^{\pi}(s^{\prime})\big]\Big] \\ Q^{\pi}(s,a) &= \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[ R_{t} + \gamma V^{\pi}(s^{\prime}) \big] \end{aligned}$

之后为了简洁，我们通常直接使用 $a$ , $s$ , $s^{\prime}$ 来代替之前的 $a_{t}$ , $s_{t}$ , $s_{t+1}$ 。

为了推导 Bellman Equations，我们从 infinite-horizon discounted return $G_{t}$ 的定义出发，将其写成递归形式：

$\begin{aligned} G_{t} &= R_{t} + \gamma R_{t+1} + \gamma^{2} R_{t+2} + \ldots \\ &= R_{t} + \gamma (R_{t+1} + \gamma R_{t+2} + \ldots) \\ &= R_{t} + \gamma G_{t+1} \end{aligned}$

直观地理解，当前时刻 $t$ 的回报 $G_{t}$ 等于即时奖励 $R_{t}$ 加上下一时刻 $t+1$ 的折扣回报 $\gamma G_{t+1}$ 。

Bellman Equation for State-Value Function

从状态价值函数的定义出发： $V^{\pi}(s)$ 表示在状态 $s$ 下，始终按照策略 $\pi$ 行动，所能获得的期望回报：

$V^{\pi}(s) = \mathbb{E}_{\pi}[G_{t} \mid S_{t} = s]$

将 $G_{t} = R_{t} + \gamma G_{t+1}$ 代入上式得：

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}_{\pi}[G_{t} \mid S_{t} = s] \\ &= \mathbb{E}_{\pi}[R_{t} + \gamma G_{t+1} \mid S_{t} = s] \\ &= \mathbb{E}_{\pi}[R_{t} \mid S_{t} = s] + \gamma \mathbb{E}[G_{t+1} \mid S_{t} = s] \end{aligned}$

该公式将 $V^{\pi}(s)$ 分解成两部分：即时奖励的期望 与 未来回报的期望。

第一项：即时奖励的期望

要计算从状态 $s$ 出发能获得的期望即时奖励，需要考虑两重不确定性：

首先，Agent 会根据策略 $\pi(\cdot \mid s)$ 随机选择一个动作 $a$
然后，环境根据状态转移概率 $P(\cdot \mid s,a)$ 转移到一个新的状态 $s^{\prime}$ ，并给出即时奖励 $R_{t} = R(s,a,s^{\prime})$

因此，需要对所有可能的动作以及所有可能的下一状态进行加权平均，权重分别是策略概率与转移概率。以离散空间为例，推导如下：

$\begin{aligned} \mathbb{E}_{\pi}[R_{t} \mid S_{t} = s] &= \sum_{a \in \mathcal{A}} \pi(a \mid s) \mathbb{E}_{\pi}[R_{t} \mid S_{t} = s, A_{t} = a] \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s, a) R(s_{t}, a_{t}, s_{t+1}) \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s, a) R_{t} \end{aligned}$

第二项：未来回报的期望

要计算从状态 $s$ 出发，下一时刻的期望回报，同样需要考虑动作 $a$ 与下一状态 $s^{\prime}$ 的不确定性。此外，根据马尔可夫性质，一旦我们知道了下一状态是 $s'$ ，那么从 $s'$ 出发能获得的未来期望回报就完全由 $V^{\pi}(s')$ 定义，而与之前的状态 $s$ 和动作 $a$ 无关，即 $\mathbb{E}_{\pi}[G_{t+1} \mid S_{t+1} = s'] = V^{\pi}(s')$ 。具体推导如下：

$\begin{aligned} \mathbb{E}_{\pi}[G_{t+1} \mid S_{t} = s] &= \sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}_{\pi}[G_{t+1} \mid S_{t} = s, S_{t+1} = s^{\prime}] P(s^{\prime} \mid s) \\ &= \sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}_{\pi}[G_{t+1} \mid S_{t+1} = s^{\prime}] P(s^{\prime} \mid s) \\ &= \sum_{s^{\prime} \in \mathcal{S}} V^{\pi}(s^{\prime}) P(s^{\prime} \mid s) \\ &= \sum_{s^{\prime} \in \mathcal{S}} V^{\pi}(s^{\prime}) \sum_{a \in \mathcal{A}} P(s^{\prime} \mid s,a) \pi(a \mid s) \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s,a) V^{\pi}(s^{\prime}) \end{aligned}$

最后两行的求和顺序的调换，是为了后续合并的方便。此外，如果不对 $P(s^{\prime} \mid s)$ 继续展开，还可以得到：

$\begin{aligned} \mathbb{E}_{\pi}[G_{t+1} \mid S_{t} = s] &= \sum_{s^{\prime} \in \mathcal{S}} V^{\pi}(s^{\prime}) P(s^{\prime} \mid s) \\ &= \mathbb{E}_{\pi}[V^{\pi}(s^{\prime}) \mid S_{t} = s] \end{aligned}$

该结论会在 Bellman Equation for Action-Value Function 中，推导未来回报期望时用到。

合并两项

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}_{\pi}[R_{t} \mid S_{t} = s] + \gamma \mathbb{E}_{\pi}[G_{t+1} \mid S_{t} = s] \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s) \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s, a) (R_{t} + \gamma V^{\pi}(s^{\prime})) \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s) \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}[R_{t} + \gamma V^{\pi}(s^{\prime})] \\ &= \mathbb{E}_{a \sim \pi(\cdot \mid s)} \Big[\mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[R_{t} + \gamma V^{\pi}(s^{\prime})\big]\Big] \end{aligned}$

Bellman Equation for Action-Value Function

$Q^{\pi}(s,a)$ 的 Bellman Equation 推导过程非常类似，但更简单一些，因为假定了第一个动作 $a$ 已知。仍然从 $Q^{\pi}(s,a)$ 的定义出发，代入 $G_{t} = R_{t} + \gamma G_{t+1}$ ：

$\begin{aligned} Q^{\pi}(s,a) &= \mathbb{E}_{\pi} \big[G_{t} \mid S_{t} = s, A_{t} = a\big] \\ &= \mathbb{E}_{\pi} \big[R_{t} + \gamma G_{t+1} \mid S_{t} = s, A_{t} = a\big] \\ &= \mathbb{E}_{\pi} \big[R_{t} \mid S_{t} = s, A_{t} = a\big] + \gamma \mathbb{E}_{\pi} \big[G_{t+1} \mid S_{t} = s, A_{t} = a\big] \end{aligned}$

由于动作 $a$ 已知，所以不确定性只剩下环境的状态转移 $P(\cdot \mid s,a)$ 。因此，我们只需要对所有可能的下一状态 $s'$ 求期望。上式仍然将 $Q^{\pi}(s)$ 分解成两部分：即时奖励的期望 与 未来回报的期望。

第一项：即时奖励的期望

$\begin{aligned} \mathbb{E}_{\pi} \big[R_{t} \mid S_{t} = s, A_{t} = a\big] &= \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s,a) R(s,a,s^{\prime}) \\ &= \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s,a) R_{t} \end{aligned}$

第二项：未来回报的期望

$\begin{aligned} \mathbb{E}_{\pi} \big[G_{t+1} \mid S_{t} = s, A_{t} = a\big] &= \sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}_{\pi} \big[G_{t+1} \mid S_{t} = s, A_{t} = a, S_{t+1} = s^{\prime}\big] P(s^{\prime} \mid s,a) \\ &= \sum_{s^{\prime} \in \mathcal{S}} \mathbb{E}_{\pi} \big[G_{t+1} \mid S_{t+1} = s^{\prime}\big] P(s^{\prime} \mid s,a) \\ &= \sum_{s^{\prime} \in \mathcal{S}} V^{\pi}(s^{\prime}) P(s^{\prime} \mid s,a) \end{aligned}$

这里第二个等式利用马尔可夫性质， $G_{t+1}$ 与过去的动作 $a$ 与状态 $s$ 无关。第三个等式利用 Bellman Equation for State-Value Function 中推导未来回报期望时的一个结论： $\mathbb{E}_{\pi}[G_{t+1} \mid S_{t} = s] = \mathbb{E}_{\pi}[V^{\pi}(s^{\prime}) \mid S_{t} = s]$

合并两项

$\begin{aligned} Q^{\pi}(s,a) &= \mathbb{E}_{\pi} \big[R_{t} \mid S_{t} = s, A_{t} = a\big] + \gamma \mathbb{E}_{\pi} \big[G_{t+1} \mid S_{t} = s, A_{t} = a\big] \\ &= \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s,a) R_{t} + \gamma \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s,a) V^{\pi}(s^{\prime}) \\ &= \sum_{s^{\prime} \in \mathcal{S}} P(s^{\prime} \mid s,a) \big(R_{t} + \gamma V^{\pi}(s^{\prime})\big) \\ &= \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[ R_{t} + \gamma V^{\pi}(s^{\prime}) \big] \end{aligned}$

至此，我们已经推导出了 $V^{\pi}(s)$ 与 $Q^{\pi}(s,a)$ 的 Bellman Equations。观察一下，可以将 $Q^{\pi}(s,a)$ 继续代入到 $V^{\pi}(s)$ 中进行推导：

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}_{a \sim \pi(\cdot \mid s)} \Big[\mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[R_{t} + \gamma V^{\pi}(s^{\prime})\big]\Big] \\ &= \mathbb{E}_{a \sim \pi(\cdot \mid s)} \big[ Q^{\pi}(s,a) \big] \\ &= \sum_{a \in \mathcal{A}} \pi(a \mid s) Q^{\pi}(s,a) \\ &= \mathbb{E}_{a \sim \pi(\cdot \mid s)} \big[ Q^{\pi}(s,a) \big] \end{aligned}$

这与我们在 Connections Between Action-Value Function and State-Value Function 直观上得到的结论一致：一个状态的价值，是该状态下所有可能动作的动作价值，按照策略 $\pi$ 的概率进行的加权平均

Temporal-Difference (TD) Error

推导出 $V^{\pi}(s)$ 与 $Q^{\pi}(s,a)$ 的 Bellman Equations 之后，我们可以进一步推导优势函数：

$\begin{aligned} A^{\pi}(s,a) &= Q^{\pi}(s,a) - V^{\pi}(s) \\ &= \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[ \underbrace{R_{t} + \gamma V^{\pi}(s^{\prime})}_{\text{TD Target}} \big] - \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[ V^{\pi}(s) \big] \\ &= \mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[ \underbrace{R_{t} + \gamma V^{\pi}(s^{\prime}) - V^{\pi}(s)}_{\text{TD Error}} \big] \end{aligned}$

上式中， $V^{\pi}(s)$ 可以直接写成 $\mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[V^{\pi}(s) \big]$ ，是因为 $V^{\pi}(s)$ 只依赖于确定的 $s$ ，而与 $s^{\prime}$ 无关。在实际算法中，通常使用神经网络来近似状态价值函数，表示为 $V_{w}(s)$ ，其中 $w$ 为神经网络参数。因此，优势函数的近似 $\hat{A}_{t}$ 可以表示如下：

$\hat{A}_{t} = \underbrace{\overbrace{r_{t} + \gamma V_{w}(s_{t+1})}^{\text{TD Target}} - V_{w}(s)}_{\text{TD Error}}$

Note

这里我们暂时不讨论偏差与方差的问题，放到具体算法的文章中讨论。

其中， $V_{w}(s)$ 是我们对当前状态价值的原始估计，而 $r_{t} + \gamma V_{w}(s_{t+1})$ 是 Agent 执行一步动作 $a$ 后，并观察到奖励 $r_{t}$ 与下一状态 $s_{t+1}$ 后，对当前状态价值的更优估计（可作为 TD Target）。而两者之差，称为 TD Error，通常表示为：

$\delta_{t} = r_{t} + \gamma V_{w}(s_{t+1}) - V_{w}(s_{t})$

直观地理解，TD Error 就是 当前的预测 与 一个更靠谱的、基于下一步真实情况的新预测 之间的差距。

这个差距可以当做学习的信号。如果差距很大，说明之前的预测很不准，需要大幅调整；如果差距很小，说明预测得还不错，稍微微调即可。这也引出了 TD Learning，核心思想在于用下一步的预测来纠正当前的预测。

更直观地，想象一下你每天开车上班，想预测全程需要多长时间。

第一天（刚出门）：你凭感觉猜测：" 嗯，今天路况不错，估计全程要 30 分钟。"
- 这是你的 初始预测。
开了 10 分钟后（到达了中途的 A 点）：你发现路上有个小事故，有点堵车。你看了看导航，它根据当前路况重新预测，从 A 点到公司还需要 25 分钟。
- 这时，你有了一个新的、更靠谱的预测：已经花费的 10 分钟 (真实成本) + 导航预测的未来 25 分钟 (新的未来预测) = 总共 35 分钟。
- 这 35 分钟 就是我们所说的 TD Target。它更靠谱，因为它包含了一部分真实发生的情况（已经开的 10 分钟）。
计算误差：现在，你拿新的预测和旧的预测一比较：TD Error = (已花费的 10 分钟 + 未来还需 25 分钟) - (最初的预测 30 分钟) = +5 分钟
学习与更新：这个 +5 分钟 的误差告诉你：你最初的预测太乐观了！你需要把对 " 全程时间 " 的预测调高一些。于是你心想：" 看来以后出门时，应该预测要 30 多分钟才对。" 你根据这个误差，更新了你大脑里的模型。

这就是 TD Learning 的核心思想：不需要等到全程跑完（不需要等最终结果），而是在每一步都利用新信息，不断地更新和校准自己之前的预测。

$n$ -step Return

前文讨论的 TD Target 的核心思想在于：执行一步，然后用观测到的即时奖励 $r_{t}$ 与对下一状态的价值估计 $V_{w}(s_{t+1})$ 来构建一个更优的目标 TD Target，并更新当前状态的价值估计 $V_{w}(s_{t})$ 。这种方法被称为 TD Learning，其理论基础来自 Bellman Equation:

$V^{\pi}(s_{t}) = \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s)} \Big[\mathbb{E}_{s_{t+1} \sim P(\cdot \mid s,a)}\big[R_{t} + \gamma V^{\pi}(s_{t+1})\big]\Big]$

根据状态价值函数的定义：

$V^{\pi}(s_{t}) = \mathbb{E}_{\pi}[G_{t} \mid S_{t} = s_{t}]$

我们发现，上面两式的差异在于期望的下标。Bellman Equation 是单步的期望，而状态价值函数定义是整个轨迹上的期望。为了更好地描述单步多步时， $V^{\pi}(s_{t})$ 与回报的联系，我们定义 $n$ -step 回报如下：

$\begin{aligned} G_{t}^{(n)} &= R_{t} + \gamma R_{t+1} + \gamma^{2} R_{t+2} + \cdots + \gamma^{n-1} R_{t+n-1} + \gamma^{n} V^{\pi}(s_{t+n}) \\ &= \sum_{l=0}^{n-1} \gamma^{l} R_{t+l} + \gamma^{n} V^{\pi}(s_{t+n}) \end{aligned}$

用自然语言来描述， $n$ -step 回报就是执行 $n$ 步后，累计实际观测到的奖励和，加上第 $n$ 步的状态价值。实际上，更常见的形式是其估计量 $\hat{G}_{t}^{(n)}$ ，表示如下：

$\hat{G}_{t}^{(n)} = \sum_{l=0}^{n-1} \gamma^{l} r_{t+l} + \gamma^{n} V_{w}(s_{t+n})$

其中， $V_{w}(s_{t+n})$ 是对理论真值 $V^{\pi}(s_{t})$ 的近似。观察发现：

当 $n=1$ 时， $\hat{G}_{t}^{(1)} = r_{t} + \gamma V_{w}(s_{t+1})$ 恰好是 $1$ -step TD Target。
当 $n \to \infty$ 时， $\hat{G}_{t}^{(\infty)} = {G}_{t}^{(\infty)} = \sum_{l=0}^{\infty} \gamma^{l} r_{t+l}$ 恰好是回报的定义，也称为蒙特卡洛回报

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}_{a \sim \pi(\cdot \mid s)} \Big[\mathbb{E}_{s^{\prime} \sim P(\cdot \mid s,a)}\big[R_{t} + \gamma V^{\pi}(s^{\prime})\big]\Big] \\ \end{aligned}$

接下来，证明对于给定的策略 $\pi$ 和起始状态 $S_{t} = s_{t}$ ， $n$ -step 回报 $G_{t}^{(n)}$ 是状态价值函数 $V^{\pi}(s_{t})$ 的无偏估计：

$\mathbb{E}_{\pi}[G_{t}^{(n)} \mid S_{t} = s_{t}] = V^{\pi}(s_{t})$

其中： $\mathbb{E}_{\pi}[\cdot \mid S_{t} = s_{t}]$ 表示从 $s_{t}$ 出发，遵循策略 $\pi$ 生成的整个未来轨迹的条件期望。

我们将从 $V^{\pi}(s_t)$ 的定义出发，通过递归地代入 Bellman Equation 来证明。

步骤 1: 基础步骤

根据 Bellman Equation 的定义：

$V^{\pi}(s_{t}) = \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t})} \big[R_{t} + \gamma V^{\pi}(s_{t+1}) \mid S_{t} = s_{t} \big]$

这两个嵌套的期望，其联合效果就是对从 $s_t$ 开始的一个时间步内的所有可能性（即 $(a_t, s_{t+1}, r_t)$ 的组合）进行加权平均。这正是全轨迹期望 $\mathbb{E}_{\pi}$ 在一个时间步内的定义。所以，我们可以写成：

$V^{\pi}(s_{t}) = \mathbb{E}_{\pi}[R_{t} + \gamma V^{\pi}(s_{t+1}) \mid S_{t} = s_{t}]$

注意到 $G_t^{(1)} = R_{t} + \gamma V^{\pi}(s_{t+1})$ 。因此，我们已经严格证明了 $n=1$ 的情况：

$V^{\pi}(s_{t}) = \mathbb{E}_{\pi}\Big[G_{t}^{(1)} \mid S_{t} = s_{t}\Big]$

步骤 2: 递归展开

现在，我们对上式中的 $V^{\pi}(s_{t+1})$ 项应用 Bellman Equation。对于任意给定的 $s_{t+1}$ ，我们有：

$V^{\pi}(s_{t+1}) = \mathbb{E}_{a_{t+1} \sim \pi(\cdot \mid s_{t+1}), s_{t+2} \sim P(\cdot \mid s_{t+1},a_{t+1})} \big[ R_{t+1} + \gamma V^{\pi}(s_{t+2}) \mid S_{t+1} = s_{t+1} \big]$

我们将这个表达式代入到步骤 1 的结果中：

$V^{\pi}(s_{t}) = \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t})} \Big[ R_{t} + \gamma \big( \mathbb{E}_{a_{t+1} \sim \pi(\cdot \mid s_{t+1}), s_{t+2} \sim P(\cdot \mid s_{t+1},a_{t+1})} \big[ R_{t+1} + \gamma V^{\pi}(s_{t+2}) \mid S_{t+1} \big] \big) \mid S_{t} = s_{t} \Big]$

观察期望的结构：

内层期望的结果是是一个 $S_{t+1}$ 的函数
外层期望则对这个函数以及 $R_{t}$ 求期望。

根据期望的线性性质，拆分上式可得：

$\begin{aligned} V^{\pi}(s_{t}) =\ & \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t})} \Big[ R_{t} + \gamma \big( \mathbb{E}_{a_{t+1} \sim \pi(\cdot \mid s_{t+1}), s_{t+2} \sim P(\cdot \mid s_{t+1},a_{t+1})} \big[ R_{t+1} + \gamma V^{\pi}(s_{t+2}) \mid S_{t+1} \big] \big) \mid S_{t} = s_{t} \Big] \\ =\ & \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t})} \big[R_{t} \mid S_{t} = s_{t}\big] + \gamma \cdot \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t})}\\ \big[ & \mathbb{E}_{a_{t+1} \sim \pi(\cdot \mid s_{t+1}), s_{t+2} \sim P(\cdot \mid s_{t+1},a_{t+1})}[R_{t+1} + \gamma V^{\pi}(s_{t+2}) \mid S_{t+1}] \mid S_{t} = s_{t} \big] \end{aligned}$

观察第二项：

外层期望：给定 $S_{t} = s_{t}$ 时，关于 $A_{t}$ 和 $S_{t+1}$ 求期望
内层期望：给定 $S_{t+1}$ 时，关于 $A_{t+1}$ 和 $S_{t+2}$ 求期望

由期望的迭代定律，第二项可以重写为：

$\mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t}), a_{t+1} \sim \pi(\cdot \mid s_{t+1}), s_{t+2} \sim P(\cdot \mid s_{t+1},a_{t+1})} \big[ R_{t+1} + \gamma V^{\pi}(s_{t+2}) \mid S_{t} = s_{t} \big]$

合并后的期望表示，从 $S_{t} = s_{t}$ 开始，遵循策略 $\pi$ 的两个时间步的轨迹求期望。由于第一项中的 $R_{t}$ 仅依赖于 $A_{t}$ 与 $S_{t+1}$ ，不依赖于 $A_{t+1}$ 与 $S_{t+2}$ 。因此，可以合并这两项。由期望的线性性质，得到最终的合并形式：

$\begin{aligned} V^{\pi}(s_{t}) &= \mathbb{E}_{a_{t} \sim \pi(\cdot \mid s_{t}), s_{t+1} \sim P(\cdot \mid s_{t},a_{t}), a_{t+1} \sim \pi(\cdot \mid s_{t+1}), s_{t+2} \sim P(\cdot \mid s_{t+1},a_{t+1})} \big[ R_{t} + \gamma R_{t+1} + \gamma^{2} V^{\pi}(s_{t+2}) \mid S_{t} = s_{t} \big] \\ &= \mathbb{E}_{\pi}\big[ R_{t} + \gamma R_{t+1} + \gamma^{2} V^{\pi}(s_{t+2}) \mid S_{t} = s_{t} \big] \\ &= \mathbb{E}_{\pi}\big[ G_{t}^{(2)} \mid S_{t} = s_{t} \big] \end{aligned}$

至此，我们证明了 $2$ -step 回报 $G_{t}^{(2)}$ 是状态价值函数 $V^{\pi}(s_{t})$ 的无偏估计。实际上，我们可以一直推广到 $n$ -step，这里不给出详细的推导过程。

综上， $n$ -step 回报 $G_{t}^{(n)}$ 是状态价值函数 $V^{\pi}(s_{t})$ 的无偏估计

Related Material

Overview of Reinforcement Learning

States and Observations

Action Spaces

Policies

Trajectories

State Transitions

Summary: Two Sources of Randomness

Reward and Return

Reward

Return

Value Functions

Action-Value Function

State-Value Function

Connections Between Action-Value Function and State-Value Function

Advantage Functions

Formalism: Markov Decision Process

Bellman Equations

Overview of Bellman Equations

Bellman Equation for State-Value Function

Bellman Equation for Action-Value Function

Temporal-Difference (TD) Error

nnn-step Return

$n$ -step Return