1.1 基于统计方法的语言模型

语言模型通过对语料库（Corpus）中的语料进行统计或学习来获得预测语言符号概率的能力。通常，基于统计的语言模型通过直接统计语言符号在语料库中出现的频率来预测语言符号的概率。其中，n-grams是最具代表性的统计语言模型。n-grams语言模型基于马尔可夫假设和离散变量的极大似然估计给出语言符号的概率。本节首先给出n-grams语言模型的计算方法，然后讨论n-grams语言模型如何在马尔可夫假设的基础上应用离散变量极大似然估计给出语言符号出现的概率。

1.1.1 n-grams 语言模型

设包含 $N$ 个元素的语言符号可以表示为 $w_{1:N} = \{w_1, w_2, w_3, \dots, w_N\}$ 。 $w_{1:N}$ 可以代表文本，也可以代表音频序列等载有语义信息的序列。为了便于理解，本章令语言符号 $w_{1:N}$ 代表文本，其元素 $w_i \in w_{1:N}$ 代表词， $i = 1, \dots, N$ 。在真实语言模型中， $w_i$ 可以是 Token 等其他形式。关于 Token 的介绍将在第三章中给出。

n-grams 语言模型中的 n-gram 指的是长度为 $n$ 的词序列。n-grams 语言模型通过依次统计文本中的 n-gram 及其对应的 (n-1)-gram 在语料库中出现的相对频率来计算文本 $w_{1:N}$ 出现的概率。计算公式如下所示：

P _ {n - g r a m s} \left(w _ {1: N}\right) = \prod_ {i = n} ^ {N} \frac {C \left(w _ {i - n + 1 : i}\right)}{C \left(w _ {i - n + 1 : i - 1}\right)}, \tag {1.1}

其中， $C(w_{i-n+1:i})$ 为词序列 $\{w_{i-n+1},\dots,w_i\}$ 在语料库中出现的次数， $C(w_{i-n+1:i-1})$ 为词序列 $\{w_{i-n+1},\dots,w_{i-1}\}$ 在语料库中出现的次数。其中， $n$ 为变量，当 $n=1$ 时，称之为unigram，其不考虑文本的上下文关系。此时，分子 $C(w_{i-n+1:i}) = C(w_i)$ ， $C(w_i)$ 为词 $w_i$ 在语料库中出现的次数；分母 $C(w_{i-n+1:i-1}) = C_{total}$ ， $C_{total}$ 为语料库中包含的词的总数。当 $n=2$ 时，称之为bigrams，其对前一个词进行考虑。此时，

语料库

脖子长是长颈鹿最醒目的特征之一。

脖子长使得长颈鹿看起来非常优雅，并为其在获取食物上带来便利。

有了长脖子的加持，长颈鹿可以观察到动物园里那些隐蔽的角落里发生的事情。

长颈鹿脖子和人类脖子一样，只有七节颈椎，也容易患颈椎病。

如同长颈鹿脖子由短变长的进化历程一样，语言模型也在不断进化。

图1.1：n-grams示例语料库。

分子 $C(w_{i - n + 1:i}) = C(w_{i - 1},w_i)$ ， $C(w_{i - 1},w_i)$ 为词序列 $\{w_{i - 1},w_i\}$ 在语料库中出现的次数；分母 $C(w_{i - n + 1:i - 1}) = C(w_{i - 1})$ ， $C(w_{i - 1})$ 为词 $w_{i - 1}$ 在语料库中出现的次数。以此类推，当 $n = 3$ 时，称之为trigrams，其对前两个词进行考虑。当 $n = 4$ 时，称之为4-grams，其对前三个词进行考虑……

下面通过一个bigrams语言模型的例子来展示n-grams语言模型对文本出现概率进行计算的具体方式。假设语料库中包含5个句子，如图1.1所示。基于此语料库，应用bigrams对文本“长颈鹿脖子长”（其由{长颈鹿,脖子,长}三个词构成）出现的概率进行计算，如下式所示：

P _ {\text {b i g r a m s}} (\text {长 颈 鹿}, \text {脖 子}, \text {长}) = \frac {C (\text {长 颈 鹿} , \text {脖 子})}{C (\text {长 颈 鹿})} \cdot \frac {C (\text {脖 子} , \text {长})}{C (\text {脖 子})} 。 \tag {1.2}

在此语料库中， $C$ （长颈鹿） $= 5, C$ （脖子） $= 6, C$ （长颈鹿，脖子） $= 2, C$ （脖子，长） $= 2$ ，故有：

P _ {b i g r a m s} (\text {长 颈 鹿}, \text {脖 子}, \text {长}) = \frac {2}{5} \cdot \frac {2}{6} = \frac {2}{1 5} 。 \tag {1.3}

在此例中，我们可以发现虽然“长颈鹿脖子长”并没有直接出现在语料库中，但是bigrams语言模型仍可以预测出“长颈鹿脖子长”出现的概率有 $\frac{2}{15}$ 。由此可见，n-grams具备对未知文本的泛化能力。这也是其相较于传统基于规则的方法的

优势。但是，这种泛化能力会随着 $n$ 的增大而逐渐减弱。应用 trigrams 对文本“长颈鹿脖子长”出现的概率进行计算，将出现以下“零概率”的情况：

P _ {\text {t r i g r a m s}} (\text {长 颈 鹿 ， 脖 子 ， 长}) = \frac {C (\text {长 颈 鹿 ， 脖 子 ， 长})}{C (\text {长 颈 鹿 ， 脖 子})} = 0 。 \tag {1.4}

因此，在 n-grams 语言模型中， $n$ 代表了拟合语料库的能力与对未知文本的泛化能力之间的权衡。当 $n$ 过大时，语料库中难以找到与 n-gram 一模一样的词序列，可能出现大量“零概率”现象；在 $n$ 过小时，n-gram 难以承载足够的语言信息，不足以反应语料库的特性。因此，在 n-grams 语言模型中， $n$ 的值是影响性能的关键因素。上述的“零概率”现象可以通过平滑（Smoothing）技术进行改善，具体技术可参见文献 [11]。

本小节讲解了 n-grams 语言模型如何计算语言符号出现的概率，但没有分析 n-grams 语言模型的原理。下一小节将从 $n$ 阶马尔可夫假设和离散型随机变量的极大似然估计的角度对 n-grams 语言模型背后的统计学原理进行阐述。

1.1.2 n-grams 的统计学原理

n-grams 语言模型是在 $n$ 阶马尔可夫假设下，对语料库中出现的长度为 $n$ 的词序列出现概率的极大似然估计。本节首先给出 $n$ 阶马尔可夫假设的定义（见定义1.1）和离散型随机变量的极大似然估计的定义（见定义1.2），然后分析 n-grams 如何在马尔可夫假设的基础上应用离散变量极大似然估计给出语言符号出现的概率。

定义1.1 (n阶马尔可夫假设)

对序列 $\{w_{1}, w_{2}, w_{3}, \ldots, w_{N}\}$ ，当前状态 $w_{N}$ 出现的概率只与前 $n$ 个状态 $\{w_{N - n}, \ldots, w_{N - 1}\}$ 有关，即：

P \left(w _ {N} \mid w _ {1}, w _ {2}, \dots , w _ {N - 1}\right) \approx P \left(w _ {N} \mid w _ {N - n}, \dots , w _ {N - 1}\right) 。 \tag {1.5}

定义1.2（离散型随机变量的极大似然估计）

给定离散型随机变量 $X$ 的分布律为 $P\{X = x\} = p(x;\theta)$ ，设 $X_{1},\ldots,X_{N}$ 为来自 $X$ 的样本， $x_{1},\ldots,x_{N}$ 为对应的观察值， $\theta$ 为待估计参数。在参数 $\theta$ 下，分布函数随机取到 $x_{1},\ldots,x_{N}$ 的概率为：

p (x | \theta) = \prod_ {i = 1} ^ {N} p \left(x _ {i}; \theta\right) 。 \tag {1.6}

构造似然函数为：

L (\theta | x) = p (x | \theta) = \prod_ {i = 1} ^ {N} p \left(x _ {i}; \theta\right) 。 \tag {1.7}

离散型随机变量的极大似然估计旨在找到 $\theta$ 使得 $L(\theta |x)$ 取最大值。

在上述两个定义的基础上，对 $\mathsf{n}$ -grams的统计原理进行讨论。设文本 $w_{1:N}$ 出现的概率为 $P(w_{1:N})$ 。根据条件概率的链式法则， $P(w_{1:N})$ 可由下式进行计算。

\begin{array}{l} P (w _ {1: N}) = P (w _ {1}) P (w _ {2} | w _ {1}) P (w _ {3} | w _ {1: 2}) \dots . P (w _ {N} | w _ {1: N - 1}) \\ = \prod_ {i = 1} ^ {N} P \left(w _ {i} \mid w _ {1: i - 1}\right) 。 \tag {1.8} \\ \end{array}

根据 $n$ 阶马尔可夫假设，n-grams语言模型令 $P(w_{i}|w_{i - n:i - 1})$ 近似 $P(w_{i}|w_{1:i - 1})$ 。然后，根据离散型随机变量的极大似然估计，令 $\frac{C(w_{i - n:i})}{C(w_{i - n:i - 1})}$ 近似 $P(w_{i}|w_{i - n:i - 1})$ 。从而，得到n-grams语言模型的输出 $P_{n - grams}(w_{1:N})$ 是对 $P(w_{i}|w_{1:i - 1})$ 的近似。即，

P _ {n - g r a m s} \left(w _ {1: N}\right) \approx P \left(w _ {1: N}\right) 。 \tag {1.9}

下面，以bigrams为例，介绍 $\frac{C(w_{i - n:i})}{C(w_{i - n:i - 1})}$ 与极大似然估计间的关系。假设语料库中共涵盖 $M$ 个不同的单词， $\{w_i,w_j\}$ 出现的概率为 $P(w_{i},w_{j})$ ，对应出现的频率为 $C(w_{i},w_{j})$ ，则其出现的似然函数为：

L (\theta) = \prod_ {i = 1} ^ {M} \prod_ {j = 1} ^ {M} P \left(w _ {i}, w _ {j}\right) ^ {C \left(w _ {i}, w _ {j}\right)}, \tag {1.10}

其中， $\theta = \{P(w_i, w_j)\}_{i,j=1}^M$ 。根据条件概率公式 $P(w_i, w_j) = P(w_j | w_i) P(w_i)$ ，有

L (\theta) = \prod_ {i = 1} ^ {M} \prod_ {j = 1} ^ {M} P \left(w _ {j} \mid w _ {i}\right) ^ {C \left(w _ {i}, w _ {j}\right)} P \left(w _ {i}\right) ^ {C \left(w _ {i}, w _ {j}\right)} 。 \tag {1.11}

其对应的对数似然函数为:

L _ {\log} (\theta) = \sum_ {i = 1} ^ {M} \sum_ {j = 1} ^ {M} C \left(w _ {i}, w _ {j}\right) \log P \left(w _ {j} \mid w _ {i}\right) + \sum_ {i = 1} ^ {M} \sum_ {j = 1} ^ {M} C \left(w _ {i}, w _ {j}\right) \log P \left(w _ {i}\right) 。 \tag {1.12}

因为 $\sum_{j=1}^{M} P(w_{j} | w_{i}) = 1$ ，所以最大化对数似然函数可建模为如下的约束优化问题：

\begin{array}{l} \max L _ {\log} (\theta) \\ s. t. \sum_ {j = 1} ^ {M} P \left(w _ {j} \mid w _ {i}\right) = 1 \text {f o r} i \in [ 1, M ] 。 \tag {1.13} \\ \end{array}

其拉格朗日对偶为：

L (\lambda , L _ {\log}) = L _ {\log} (\theta) + \sum_ {i = 1} ^ {M} \lambda_ {i} \left(\sum_ {j = 1} ^ {M} P \left(w _ {j} \mid w _ {i}\right) - 1\right) 。 \tag {1.14}

对其求关于 $P(w_{j} \mid w_{i})$ 的偏导, 可得:

\frac {\partial L \left(\lambda , L _ {\log}\right)}{\partial P \left(w _ {j} \mid w _ {i}\right)} = \sum_ {i = 1} ^ {M} \frac {C \left(w _ {i} , w _ {j}\right)}{P \left(w _ {j} \mid w _ {i}\right)} + \sum_ {i = 1} ^ {M} \lambda_ {i} 。 \tag {1.15}

当导数为0时，有：

P \left(w _ {j} \mid w _ {i}\right) = - \frac {C \left(w _ {i} , w _ {j}\right)}{\lambda_ {i}} 。 \tag {1.16}

因 $\sum_{j=1}^{M} P(w_{j} | w_{i}) = 1$ , $\lambda_{i}$ 可取值为 $-\sum_{j=1}^{M} C(w_{i}, w_{j})$ , 即

P \left(w _ {j} \mid w _ {i}\right) = \frac {C \left(w _ {i} , w _ {j}\right)}{\sum_ {j = 1} ^ {M} C \left(w _ {i} , w _ {j}\right)} = \frac {C \left(w _ {i} , w _ {j}\right)}{C \left(w _ {i}\right)} 。 \tag {1.17}

上述分析表明bigram语言模型中的 $\frac{C(w_i, w_j)}{C(w_i)}$ 是对语料库中的长度为2的词序列的 $P(w_j | w_i)$ 的极大似然估计。该结论可扩展到 $n > 2$ 的其他n-grams语言模型中。

n-grams 语言模型通过统计词序列在语料库中出现的频率来预测语言符号的概率。其对未知序列有一定的泛化性，但也容易陷入“零概率”的困境。随着神经网络的发展，基于各类神经网络的语言模型不断被提出，泛化能力越来越强。基于神

经网络的语言模型不再通过显性的计算公式对语言符号的概率进行计算，而是利用语料库中的样本对神经网络模型进行训练。本章接下来将分别介绍两类最具代表性的基于神经网络的语言模型：基于 RNN 的语言模型和基于 Transformer 的语言模型。

1.1_基于统计方法的语言模型

1.1 基于统计方法的语言模型

1.1.1 n-grams 语言模型

语料库

1.1.2 n-grams 的统计学原理

定义1.1 (n阶马尔可夫假设)

定义1.2（离散型随机变量的极大似然估计）