ASR笔记：从 N-gram 到语音识别里的语言模型

Bryce2021/7/10大约 4 分钟

没想到国内ASR模型做的最好的公司，部分场景竟然用的还是朴实无华的N-gram。以为是"早已过时"的模型结构，看来还是不能小瞧的，所以重新学习并整理了N-gram相关的内容。

目标： 算一个句子 $S = w_1, ..., w_m$ 出现的概率 $P(S)$ 。

理论公式（链式法则）：

P(S)=P(w_1) \cdot P(w_2\mid w_1) \cdot P(w_3\mid w_1, w_2) \cdots P(w_m\mid w_1,..., w_{m-1})

问题： 每个词都依赖前面所有词。历史太长，组合爆炸，语料库里根本找不到样本来算概率（数据稀疏）。

N-gram 的解决思路： 用前面最近的 $n-1$ 个词近似替代全部。这就是马尔可夫假设。

定义：未来状态只取决于当前状态，跟更早的状态没关系。
N-gram 关系：N-gram 就是把这个思想用在词序列上。
- Bigram ( $N=2$ ) $\rightarrow$ 一阶马尔可夫： $P(w_i\mid w_{i-1})$ 。
- Trigram ( $N=3$ ) $\rightarrow$ 二阶马尔可夫： $P(w_i\mid w_{i-2}, w_{i-1})$ 。

N-gram 把复杂的条件概率简化了： $P(w_i\mid \text{历史}) \approx P(w_i\mid w_{i-n+1}^{i-1})$ 。

计算方法： 用最大似然估计 (MLE)

P(w_i\mid w_{i-1}) = \frac{\text{Count}(w_{i-1}, w_i)}{\text{Count}(w_{i-1})}

N-gram 模型在工程上要解决两个核心问题：数据稀疏（概率为0）和模型体积过大（ $N$ 越大，参数越多）。

平滑：从高频词那里“借”点概率，分给低频或没见过的词。常见的有：Kneser-Ney、Good-Turing等

插值： 解决高阶 N-gram 统计不可靠的问题。

思路：高阶 N-gram（比如 Trigram）虽然更精确，但更容易稀疏。低阶 N-gram（比如 Bigram、Unigram）虽然不精确，但统计更可靠。
做法：把不同阶的 N-gram 概率加权平均起来用。 $P(w_i\mid w_{i-2}, w_{i-1}) = \lambda_3 P_3 + \lambda_2 P_2 + \lambda_1 P_1$ 其中 $\lambda_1 + \lambda_2 + \lambda_3 = 1$ 。这样，即使 Trigram 没统计到，也能通过 Bigram 和 Unigram 得到一个非零的概率。

问题：N-gram 模型的体积随着 $N$ 和词汇量增大而爆炸。一个 4-gram 模型文件能有几个 GB。
剪枝：把那些贡献度小的 N-gram 直接从模型里删掉。

在传统 ASR 系统里，N-gram LM 是一个非常重要的语言先验。

Beam Search解码器在找最佳词序列时，要平衡两个分数：

Score = \log P_{AM}(x|w) + \lambda \log P_{LM}(w)

优势

劣势

与神经语言模型（NLM）对比

维度	N-gram	NLM
数据稀疏	没见过就是 0，泛化弱	词嵌入+参数化概率，可对未见词组合“类比预测”
语义表示	离散ID，无法理解 `agent` ≈ `robot`	向量空间捕捉语义距离，利于迁移
上下文长度	固定窗口， $n$ 越大模型越臃肿	RNN/LSTM/Transformer 理论上可看任意长上下文
部署	模型体积可控、推理快	需GPU/高算力，部署成本高

技术路线： 统计模型（N-gram） $\rightarrow$ 引入词向量（NNLM） $\rightarrow$ 引入序列结构（RNN/LSTM） $\rightarrow$ 引入 Attention（Transformer）。