大模型架构演变:从n-gram到Transformer的双雄争霸与融合
在人工智能的宏大叙事中,大语言模型(LLM)的崛起无疑是近年来最激动人心的篇章。从最初笨拙的统计模型到如今能写诗、编程、推理的智能体,这场技术革命并非一蹴而就,而是一场关于“如何理解语言”的深刻探索。
我们就来梳理这条从统计概率到神经网络,再到Transformer架构分化,直至2026年形成“一超多强”格局的演进之路。
统计时代的基石:n-gram模型
在深度学习尚未统治自然语言处理(NLP)领域的时代,语言模型主要依赖于统计学方法。其中最经典的就是n-gram模型。它的核心思想非常直观:一个词出现的概率,仅取决于它前面的n-1个词。
例如,在二元模型(Bigram)中,要预测句子“我爱人工…”后面的词,模型只关注“人工”这个词,计算P(智能|人工)的概率。这种方法简单有效,曾广泛应用于早期的机器翻译和输入法联想中。然而,n-gram有着天然的缺陷:它无法捕捉长距离的依赖关系(比如“我出生在法国,…我会说流利的法语”中,“法国”与“法语”的关联),且面临着严重的数据稀疏问题——只要语料库中没出现过的词组,概率就是零。
我们可以用一段简单的Python代码来模拟n-gram的统计过程:
1 | from collections import Counter, defaultdict |
神经网络的觉醒:从Word2Vec到RNN
随着计算能力的提升,研究者们开始尝试用神经网络来建模语言。2003年,Bengio提出了神经概率语言模型,首次将神经网络引入语言建模。随后,2013年Google推出的Word2Vec更是里程碑式的突破,它将词语映射为稠密的向量(词嵌入),使得“国王 - 男人 + 女人 ≈ 女王”这样的语义运算成为可能。
这一时期,循环神经网络(RNN)及其变体LSTM、GRU成为了主流。与n-gram不同,RNN具有“记忆”功能,能够按顺序读取句子中的每一个词,并将之前的信息传递给下一个时刻。这使得模型能够理解上下文语境,解决了n-gram无法处理长距离依赖的问题。但RNN也有其痛点:由于必须按顺序处理序列,训练速度难以并行化,且当句子过长时,早期的信息容易在传递过程中丢失(梯度消失)。
我们可以用TensorFlow/Keras构建一个简单的RNN语言模型:
1 | import tensorflow as tf |
2017年的奇点:Transformer架构诞生
2017年,Google的一篇论文《Attention Is All You Need》彻底改变了游戏规则。作者提出了Transformer架构,它完全抛弃了循环结构,转而完全依赖“自注意力机制”(Self-Attention)。
Transformer就像一个精密的工厂,包含两个主要部分:
- 编码器(Encoder): 负责“阅读理解”。它并行地读取整个输入句子,分析词与词之间的关系,生成包含丰富语义的向量表示。
- 解码器(Decoder): 负责“文本生成”。它基于编码器提供的信息,逐词地预测下一个字,直到生成完整的句子。
这一架构不仅极大地提升了训练效率(支持并行计算),还能更好地捕捉长距离的上下文依赖。核心在于“缩放点积注意力”,其数学公式如下:
我们可以用PyTorch实现这个核心的注意力机制:
1 | import torch |
谷歌的“理解”之路:Encoder与BERT
谷歌的研究人员敏锐地发现,Transformer的编码器部分在“理解”文本方面具有惊人的潜力。2018年,他们推出了BERT(Bidirectional Encoder Representations from Transformers)。
BERT只使用了Transformer的编码器部分。它的核心创新在于“双向”注意力。在阅读一句话时,BERT能同时看到词的左边和右边,从而获得完整的上下文信息。为了训练这种能力,谷歌采用了“完形填空”式的策略(掩码语言模型),即遮住句子中的某些词,让模型去预测它们。
这使得BERT在文本分类、情感分析、命名实体识别等“理解类”任务上取得了前所未有的成绩,成为了当时NLP领域的霸主。
使用Hugging Face Transformers库调用BERT进行推理非常简单:
1 | from transformers import BertTokenizer, BertModel |
OpenAI的“生成”之道:Decoder与GPT
与此同时,OpenAI选择了另一条路。同样在2018年,他们发布了GPT(Generative Pre-trained Transformer)。与BERT不同,GPT只使用了Transformer的解码器部分。
解码器的设计初衷是生成文本,因此它采用了“因果注意力机制”。这意味着在预测下一个词时,它只能看到当前词之前的信息,而无法“偷看”后面的内容。这种单向的机制,使得GPT天生就是一个优秀的“续写者”。
虽然早期的GPT-1在理解任务上不如BERT,但OpenAI坚信“生成”是通往通用人工智能的关键。随着GPT-2、GPT-3的发布,通过不断扩大参数规模(从15亿到1750亿),人们惊讶地发现,当模型大到一定程度,单纯的语言生成能力涌现出了逻辑推理、代码编写等惊人的智能。
GPT的训练目标非常纯粹:最大化下一个词的概率。
2026年的格局:一超多强与架构融合
时间来到2026年,大模型领域已经形成了鲜明的“一超多强”格局。虽然Decoder-only架构在通用大模型领域占据了绝对统治地位,但其他架构并未消失,而是找到了自己独特的生态位。
Decoder-only的绝对统治
绝大多数你熟知的“聊天机器人”都是Decoder-only架构。代表模型包括GPT-4、Claude 3、Llama 3、Gemini(核心文本引擎)、Kimi、通义千问等。
这种架构之所以能赢,核心在于它最适合做“文字接龙”。无论是写代码、写诗、做数学题还是聊天,本质上都可以转化为“预测下一个字”的任务。这种架构最容易把模型做大,目前的“大力出奇迹”(Scaling Laws)主要都是在Decoder-only架构上验证的。同时,在生成内容时,它的推理速度更快,显存占用更优化(比如KV Cache技术)。
Encoder-Decoder的坚守与复兴
代表模型包括Google的T5系列、2025年推出的T5Gemma、BART等。
这种架构是Transformer的原始形态,它先把输入“压缩”理解(Encoder),再生成输出(Decoder)。在机器翻译、长文摘要等“输入和输出差异较大”或“需要高度压缩信息”的任务上,Encoder-Decoder往往比纯解码器表现更好。
有趣的是,就在2025年,Google推出了T5Gemma。实验证明,在某些推理任务(如数学GSM8K)上,将Gemma(Decoder-only)改造为Encoder-Decoder架构后,性能反而提升了9-12分。这说明在追求极致性能的特定领域,老架构依然有战斗力。
Encoder-only的幕后英雄
代表模型包括BERT、RoBERTa、以及各类Embedding模型(如BGE、M3E)。
它们并没有消失,而是变成了基础设施。当你用Kimi或ChatGPT的“联网搜索”功能时,系统通常不会直接用GPT去理解海量网页,而是先用BERT类的模型(Encoder-only)把你的问题变成向量,去数据库里快速检索相关内容(RAG技术)。判断邮件是不是垃圾邮件、分析评论是好评还是差评,这种“理解但不生成”的任务,依然是BERT的天下。
总结:现在的格局
为了让你更直观地理解,我做了一个简单的对比表:
| 架构类型 | 核心逻辑 | 典型代表 | 现在的角色 |
|---|---|---|---|
| Decoder-only | 续写 (预测下一个字) | GPT-4, Claude, Llama 3 | 全能主角:聊天、创作、推理、代码。 |
| Encoder-Decoder | 翻译/改写 (理解后生成) | T5, T5Gemma, Flan-T5 | 特种兵:翻译、摘要、特定高精度任务。 |
| Encoder-only | 理解 (提取特征) | BERT, BGE | 侦察兵:搜索、检索、分类、打标签。 |