大模型演变

大模型架构演变：从n-gram到Transformer的双雄争霸与融合

在人工智能的宏大叙事中，大语言模型（LLM）的崛起无疑是近年来最激动人心的篇章。从最初笨拙的统计模型到如今能写诗、编程、推理的智能体，这场技术革命并非一蹴而就，而是一场关于“如何理解语言”的深刻探索。

我们就来梳理这条从统计概率到神经网络，再到Transformer架构分化，直至2026年形成“一超多强”格局的演进之路。

统计时代的基石：n-gram模型

在深度学习尚未统治自然语言处理（NLP）领域的时代，语言模型主要依赖于统计学方法。其中最经典的就是n-gram模型。它的核心思想非常直观：一个词出现的概率，仅取决于它前面的n-1个词。

例如，在二元模型（Bigram）中，要预测句子“我爱人工…”后面的词，模型只关注“人工”这个词，计算P(智能|人工)的概率。这种方法简单有效，曾广泛应用于早期的机器翻译和输入法联想中。然而，n-gram有着天然的缺陷：它无法捕捉长距离的依赖关系（比如“我出生在法国，…我会说流利的法语”中，“法国”与“法语”的关联），且面临着严重的数据稀疏问题——只要语料库中没出现过的词组，概率就是零。

我们可以用一段简单的Python代码来模拟n-gram的统计过程：

from collections import Counter, defaultdict

# 模拟一个简单的语料库
corpus = "I love artificial intelligence. I love coding."
words = corpus.split()

# 构建二元模型（Bigram）统计字典
bigram_model = defaultdict(list)
for i in range(len(words) - 1):
    current_word = words[i]
    next_word = words[i+1]
    bigram_model[current_word].append(next_word)

# 预测：给定 "love"，下一个词最可能是什么？
current_word = "love"
possible_next_words = bigram_model[current_word]
# 统计出现频率
prediction = Counter(possible_next_words).most_common(1)[0][0]

print(f"给定单词 '{current_word}'，模型预测下一个词是：'{prediction}'")
# 输出: 给定单词 'love'，模型预测下一个词是：'artificial'

神经网络的觉醒：从Word2Vec到RNN

随着计算能力的提升，研究者们开始尝试用神经网络来建模语言。2003年，Bengio提出了神经概率语言模型，首次将神经网络引入语言建模。随后，2013年Google推出的Word2Vec更是里程碑式的突破，它将词语映射为稠密的向量（词嵌入），使得“国王 - 男人 + 女人 ≈ 女王”这样的语义运算成为可能。

这一时期，循环神经网络（RNN）及其变体LSTM、GRU成为了主流。与n-gram不同，RNN具有“记忆”功能，能够按顺序读取句子中的每一个词，并将之前的信息传递给下一个时刻。这使得模型能够理解上下文语境，解决了n-gram无法处理长距离依赖的问题。但RNN也有其痛点：由于必须按顺序处理序列，训练速度难以并行化，且当句子过长时，早期的信息容易在传递过程中丢失（梯度消失）。

我们可以用TensorFlow/Keras构建一个简单的RNN语言模型：

import tensorflow as tf
from tensorflow.keras import layers

# 假设词汇表大小为10000，词向量维度为128
vocab_size = 10000
embedding_dim = 128
rnn_units = 256

model = tf.keras.Sequential([
    # 1. 将单词索引转换为稠密向量
    layers.Embedding(input_dim=vocab_size, output_dim=embedding_dim),
    # 2. RNN层，处理序列信息
    layers.SimpleRNN(rnn_units, return_sequences=True),
    # 3. 输出层，预测下一个词的概率分布
    layers.Dense(vocab_size)
])

# 定义损失函数：稀疏分类交叉熵
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

model.compile(optimizer='adam', loss=loss_fn)
print("RNN模型构建完成，准备接收序列数据...")

2017年的奇点：Transformer架构诞生

2017年，Google的一篇论文《Attention Is All You Need》彻底改变了游戏规则。作者提出了Transformer架构，它完全抛弃了循环结构，转而完全依赖“自注意力机制”（Self-Attention）。

Transformer就像一个精密的工厂，包含两个主要部分：

编码器（Encoder）： 负责“阅读理解”。它并行地读取整个输入句子，分析词与词之间的关系，生成包含丰富语义的向量表示。
解码器（Decoder）： 负责“文本生成”。它基于编码器提供的信息，逐词地预测下一个字，直到生成完整的句子。

这一架构不仅极大地提升了训练效率（支持并行计算），还能更好地捕捉长距离的上下文依赖。核心在于“缩放点积注意力”，其数学公式如下：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

我们可以用PyTorch实现这个核心的注意力机制：

import torch
import torch.nn as nn
import math

class ScaledDotProductAttention(nn.Module):
    def forward(self, query, key, value, mask=None):
        # Q, K, V 的维度: [batch_size, seq_len, d_model]
        d_k = query.size(-1)
        
        # 1. 矩阵乘法 Q * K^T
        scores = torch.matmul(query, key.transpose(-2, -1))
        
        # 2. 缩放 (除以根号dk)，防止点积过大导致梯度消失
        scores = scores / math.sqrt(d_k)
        
        # 3. 如果有掩码（例如解码器不能看后面），应用掩码
        if mask is not None:
            scores = scores.masked_fill(mask == 0, -1e9)
        
        # 4. Softmax 归一化，得到注意力权重
        attention_weights = torch.softmax(scores, dim=-1)
        
        # 5. 加权求和 V
        output = torch.matmul(attention_weights, value)
        return output, attention_weights

# 模拟输入数据
batch_size, seq_len, d_model = 2, 10, 512
query = torch.randn(batch_size, seq_len, d_model)
key = torch.randn(batch_size, seq_len, d_model)
value = torch.randn(batch_size, seq_len, d_model)

attention = ScaledDotProductAttention()
output, weights = attention(query, key, value)
print(f"注意力机制输出维度: {output.shape}")

谷歌的“理解”之路：Encoder与BERT

谷歌的研究人员敏锐地发现，Transformer的编码器部分在“理解”文本方面具有惊人的潜力。2018年，他们推出了BERT（Bidirectional Encoder Representations from Transformers）。

BERT只使用了Transformer的编码器部分。它的核心创新在于“双向”注意力。在阅读一句话时，BERT能同时看到词的左边和右边，从而获得完整的上下文信息。为了训练这种能力，谷歌采用了“完形填空”式的策略（掩码语言模型），即遮住句子中的某些词，让模型去预测它们。

这使得BERT在文本分类、情感分析、命名实体识别等“理解类”任务上取得了前所未有的成绩，成为了当时NLP领域的霸主。

使用Hugging Face Transformers库调用BERT进行推理非常简单：

from transformers import BertTokenizer, BertModel
import torch

# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

text = "I love artificial intelligence."

# 1. 分词并转换为Tensor
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# 2. 输入模型，获取输出
with torch.no_grad():
    outputs = model(**inputs)

# last_hidden_state 包含了输入序列中每个token的上下文表示
print(f"输入序列长度: {inputs['input_ids'].shape[1]}")
print(f"上下文表示维度: {outputs.last_hidden_state.shape}")

OpenAI的“生成”之道：Decoder与GPT

与此同时，OpenAI选择了另一条路。同样在2018年，他们发布了GPT（Generative Pre-trained Transformer）。与BERT不同，GPT只使用了Transformer的解码器部分。

解码器的设计初衷是生成文本，因此它采用了“因果注意力机制”。这意味着在预测下一个词时，它只能看到当前词之前的信息，而无法“偷看”后面的内容。这种单向的机制，使得GPT天生就是一个优秀的“续写者”。

虽然早期的GPT-1在理解任务上不如BERT，但OpenAI坚信“生成”是通往通用人工智能的关键。随着GPT-2、GPT-3的发布，通过不断扩大参数规模（从15亿到1750亿），人们惊讶地发现，当模型大到一定程度，单纯的语言生成能力涌现出了逻辑推理、代码编写等惊人的智能。

GPT的训练目标非常纯粹：最大化下一个词的概率。

$P(y|x) = \prod_{i=1}^{N} P(y_i | y_{<i}, x)$

2026年的格局：一超多强与架构融合

时间来到2026年，大模型领域已经形成了鲜明的“一超多强”格局。虽然Decoder-only架构在通用大模型领域占据了绝对统治地位，但其他架构并未消失，而是找到了自己独特的生态位。

Decoder-only的绝对统治

绝大多数你熟知的“聊天机器人”都是Decoder-only架构。代表模型包括GPT-4、Claude 3、Llama 3、Gemini（核心文本引擎）、Kimi、通义千问等。

这种架构之所以能赢，核心在于它最适合做“文字接龙”。无论是写代码、写诗、做数学题还是聊天，本质上都可以转化为“预测下一个字”的任务。这种架构最容易把模型做大，目前的“大力出奇迹”（Scaling Laws）主要都是在Decoder-only架构上验证的。同时，在生成内容时，它的推理速度更快，显存占用更优化（比如KV Cache技术）。

Encoder-Decoder的坚守与复兴

代表模型包括Google的T5系列、2025年推出的T5Gemma、BART等。

这种架构是Transformer的原始形态，它先把输入“压缩”理解（Encoder），再生成输出（Decoder）。在机器翻译、长文摘要等“输入和输出差异较大”或“需要高度压缩信息”的任务上，Encoder-Decoder往往比纯解码器表现更好。

有趣的是，就在2025年，Google推出了T5Gemma。实验证明，在某些推理任务（如数学GSM8K）上，将Gemma（Decoder-only）改造为Encoder-Decoder架构后，性能反而提升了9-12分。这说明在追求极致性能的特定领域，老架构依然有战斗力。

Encoder-only的幕后英雄

代表模型包括BERT、RoBERTa、以及各类Embedding模型（如BGE、M3E）。

它们并没有消失，而是变成了基础设施。当你用Kimi或ChatGPT的“联网搜索”功能时，系统通常不会直接用GPT去理解海量网页，而是先用BERT类的模型（Encoder-only）把你的问题变成向量，去数据库里快速检索相关内容（RAG技术）。判断邮件是不是垃圾邮件、分析评论是好评还是差评，这种“理解但不生成”的任务，依然是BERT的天下。

总结：现在的格局

为了让你更直观地理解，我做了一个简单的对比表：

架构类型	核心逻辑	典型代表	现在的角色
Decoder-only	续写 (预测下一个字)	GPT-4, Claude, Llama 3	全能主角：聊天、创作、推理、代码。
Encoder-Decoder	翻译/改写 (理解后生成)	T5, T5Gemma, Flan-T5	特种兵：翻译、摘要、特定高精度任务。
Encoder-only	理解 (提取特征)	BERT, BGE	侦察兵：搜索、检索、分类、打标签。