LLM 架构画廊：开源大模型架构全景对比

March 16, 2026

本文翻译自 LLM Architecture Gallery，原载于 Hacker News。

引言

如果你曾困惑于各种开源大语言模型（LLM）之间的架构差异，Sebastian Raschka 整理的这个 LLM Architecture Gallery 绝对是一份宝藏资源。这个页面收集了来自《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》两篇文章的架构图和技术规格表，让我们能够一目了然地比较各种模型的架构选择。

更棒的是，你还可以通过 Zazzle 购买实体海报——上传版本基于 14570 x 12490 像素的高分辨率导出（56 MB PNG 文件，1.82 亿像素）。

架构分类概览

从这份画廊中，我们可以看到当前开源 LLM 的三大主要架构流派：

1. Dense Decoder（稠密解码器）

这是最传统的架构，代表模型包括：

模型	参数规模	关键特性
Llama（参考栈）	8B	GQA + RoPE，经典的 pre-norm 布局
OLMo 2	7B	MHA + QK-Norm，使用 inside-residual post-norm
Gemma 3	27B	GQA + QK-Norm，5:1 滑动窗口/全局注意力
Mistral Small 3.1	24B	标准 GQA，延迟优化设计
Qwen3 32B	32B	GQA + QK-Norm，作为 OLMo 3 的对比基准

💡 值得注意的是：OLMo 2 采用了一种不太常见的 post-norm 布局（inside-residual），而不是主流的 pre-norm。这种设计旨在提升训练稳定性。

2. Sparse MoE（稀疏混合专家）

MoE 架构已成为超大模型的主流选择，代表模型包括：

模型	总参数	激活参数	关键特性
DeepSeek V3	671B	37B	MLA 注意力，dense prefix + 共享专家
DeepSeek R1	671B	37B	架构同 V3，专注于推理训练
Meta Llama 4	400B	17B	GQA，交替 dense 和 MoE block
Qwen3-MoE	235B	22B	GQA + QK-Norm，无共享专家
Mistral Large 2	673B	41B	MLA，几乎复刻 DeepSeek V3
gpt-oss-20B	20B	3.6B	GQA + 交替滑动窗口/全局层
gpt-oss-120B	120B	-	与 20B 相同的注意力设计

DeepSeek V3 的架构创新值得一提：它采用 dense prefix（稠密前缀） 加上 shared expert（共享专家） 的设计，让超大规模模型在实际推理中保持可用性。这一设计后来被 Mistral Large 2 等模型广泛借鉴。

3. Hybrid Attention（混合注意力）

这是最新的架构趋势，将线性注意力与传统注意力结合：

模型	总参数	激活参数	混合比例
Qwen4	397B	17B	3:1 Gated DeltaNet / Gated Attention
Qwen3-Next	80B	3B	3:1 Gated DeltaNet / Gated Attention
Moonshot Kimi K2	1T	63B	Lightning Attention + MLA（7:1）
NVIDIA Nano	30B	3B	主要 Mamba-2，少量 GQA
NVIDIA Super	120B	12B	Mamba-2 + 潜在空间 MoE

🔥 趋势观察：混合架构正在成为新的主流。Qwen4 将原本 Qwen3-Next 的实验性设计变成了旗舰系列的核心架构，这标志着 DeltaNet 等线性注意力机制已经从实验走向生产。

关键技术点解析

注意力机制演进

从画廊中可以看出注意力机制的几个关键趋势：

GQA (Grouped-Query Attention) 已成为标准配置，在 KV Cache 效率和模型质量之间取得了良好平衡
MLA (Multi-Latent Attention) 被 DeepSeek 系列和后续模仿者（Mistral Large 2、GLM-4.8 等）采用，进一步压缩 KV Cache
QK-Norm 越来越普遍，用于稳定训练
滑动窗口注意力 在 Gemma 3、OLMo 3 等模型中被广泛应用，降低长序列的计算成本
NoPE（无位置编码） 开始在一些层中实验性使用，如 SmolLM3 每四层省略一次 RoPE

Normalization 布局之争

主流模型大多采用 pre-norm，但 Allen AI 的 OLMo 系列坚持使用 post-norm（inside-residual）。这提醒我们：架构选择并非只有一种正确答案，训练稳定性和最终性能可以通过不同的设计路径实现。

MoE 路由策略

DeepSeek V3 派系：dense prefix + 共享专家 + 稀疏专家
Qwen3-MoE：纯稀疏路由，无共享专家
GLM-4.7：采用 SwiGLU 路径作为”永久共享专家”

2026 年新趋势

从最新的模型发布可以看出几个有趣的趋势：

DeepSeek Sparse Attention：DeepSeek V4 和 GLM-4.8 都采用了这一技术，专门针对长上下文场景优化
线性注意力的崛起：DeltaNet、Lightning Attention 等线性复杂度注意力开始进入主流
Mamba-2 + MoE：NVIDIA 的 Nano/Super 系列展示了 state-space model 与 MoE 的结合潜力
多 token 预测（MTP）：在 xAI 的 Grok 3 Mini 和部分 Qwen 模型中用于提升推理吞吐量

实用建议

如果你在选择开源模型进行部署，这份画廊提供了很好的参考：

场景	推荐模型	原因
资源受限的推理	Mistral Small 3.1 (24B)	延迟优化，较少的 KV Cache
通用大模型	DeepSeek V3 / Qwen4	成熟的 MoE 设计，生态支持好
印地语等低资源语言	Sarvam 系列	专门的词汇表和训练数据
编程任务	Qwen3-Coder (230B)	经典稳定架构，10B 激活参数

总结

Sebastian Raschka 的这份 LLM 架构画廊为我们提供了一个独特的视角：开源 LLM 生态正在快速收敛到几种主流架构模式，同时也在边缘不断实验新的可能性。

关键要点：

MoE 已成超大模型标配：671B+ 的模型几乎全部采用 MoE，激活参数控制在 20-40B 左右
MLA 正在扩散：从 DeepSeek 到 Mistral、GLM，MLA 正在取代传统 GQA
混合注意力是未来：线性注意力 + 传统注意力的混合比例（如 3:1）正在成为新常态
架构趋同但不乏创新：大多数模型遵循 DeepSeek V3 的模板，但在专家大小、注意力类型等细节上各有创新

如果你对某个特定架构有更深入的兴趣，建议阅读 Sebastian 的原文，里面有每个模型的详细架构图和设计选择解释。

参考资料：