LLM Architecture Gallery：主流大模型架构可视化对比

AI 搜索 • ai_insider 发表了文章 • 0 个评论 • 25 次浏览 • 1 小时前 • 来自相关话题

LLM Architecture Gallery：主流大模型架构可视化对比

本文整理自 Sebastian Raschka 的 LLM Architecture Gallery，为研究者和工程师提供清晰的大模型架构参考。

概述

随着开源大语言模型（LLM）生态的快速发展，理解不同模型的架构差异变得越来越重要。Sebastian Raschka 维护的 LLM Architecture Gallery 收集了主流开源模型的架构图和技术规格，帮助开发者快速对比不同模型的设计选择。

项目地址：https://sebastianraschka.com/llm-architecture-gallery/

主要模型架构对比

DeepSeek-V3 / R1

规模: 671B 总参数，37B 激活参数
架构: 稀疏 MoE（Mixture of Experts）
注意力机制: MLA（Multi-head Latent Attention）
关键特性:
- 使用密集前缀（dense prefix）+ 共享专家（shared expert）
- 在推理时保持大模型性能的同时降低计算成本

OLMo 2

规模: 7B 参数
架构: Dense Decoder
注意力机制: MHA with QK-Norm
关键特性:
- 使用残差内后归一化（inside-residual post-norm）
- 不同于传统的预归一化（pre-norm）布局

Llama 3

规模: 8B 参数
架构: Dense Decoder
注意力机制: GQA（Grouped Query Attention）with RoPE
关键特性:
- 作为预归一化基线模型
- 在相似规模下比 OLMo 2 更宽

架构设计趋势

1. MoE 成为大模型标配

DeepSeek-V3/R1 的成功证明了稀疏 MoE 架构的可行性。通过路由机制选择性地激活部分专家网络，MoE 模型可以在保持推理效率的同时显著扩展模型容量。

2. 注意力机制演进

GQA（Grouped Query Attention）: 减少 KV 缓存，提升推理效率
MLA（Multi-head Latent Attention）: DeepSeek 提出的压缩注意力机制
QK-Norm: 稳定训练过程的查询-键归一化

3. 归一化策略多样化

从传统的 Pre-Norm 到 OLMo 2 的 Post-Norm，不同模型在归一化位置的选择上各有取舍，反映了训练稳定性和模型性能之间的权衡。

对搜索系统的启示

这些架构创新对构建 AI 搜索系统具有重要参考价值：

推理效率优化: GQA 和 MLA 等机制可以显著降低检索时的延迟
模型压缩: MoE 的路由机制启发了检索系统的分层索引设计
多模态扩展: 统一的架构设计便于集成文本、图像等多种模态的编码器

参考资源

来源: Sebastian Raschka's LLM Architecture Gallery (2026-03-15 更新)

概述

主要模型架构对比

DeepSeek-V3 / R1

规模: 671B 总参数，37B 激活参数

架构: 稀疏 MoE（Mixture of Experts）

注意力机制: MLA（Multi-head Latent Attention）

关键特性:

使用密集前缀（dense prefix）+ 共享专家（shared expert）
在推理时保持大模型性能的同时降低计算成本

OLMo 2

规模: 7B 参数

架构: Dense Decoder

注意力机制: MHA with QK-Norm

关键特性:

使用残差内后归一化（inside-residual post-norm）
不同于传统的预归一化（pre-norm）布局

Llama 3

规模: 8B 参数

架构: Dense Decoder

注意力机制: GQA（Grouped Query Attention）with RoPE

关键特性:

作为预归一化基线模型
在相似规模下比 OLMo 2 更宽

架构设计趋势

1. MoE 成为大模型标配

DeepSeek-V3/R1 的成功证明了稀疏 MoE 架构的可行性。通过路由机制选择性地激活部分专家网络，MoE 模型可以在保持推理效率的同时显著扩展模型容量。

2. 注意力机制演进

GQA（Grouped Query Attention）: 减少 KV 缓存，提升推理效率

MLA（Multi-head Latent Attention）: DeepSeek 提出的压缩注意力机制

QK-Norm: 稳定训练过程的查询-键归一化

3. 归一化策略多样化

从传统的 Pre-Norm 到 OLMo 2 的 Post-Norm，不同模型在归一化位置的选择上各有取舍，反映了训练稳定性和模型性能之间的权衡。

对搜索系统的启示

这些架构创新对构建 AI 搜索系统具有重要参考价值：

推理效率优化: GQA 和 MLA 等机制可以显著降低检索时的延迟

模型压缩: MoE 的路由机制启发了检索系统的分层索引设计

多模态扩展: 统一的架构设计便于集成文本、图像等多种模态的编码器

大模型,架构,DeepSeek,LLM

LLM Architecture Gallery：主流大模型架构可视化对比

LLM Architecture Gallery：主流大模型架构可视化对比

概述

主要模型架构对比

DeepSeek-V3 / R1

OLMo 2

Llama 3

架构设计趋势

1. MoE 成为大模型标配

2. 注意力机制演进

3. 归一化策略多样化

对搜索系统的启示

参考资源

LLM Architecture Gallery：主流大模型架构可视化对比

LLM Architecture Gallery：主流大模型架构可视化对比

概述

主要模型架构对比

DeepSeek-V3 / R1

OLMo 2

Llama 3

架构设计趋势

1. MoE 成为大模型标配

2. 注意力机制演进

3. 归一化策略多样化

对搜索系统的启示

参考资源

话题描述

活动推荐

相关话题

1 人关注该话题