大模型,架构,DeepSeek,LLM
LLM Architecture Gallery:主流大模型架构可视化对比
AI 搜索 • ai_insider 发表了文章 • 0 个评论 • 25 次浏览 • 1 小时前
LLM Architecture Gallery:主流大模型架构可视化对比
本文整理自 Sebastian Raschka 的 LLM Architecture Gallery,为研究者和工程师提供清晰的大模型架构参考。
概述
随着开源大语言模型(LLM)生态的快速发展,理解不同模型的架构差异变得越来越重要。Sebastian Raschka 维护的 LLM Architecture Gallery 收集了主流开源模型的架构图和技术规格,帮助开发者快速对比不同模型的设计选择。
项目地址:https://sebastianraschka.com/llm-architecture-gallery/
主要模型架构对比
DeepSeek-V3 / R1
- 规模: 671B 总参数,37B 激活参数
- 架构: 稀疏 MoE(Mixture of Experts)
- 注意力机制: MLA(Multi-head Latent Attention)
- 关键特性:
- 使用密集前缀(dense prefix)+ 共享专家(shared expert)
- 在推理时保持大模型性能的同时降低计算成本
OLMo 2
- 规模: 7B 参数
- 架构: Dense Decoder
- 注意力机制: MHA with QK-Norm
- 关键特性:
- 使用残差内后归一化(inside-residual post-norm)
- 不同于传统的预归一化(pre-norm)布局
Llama 3
- 规模: 8B 参数
- 架构: Dense Decoder
- 注意力机制: GQA(Grouped Query Attention)with RoPE
- 关键特性:
- 作为预归一化基线模型
- 在相似规模下比 OLMo 2 更宽
架构设计趋势
1. MoE 成为大模型标配
DeepSeek-V3/R1 的成功证明了稀疏 MoE 架构的可行性。通过路由机制选择性地激活部分专家网络,MoE 模型可以在保持推理效率的同时显著扩展模型容量。
2. 注意力机制演进
- GQA(Grouped Query Attention): 减少 KV 缓存,提升推理效率
- MLA(Multi-head Latent Attention): DeepSeek 提出的压缩注意力机制
- QK-Norm: 稳定训练过程的查询-键归一化
3. 归一化策略多样化
从传统的 Pre-Norm 到 OLMo 2 的 Post-Norm,不同模型在归一化位置的选择上各有取舍,反映了训练稳定性和模型性能之间的权衡。
对搜索系统的启示
这些架构创新对构建 AI 搜索系统具有重要参考价值:
- 推理效率优化: GQA 和 MLA 等机制可以显著降低检索时的延迟
- 模型压缩: MoE 的路由机制启发了检索系统的分层索引设计
- 多模态扩展: 统一的架构设计便于集成文本、图像等多种模态的编码器
参考资源
来源: Sebastian Raschka's LLM Architecture Gallery (2026-03-15 更新)
LLM Architecture Gallery:主流大模型架构可视化对比
AI 搜索 • ai_insider 发表了文章 • 0 个评论 • 25 次浏览 • 1 小时前
LLM Architecture Gallery:主流大模型架构可视化对比
本文整理自 Sebastian Raschka 的 LLM Architecture Gallery,为研究者和工程师提供清晰的大模型架构参考。
概述
随着开源大语言模型(LLM)生态的快速发展,理解不同模型的架构差异变得越来越重要。Sebastian Raschka 维护的 LLM Architecture Gallery 收集了主流开源模型的架构图和技术规格,帮助开发者快速对比不同模型的设计选择。
项目地址:https://sebastianraschka.com/llm-architecture-gallery/
主要模型架构对比
DeepSeek-V3 / R1
- 规模: 671B 总参数,37B 激活参数
- 架构: 稀疏 MoE(Mixture of Experts)
- 注意力机制: MLA(Multi-head Latent Attention)
- 关键特性:
- 使用密集前缀(dense prefix)+ 共享专家(shared expert)
- 在推理时保持大模型性能的同时降低计算成本
OLMo 2
- 规模: 7B 参数
- 架构: Dense Decoder
- 注意力机制: MHA with QK-Norm
- 关键特性:
- 使用残差内后归一化(inside-residual post-norm)
- 不同于传统的预归一化(pre-norm)布局
Llama 3
- 规模: 8B 参数
- 架构: Dense Decoder
- 注意力机制: GQA(Grouped Query Attention)with RoPE
- 关键特性:
- 作为预归一化基线模型
- 在相似规模下比 OLMo 2 更宽
架构设计趋势
1. MoE 成为大模型标配
DeepSeek-V3/R1 的成功证明了稀疏 MoE 架构的可行性。通过路由机制选择性地激活部分专家网络,MoE 模型可以在保持推理效率的同时显著扩展模型容量。
2. 注意力机制演进
- GQA(Grouped Query Attention): 减少 KV 缓存,提升推理效率
- MLA(Multi-head Latent Attention): DeepSeek 提出的压缩注意力机制
- QK-Norm: 稳定训练过程的查询-键归一化
3. 归一化策略多样化
从传统的 Pre-Norm 到 OLMo 2 的 Post-Norm,不同模型在归一化位置的选择上各有取舍,反映了训练稳定性和模型性能之间的权衡。
对搜索系统的启示
这些架构创新对构建 AI 搜索系统具有重要参考价值:
- 推理效率优化: GQA 和 MLA 等机制可以显著降低检索时的延迟
- 模型压缩: MoE 的路由机制启发了检索系统的分层索引设计
- 多模态扩展: 统一的架构设计便于集成文本、图像等多种模态的编码器
参考资源
来源: Sebastian Raschka's LLM Architecture Gallery (2026-03-15 更新)