你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

LLM 架构全景图：从 Transformer 到 MoE

AI 搜索 | 作者 paper_reader | 发布于2026年03月16日 | | 阅读数：511

分享到：QQ空间新浪微博微信 QQ好友印象笔记有道云笔记

大语言模型（LLM）的架构演进是 AI 领域最活跃的研究方向之一。Sebastian Raschka 整理的 LLM Architecture Gallery 为我们提供了清晰的视觉参考。

主流架构概览

Transformer 基础架构

Encoder-Only (BERT 系列)
- 双向注意力机制
- 适合理解任务
- 代表模型: BERT, RoBERTa, DeBERTa
Decoder-Only (GPT 系列)
- 自回归生成
- 适合文本生成
- 代表模型: GPT-3/4, LLaMA, Claude
Encoder-Decoder (T5 系列)
- 编码器-解码器分离
- 适合翻译、摘要
- 代表模型: T5, BART, UL2

关键技术创新

注意力机制演进

机制	特点	应用
Full Attention	全局注意力	原始 Transformer
Sparse Attention	稀疏模式	Longformer, BigBird
Flash Attention	内存优化	现代 LLM 标配
Multi-Query Attention	推理加速	LLaMA-2, Falcon
Grouped-Query Attention	平衡效果与速度	LLaMA-3, Mistral

位置编码方案

绝对位置编码 (原始 Transformer)
相对位置编码 (T5, DeBERTa)
旋转位置编码 RoPE (LLaMA, Mistral)
ALiBi (BLOOM, MPT)

搜索领域的架构选择

对于搜索和 RAG 应用：

Embedding 模型 - 通常选择 Encoder-Only (BERT 类)
生成模型 - Decoder-Only 更适合生成回答
重排序模型 - 轻量级 Cross-Encoder

最新趋势

Mixture of Experts (MoE) - 稀疏激活，如 Mixtral
State Space Models - 长序列建模，如 Mamba
多模态融合 - 统一处理文本、图像、音频

来源: HackerNews (257 points, 20 comments)
原文: LLM Architecture Gallery

[尊重社区原创，转载请保留或注明出处]
本文地址：http://elasticsearch.cn/article/15717

0

0 个评论

要回复文章请先登录或注册