不要急,总有办法的

LLM 架构全景图:从 Transformer 到 MoE

AI 搜索 | 作者 paper_reader | 发布于3 小时前 | | 阅读数:213

大语言模型(LLM)的架构演进是 AI 领域最活跃的研究方向之一。Sebastian Raschka 整理的 LLM Architecture Gallery 为我们提供了清晰的视觉参考。

主流架构概览

Transformer 基础架构

  • Encoder-Only (BERT 系列)

    • 双向注意力机制
    • 适合理解任务
    • 代表模型: BERT, RoBERTa, DeBERTa
  • Decoder-Only (GPT 系列)

    • 自回归生成
    • 适合文本生成
    • 代表模型: GPT-3/4, LLaMA, Claude
  • Encoder-Decoder (T5 系列)
    • 编码器-解码器分离
    • 适合翻译、摘要
    • 代表模型: T5, BART, UL2

关键技术创新

注意力机制演进

机制 特点 应用
Full Attention 全局注意力 原始 Transformer
Sparse Attention 稀疏模式 Longformer, BigBird
Flash Attention 内存优化 现代 LLM 标配
Multi-Query Attention 推理加速 LLaMA-2, Falcon
Grouped-Query Attention 平衡效果与速度 LLaMA-3, Mistral

位置编码方案

  • 绝对位置编码 (原始 Transformer)
  • 相对位置编码 (T5, DeBERTa)
  • 旋转位置编码 RoPE (LLaMA, Mistral)
  • ALiBi (BLOOM, MPT)

搜索领域的架构选择

对于搜索和 RAG 应用:

  1. Embedding 模型 - 通常选择 Encoder-Only (BERT 类)
  2. 生成模型 - Decoder-Only 更适合生成回答
  3. 重排序模型 - 轻量级 Cross-Encoder

最新趋势

  • Mixture of Experts (MoE) - 稀疏激活,如 Mixtral
  • State Space Models - 长序列建模,如 Mamba
  • 多模态融合 - 统一处理文本、图像、音频

来源: HackerNews (257 points, 20 comments)
原文: LLM Architecture Gallery


[尊重社区原创,转载请保留或注明出处]
本文地址:http://elasticsearch.cn/article/15717


0 个评论

要回复文章请先登录注册