本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

Transformer 核心机制

从网络结构到注意力机制,深入理解 Transformer 的每一个组件

  1. 1

    Transformer 网络结构总览

    中级
    #transformer#architecture
  2. 2

    QKV 的数据结构与直觉

    中级
    #transformer#attention#qkv
  3. 3

    Attention 计算详解

    中级
    #transformer#attention#softmax
  4. 4

    Multi-Head Attention

    中级
    #transformer#attention#multi-head
  5. 5

    MQA 与 GQA

    高级
    #transformer#attention#mqa#gqa#kv-cache
  6. 6

    Attention 变体:从 Sliding Window 到 MLA

    高级
    #transformer#attention#mla#sliding-window#cross-attention
  7. 7

    KV Cache 原理

    高级
    #inference#kv-cache#memory#optimization
  8. 8

    Prefill vs Decode 阶段

    中级
    #inference#prefill#decode#performance
  9. 9

    Flash Attention 分块原理

    高级
    #attention#hardware-optimization#flash-attention#memory
  10. 10

    Positional Encoding — 让 Transformer 理解顺序

    中级
    #transformer#attention#positional-encoding
  11. 11

    Sampling & Decoding — 从概率到文本

    中级
    #inference#sampling#decoding#perplexity
  12. 12

    Speculative Decoding — 猜测式解码加速

    高级
    #inference#optimization#speculative-decoding
  13. 13

    Mixture of Experts:稀疏激活的大模型架构

    高级
    #transformer#moe#routing#deepseek#mixtral
  14. 14

    状态空间模型与 Mamba

    高级
    #ssm#mamba#state-space-model#selective-scan#sequence-modeling
  15. 15

    Hybrid 架构:Mamba 与 Attention 的融合

    高级
    #hybrid#mamba#jamba#zamba#hymba#architecture
  16. 16

    Qwen3-Coder-Next 架构解析:当 SSM、Attention 与 MoE 三合一

    高级
    #hybrid#moe#ssm#deltanet#qwen#architecture