Transformer 核心机制
从网络结构到注意力机制,深入理解 Transformer 的每一个组件
- 1
Transformer 网络结构总览
中级#transformer#architecture - 2
QKV 的数据结构与直觉
中级#transformer#attention#qkv - 3
Attention 计算详解
中级#transformer#attention#softmax - 4
Multi-Head Attention
中级#transformer#attention#multi-head - 5
MQA 与 GQA
高级#transformer#attention#mqa#gqa#kv-cache - 6
Attention 变体:从 Sliding Window 到 MLA
高级#transformer#attention#mla#sliding-window#cross-attention - 7
KV Cache 原理
高级#inference#kv-cache#memory#optimization - 8
Prefill vs Decode 阶段
中级#inference#prefill#decode#performance - 9
Flash Attention 分块原理
高级#attention#hardware-optimization#flash-attention#memory - 10
Positional Encoding — 让 Transformer 理解顺序
中级#transformer#attention#positional-encoding - 11
Sampling & Decoding — 从概率到文本
中级#inference#sampling#decoding#perplexity - 12
Speculative Decoding — 猜测式解码加速
高级#inference#optimization#speculative-decoding - 13
Mixture of Experts:稀疏激活的大模型架构
高级#transformer#moe#routing#deepseek#mixtral - 14
状态空间模型与 Mamba
高级#ssm#mamba#state-space-model#selective-scan#sequence-modeling - 15
Hybrid 架构:Mamba 与 Attention 的融合
高级#hybrid#mamba#jamba#zamba#hymba#architecture - 16
Qwen3-Coder-Next 架构解析:当 SSM、Attention 与 MoE 三合一
高级#hybrid#moe#ssm#deltanet#qwen#architecture