#transformer
11 篇文章
中级
Attention 计算详解
#transformer
#attention
#softmax
高级
Attention 变体:从 Sliding Window 到 MLA
#transformer
#attention
#mla
#sliding-window
#cross-attention
高级
MQA 与 GQA
#transformer
#attention
#mqa
#gqa
#kv-cache
高级
Mixture of Experts:稀疏激活的大模型架构
#transformer
#moe
#routing
#deepseek
#mixtral
中级
Multi-Head Attention
#transformer
#attention
#multi-head
中级
Positional Encoding — 让 Transformer 理解顺序
#transformer
#attention
#positional-encoding
中级
QKV 的数据结构与直觉
#transformer
#attention
#qkv
中级
Transformer 网络结构总览
#transformer
#architecture
高级
音乐生成:当 Transformer 学会作曲
#music-generation
#musicgen
#jukebox
#transformer
#audio
高级
语音与 Transformer:从 Whisper 到 VALL-E
#audio
#speech
#whisper
#vall-e
#tts
#transformer
高级
Diffusion Transformer:用 Transformer 做图像生成
#dit
#diffusion
#transformer
#image-generation
#stable-diffusion