#attention
9 篇文章
中级
Attention 计算详解
#transformer
#attention
#softmax
高级
Attention 变体:从 Sliding Window 到 MLA
#transformer
#attention
#mla
#sliding-window
#cross-attention
高级
Flash Attention 分块原理
#attention
#hardware-optimization
#flash-attention
#memory
高级
MQA 与 GQA
#transformer
#attention
#mqa
#gqa
#kv-cache
中级
Multi-Head Attention
#transformer
#attention
#multi-head
中级
Positional Encoding — 让 Transformer 理解顺序
#transformer
#attention
#positional-encoding
中级
QKV 的数据结构与直觉
#transformer
#attention
#qkv
高级
NPU 执行模型与编程模型的边界
#intel
#npu
#execution-model
#dma
#tiling
#attention
#programming-model
#cute
高级
Attention 的低秩结构与 Efficient Attention
#matrix-math
#attention
#low-rank
#linformer
#performer
#efficient-attention
#kernel