图编译与优化
深入 ML 编译器的核心:从计算图捕获到优化执行的完整旅程。 双主线覆盖 PyTorch 2.0(torch.compile / TorchInductor / Triton)和 MLIR(Dialect 体系 / Progressive Lowering)。 前置路径:AI 计算栈。
- 1
全景图:ML 编译器的世界
中级#compiler#pytorch#mlir#triton#optimization - 2
计算图捕获:TorchDynamo、AOTAutograd 与 Functionalization
高级#compiler#pytorch#torchdynamo#aotautograd#fx-graph - 3
IR 设计(上):SSA、FX IR 与 MLIR Dialect
高级#compiler#ir#ssa#pytorch#mlir#fx-graph#dialect - 4
IR 设计(下):Progressive Lowering 与多层 IR
高级#compiler#mlir#progressive-lowering#dialect-conversion#bufferization - 5
图优化 Pass(上):数据流分析基础与通用 Pass 模式
高级#compiler#optimization#pass#dataflow-analysis#dce#cse - 6
图优化 Pass(中):高级优化与 Pattern Matching
高级#compiler#optimization#layout#pattern-matching#memory-planning - 7
图优化 Pass(下):Polyhedral 优化与循环变换
高级#compiler#polyhedral#loop-optimization#affine#mlir#tiling - 8
算子融合(上):融合类型学与判定算法
高级#compiler#fusion#operator-fusion#kernel-fusion#optimization - 9
算子融合(下):Cost Model 与融合实战
高级#compiler#fusion#cost-model#flash-attention#inductor#optimization - 10
Tiling 策略与内存层次优化
高级#compiler#tiling#memory-hierarchy#gpu#shared-memory#optimization - 11
Dynamic Shapes:从捕获到执行的全链路挑战
高级#compiler#dynamic-shapes#symbolic-shapes#guards#bucketing#pytorch - 12
代码生成(上):指令选择、Vectorization 与 Register Allocation
高级#compiler#codegen#instruction-selection#vectorization#register-allocation#gpu - 13
代码生成(下):Triton Pipeline、编译器后端与数值正确性
高级#compiler#codegen#triton#llvm#ptx#numerical-accuracy#backends - 14
量化编译与混合精度优化
高级#compiler#quantization#mixed-precision#kernel-generation#fusion - 15
分布式编译与图分割
高级#compiler#distributed#tensor-parallel#pipeline-parallel#gspmd#sharding#communication - 16
调度与执行优化
高级#compiler#scheduling#cuda-stream#cuda-graph#memory-planning#activation-checkpointing#multi-backend - 17
自动调优与端到端实战
高级#compiler#autotuning#triton#mlir#transform-dialect#end-to-end#torch-compile