#intel
14 篇文章
中级
CUDA 编程模型 — 从代码到硬件
#gpu
#cuda
#programming
#simt
#simd
#intel
#sycl
高级
GEMM 优化 — 从 Naive 到极致
#gpu
#gemm
#cuda
#optimization
#tensor-core
#xmx
#intel
高级
性能分析与瓶颈诊断
#intel
#performance
#profiling
#roofline
#vtune
#bottleneck
中级
矩阵加速单元 — Tensor Core 与 XMX
#gpu
#tensor-core
#xmx
#systolic-array
#nvidia
#intel
高级
NPU 架构与 GPU+NPU 协同推理
#intel
#npu
#openvino
#hetero
#multi-device
#co-inference
高级
oneDNN GPU Kernel 优化
#intel
#onednn
#kernel-optimization
#gemm
#xmx
#mixed-precision
高级
oneDNN Primitive 体系
#intel
#onednn
#primitive
#memory-format
#operator-library
高级
OpenVINO 图优化 Pipeline
#intel
#openvino
#graph-optimization
#model-compilation
#plugin
高级
SPIR-V 编译与 Level Zero 运行时
#intel
#spirv
#level-zero
#compiler
#runtime
#jit
#aot
高级
Xe2 执行模型与编程抽象
#intel
#xe2
#simd
#sycl
#execution-model
#workgroup
高级
Xe2 GPU 架构
#intel
#xe2
#gpu-architecture
#igpu
#lunar-lake
#panther-lake
高级
NPU 执行模型与编程模型的边界
#intel
#npu
#execution-model
#dma
#tiling
#attention
#programming-model
#cute
高级
NPU 上的 LLM 推理:KV Cache 与软件栈
#intel
#npu
#llm
#kv-cache
#openvino
#npuw
#static-shape
中级
Intel 模型优化栈:Optimum Intel / NNCF / OpenVINO 三件套选型
#intel
#optimum
#nncf
#openvino
#quantization
#model-conversion