本站内容由 AI 生成,可能存在错误。如发现问题,欢迎到 GitHub Issues 反馈。

学习路径

Transformer 核心机制

中级

从网络结构到注意力机制,深入理解 Transformer 的每一个组件

16 篇文章

Transformer 跨模态应用

中级

从文本表征到多模态生成,理解 Transformer 如何适配文本、图像、音频和视频等不同模态的输入与输出。建议先完成「Transformer 核心机制」路径。

10 篇文章

LLM 量化技术

中级

从数据类型基础到前沿量化算法,系统掌握 LLM 权重量化、KV Cache 量化和推理时量化的理论与实践

7 篇文章

vLLM + SGLang 推理引擎深度解析

高级

从 PagedAttention 到 RadixAttention,从调度抢占到结构化输出,系统理解现代 LLM 推理引擎的核心算法与设计哲学。

5 篇文章

LLM Model Routing:智能模型选择与混合推理

高级

根据任务复杂度自动选择对应的 LLM 模型。覆盖从简单分类器到 RL 在线学习, 从 query-level 到 token-level,从"选一个"到"全都用"的完整方法谱系。

8 篇文章

LLM 评估与 Benchmark 深度解析

中级

系统化理解 LLM 评估体系:从 benchmark 设计原理到具体 benchmark 深入剖析, 从量化优化的精度评估方法到模型选型决策。覆盖知识推理、代码、Agent 与 Tool Use 等维度,重点关注 OpenVINO 工具链和小模型评估。

10 篇文章

Ollama + llama.cpp 深度解析

高级

深入 Ollama 和 llama.cpp 的内部实现、架构设计和优化原理。从双层架构到量化引擎,从计算图到多后端调度,系统掌握本地推理技术栈。

9 篇文章

llama.cpp 源码精读

高级

逐函数追踪 llama.cpp 的 C/C++ 执行流程。本路径是「Ollama + llama.cpp 深度解析」的源码级延伸——前者讲概念和架构设计,本系列讲 C++ 实现细节。适合想阅读、修改或贡献 llama.cpp 的开发者。

8 篇文章

AI Compute Stack

中级

从推理框架到硬件指令集,理解 AI 软件栈的各层关系

5 篇文章

图编译与优化

高级

深入 ML 编译器的核心:从计算图捕获到优化执行的完整旅程。 双主线覆盖 PyTorch 2.0(torch.compile / TorchInductor / Triton)和 MLIR(Dialect 体系 / Progressive Lowering)。 前置路径:AI 计算栈。

17 篇文章

强化学习:从基础到 LLM 对齐与推理

高级

从 MDP 到 Policy Gradient,从 RLHF 到 GRPO,从 Reward 设计到 Test-Time Scaling,系统理解强化学习如何驱动大语言模型的对齐、优化与推理能力。

8 篇文章

Intel iGPU 推理深度解析:Xe2 架构、oneDNN 与 OpenVINO

高级

从 Xe2 微架构到 oneDNN primitive 体系,从 SPIR-V 编译管线到 OpenVINO 图优化,从性能瓶颈诊断到 GPU+NPU 协同推理,系统理解 Intel iGPU 上的 AI 推理优化全栈。

12 篇文章

矩阵数学:从基础理论到现代 AI 架构

高级

矩阵是 ML 的通用语言。本路径从特征分解出发,建立四件核心工具(分解、度量、微分、迭代), 经 SVD、PCA、NMF 等经典分解方法和 PageRank、谱聚类等算子分析方法, 最终汇聚到 LoRA、Efficient Attention、SSM/Mamba 等现代架构。 三段式弧线"拆→传→汇"揭示同一数学工具如何贯穿看似不同的领域。

31 篇文章

图算法:从结构探索到组合优化

中级

图是"实体+关系"的通用建模语言。本路径从图的基本问题分类出发, 建立三层能力(探索结构、度量性质、组合优化), 经 BFS/DFS、最短路径、网络流等经典算法, 最终汇聚到随机图模型、概率图推断和图神经网络等现代方法。 四段式弧线"探→量→优→建模"揭示同一组图工具如何贯穿看似不同的工程领域。

22 篇文章

按标签浏览

CP-decomposition ComplEx DistMult Tucker-decomposition a-star accuracy activation-checkpointing activation-quantization actor-critic advantage affine agent alignment aot aotautograd applications approximation architecture articulation-point assignment-problem attention audio automix autotuning awq backend backend-scheduling backends backpropagation bandit baseline batch batch-scheduling baum-welch bayesian-network belief-propagation bellman-equation bellman-ford benchmark bert betweenness bfcl bfs binary-format bioinformatics bipartite-matching bitnet blossom boruvka bottleneck bridge bucketing bufferization calculus cascade causal-inference centrality centroid chain-of-thought chat-template chatbot-arena cheatsheet christofides chromatic-number chunked-prefill classification classifier clip clipping clique closeness co-inference code code-evaluation codegen collaboration collaborative-filtering communication community-detection compiler compilers compute compute-graph computer-vision condition-number connectivity constitutional-ai constrained-decoding contamination context-management continuous-batching continuous-time contrastive-learning convergence convex-optimization convex-relaxation cost-model cost-optimization council-mode covariance covariance-matrix crf critical-path cross-attention cse cuda cuda-graph cuda-stream cute dag data-types dataflow-analysis dce ddpm decode decoding decomposition deepseek deepseek-r1 deepwalk degree deltanet dense-subgraph deployment determinant dfs diagonalization dialect dialect-conversion diameter diffusion dijkstra dimensionality-reduction dinic discretization distributed dit dma docker dominator-tree dpo dsatur dsl dynamic-programming dynamic-shapes eckart-young edmonds-karp efficient-attention eigendecomposition eigenfaces eigenvector embedding end-to-end ensemble erdos-renyi euler-path evaluation execution execution-model factor-graph factorization-machines fiedler-vector fine-tuning fixed-point flash-attention floyd-warshall ford-fulkerson forward-backward fp8 fpt frobenius frontier frugalgpt fsm function-calling fusion fx-graph gae gaia gat gaussian-process gc-tricolor gcn gemm gemma generation generative-model ggml gguf glove gnn gpqa gpt gptq gpu gpu-architecture gpu-offload gqa gradient-descent gram-matrix graph-algorithms graph-coloring graph-diffusion graph-embedding graph-kernel graph-laplacian graph-modeling graph-optimization graph-partitioning graph-reuse graphsage greedy greedy-coloring grpo gspmd guards hamiltonian-path hands-on hardware hardware-backend hardware-optimization harness heat-kernel heavy-light-decomposition hessian hetero hidden-markov-model hierholzer hippo hmm hopcroft-karp humaneval hungarian-algorithm hybrid hybrid-llm hymba igpu image-generation image-recognition implicit-factorization incoherence independent-set inductor inference inference-engine inference-optimization inner-product instruct-gpt instruction-selection intel intel-igpu intrinsic-dimension ipo ir isomorphism iteration-machine jacobian jamba jinja2 jit johnson-lindenstrauss jukebox k-core k-truss kalman-filter katz kernel kernel-fusion kernel-generation kernel-optimization kernel-pca kl-divergence knowledge-graph kruskal kv-cache label-propagation laplacian latency layout lca leaderboard learned-operator level-zero linear-algebra linear-systems linformer llama-cpp llm llm-as-judge llvm lm-eval lm-eval-harness local-cloud logistics loop-optimization lora loss-surface louvain low-rank low-rank-approximation lp-relaxation lunar-lake mamba markov markov-chains markov-random-field matching math matrix-completion matrix-exponential matrix-factorization matrix-math matroid max-flow mcts mdp memory memory-allocation memory-format memory-hierarchy memory-management memory-planning mercer-theorem message-passing metal methodology metis min-cut minimum-spanning-tree mixed-precision mixing-time mixtral mixture-of-agents mla mlir mmap mmlu model-compilation model-conversion model-format model-loading model-management model-release model-routing model-selection modelfile modularity moe mqa multi-backend multi-device multi-head multimodal music-generation musicgen network-flow network-models network-science newton-method nlp nlu nmf nncf node2vec non-negative-matrix-factorization norms np-complete np-hard npu npuw nuclear nuclear-norm null-space numerical-accuracy nvidia offline-rl ollama onednn onnx op-fusion openvino operator operator-fusion operator-library optimization optimum orthogonality outcome-reward overview paged-attention pagerank panther-lake paradigm-unification parallel-sequences parameter-efficient pareto parts-based pass pass-at-k pattern-matching pca performance performer perplexity perron-frobenius phi pipeline pipeline-parallel pipeline-parallelism planarity plugin pmi policy-gradient policy-optimization polyhedral pomdp positional-encoding positive-definite post-training power-iteration power-law ppo preemption preference-optimization prefill prefix-cache prefix-caching pretraining prim primitive principal-component-pursuit privacy probabilistic-graphical-models process-reward profiling programming programming-model progressive-lowering projection pseudoinverse ptq ptx pytorch q-learning qat qkv qlora quadratic-form quantization qwen radix-attention rag random-graphs random-projection random-walk randomized-svd rank reasoning recommender-systems register-allocation registry reinforce reinforcement-learning retrieval reward-hacking reward-model rkhs rlhf robust-pca roofline routellm routing runner runtime s4 sampling sbert scale-free scc scheduler scheduling selective-scan selective-ssm self-verification semantic-routing semiring sentence-embeddings sequence-modeling serialization sgd sglang sharding shared-memory shortest-path simd similarity simt sliding-window small-models small-world smoothquant social-networks softmax software-stack sora source-code sparse spatiotemporal-attention spectral spectral-clustering spectral-gap spectral-theorem speculative-decoding speech spirv ssa ssm stable-diffusion standard-set state-space state-space-model static-shape straight-through-estimator structured-output svd swe-bench sycl symbolic-shapes system-design systolic-array tarjan task-yaml taylor-expansion tensor-core tensor-decomposition tensor-parallel tensorrt-llm test-time-scaling thinking tiling tokenization tool-use toolchain topic-modeling topological-sort torch-compile torchdynamo trace training transform-dialect transformer transition-matrix traversal tree treewidth triton trust-region tsp tts ubatch unified-framework union-find vall-e value-function variance-reduction vectorization verifier vertex-cover video-generation vision-language vision-transformer vit viterbi vllm vlsi vtune vulkan warmup whisper wl-test word-embeddings word2vec workgroup xe2 xmx zamba zero-shot

全部文章

高级

从 DPO 到 GRPO:直接偏好优化

#dpo#grpo#ipo#preference-optimization#offline-rl
入门

从文本到向量:Tokenization 与词嵌入

#tokenization#embedding#word2vec#nlp
中级

代码 Benchmark

#benchmark#code#humaneval#swe-bench#pass-at-k
高级

代码生成(上):指令选择、Vectorization 与 Register Allocation

#compiler#codegen#instruction-selection#vectorization#register-allocation#gpu
高级

代码生成(下):Triton Pipeline、编译器后端与数值正确性

#compiler#codegen#triton#llvm#ptx#numerical-accuracy#backends
中级

当 RL 遇上 LLM:从语言生成到策略优化

#reinforcement-learning#llm#post-training#rlhf#policy-optimization#alignment
高级

调度与抢占:推理引擎的 Scheduler

#scheduling#preemption#chunked-prefill#vllm#inference
高级

调度与执行优化

#compiler#scheduling#cuda-stream#cuda-graph#memory-planning#activation-checkpointing#multi-backend
中级

动手:HF → GGUF / ONNX / OpenVINO 三条路径端到端

#quantization#model-conversion#hands-on#llama-cpp#onnx#openvino#intel-igpu
中级

多模态对齐:CLIP 与跨模态嵌入空间

#clip#multimodal#contrastive-learning#zero-shot#vision-language
高级

多模型协作:从选一个到用多个

#model-routing#mixture-of-agents#ensemble#council-mode#collaboration
高级

分布式编译与图分割

#compiler#distributed#tensor-parallel#pipeline-parallel#gspmd#sharding#communication
高级

服务层与调度

#ollama#scheduler#runner#model-management
高级

概率图模型:图上的不确定性推理

#graph-algorithms#probabilistic-graphical-models#bayesian-network#markov-random-field#belief-propagation#factor-graph#crf
高级

工具全景与 GGUF 二进制解析

#llama-cpp#gguf#quantization#binary-format
高级

核心性质速查:概念关系图与公式速查表

#matrix-math#linear-algebra#cheatsheet
高级

级联与自验证:先试便宜的,不行再升级

#model-routing#cascade#self-verification#pomdp#frugalgpt#automix
高级

计算图捕获:TorchDynamo、AOTAutograd 与 Functionalization

#compiler#pytorch#torchdynamo#aotautograd#fx-graph
高级

计算图构建与架构分发

#llama-cpp#compute-graph#architecture#ggml#graph-reuse
高级

计算图与推理引擎

#ggml#compute-graph#inference-engine#operator-fusion
高级

矩阵补全:从极少观测恢复低秩矩阵

#matrix-math#matrix-completion#nuclear-norm#convex-relaxation#incoherence#low-rank
高级

矩阵范数、内积与条件数:度量的艺术

#matrix-math#norms#condition-number#inner-product#frobenius#spectral#nuclear
中级

矩阵加速单元 — Tensor Core 与 XMX

#gpu#tensor-core#xmx#systolic-array#nvidia#intel
高级

矩阵结构的几何:二次型、正定性与协方差

#matrix-math#quadratic-form#positive-definite#covariance#gram-matrix#trace#determinant
高级

矩阵数学全景图:ML 的通用语言

#matrix-math#linear-algebra#overview
高级

矩阵微积分:从 Jacobian 到损失曲面

#matrix-math#calculus#jacobian#hessian#backpropagation#loss-surface#taylor-expansion
中级

句子嵌入:从 Token 级到语义检索

#sentence-embeddings#contrastive-learning#rag#retrieval#sbert
中级

扩散模型基础:从噪声中生成

#diffusion#ddpm#generative-model#image-generation
中级

连通性:图能拆成几块?

#graph-algorithms#connectivity#scc#tarjan#bridge#articulation-point
高级

连续时间线性系统与 Kalman 滤波:从离散步进到平滑流动

#matrix-math#linear-systems#kalman-filter#matrix-exponential#state-space#continuous-time#discretization
高级

量化编译与混合精度优化

#compiler#quantization#mixed-precision#kernel-generation#fusion
高级

量化感知训练 (QAT)

#quantization#qat#straight-through-estimator#bitnet#lora
中级

量化基础

#quantization#data-types#mixed-precision#inference-optimization
中级

量化与模型转换工具链全景

#quantization#model-conversion#toolchain#optimum#nncf#openvino#gguf#onnx
高级

路由分类器:让小模型决定谁来回答

#model-routing#classifier#matrix-factorization#bert#semantic-routing
高级

马尔可夫链与转移矩阵:当矩阵编码概率

#matrix-math#markov-chains#transition-matrix#perron-frobenius#mixing-time
中级

模型发布 Benchmark 标配解析

#benchmark#model-release#standard-set#small-models#gemma#phi#qwen
高级

模型加载:从文件到设备

#llama-cpp#model-loading#mmap#gpu-offload#backend
中级

模型生态

#ollama#registry#modelfile#lora#multimodal
中级

欧拉与哈密顿:遍历的两种完备性

#graph-algorithms#euler-path#hamiltonian-path#np-complete#hierholzer
中级

排行榜解读与模型选型

#benchmark#leaderboard#model-selection#chatbot-arena#deployment
中级

匹配:最优配对

#graph-algorithms#matching#bipartite-matching#hungarian-algorithm#hopcroft-karp#blossom#assignment-problem
高级

奇异值分解:核心中的核心

#matrix-math#svd#low-rank-approximation#pseudoinverse#eckart-young
高级

前缀缓存与 RadixAttention

#prefix-caching#radix-attention#sglang#vllm#kv-cache
中级

强化学习基础:从 Agent 到 Bellman 方程

#reinforcement-learning#mdp#bellman-equation#value-function#q-learning
中级

全景图:ML 编译器的世界

#compiler#pytorch#mlir#triton#optimization
中级

社区发现:哪些节点抱团?

#graph-algorithms#community-detection#modularity#louvain#label-propagation#k-core
高级

视频生成:时空注意力与 Sora 架构

#video-generation#sora#spatiotemporal-attention#dit#diffusion
中级

树上算法:图的特殊骨架

#graph-algorithms#tree#lca#diameter#centroid#heavy-light-decomposition#dominator-tree
高级

数据矩阵分解概述:问题、工具与方法谱系

#matrix-math#decomposition#overview
高级

算子矩阵全景:当矩阵不再装数据

#matrix-math#operator#markov#laplacian#kernel#overview
高级

算子融合(上):融合类型学与判定算法

#compiler#fusion#operator-fusion#kernel-fusion#optimization
高级

算子融合(下):Cost Model 与融合实战

#compiler#fusion#cost-model#flash-attention#inductor#optimization
高级

随机化 SVD:当精确分解算不动的时候

#matrix-math#randomized-svd#johnson-lindenstrauss#random-projection#low-rank-approximation
高级

随机图与网络模型:真实网络长什么样?

#graph-algorithms#random-graphs#network-models#erdos-renyi#small-world#scale-free#power-law#network-science
高级

随机游走与图嵌入:DeepWalk/Node2Vec

#matrix-math#random-walk#graph-embedding#deepwalk#node2vec#transition-matrix
中级

拓扑排序与 DAG:有依赖时的合法顺序

#graph-algorithms#topological-sort#dag#critical-path#dynamic-programming
高级

特征分解与对角化:万物之基

#matrix-math#eigendecomposition#diagonalization#spectral-theorem
高级

图 Laplacian 与谱聚类:从图结构到最优分割

#matrix-math#graph-laplacian#spectral-clustering#fiedler-vector#graph-partitioning
高级

图建模案例集:这个问题其实是图问题

#graph-algorithms#graph-modeling#applications#compilers#recommender-systems#bioinformatics#causal-inference#nlp#vlsi#social-networks#logistics
高级

图扩散、热核与 GNN 消息传递:从热方程到图神经网络

#matrix-math#graph-diffusion#heat-kernel#gnn#message-passing#graph-laplacian#gcn
高级

图嵌入与图神经网络:把图变成向量

#graph-algorithms#graph-embedding#gnn#deepwalk#node2vec#gcn#gat#graphsage
高级

图上的通用迭代机器(上):从数学问题到求解框架

#graph-algorithms#iteration-machine#unified-framework#frontier#fixed-point#bellman-equation
高级

图上的通用迭代机器(下):范式、领域与边界

#graph-algorithms#iteration-machine#paradigm-unification#gc-tricolor#dataflow-analysis#belief-propagation#gnn#semiring#convergence
中级

图算法全景图:从结构探索到组合优化

#graph-algorithms#overview
高级

图优化 Pass(上):数据流分析基础与通用 Pass 模式

#compiler#optimization#pass#dataflow-analysis#dce#cse
高级

图优化 Pass(下):Polyhedral 优化与循环变换

#compiler#polyhedral#loop-optimization#affine#mlir#tiling
高级

图优化 Pass(中):高级优化与 Pattern Matching

#compiler#optimization#layout#pattern-matching#memory-planning
中级

团与密子图:最紧密的子群

#graph-algorithms#clique#dense-subgraph#k-core#k-truss#independent-set#vertex-cover
高级

推理时量化:KV Cache 与 Activation 量化

#quantization#kv-cache#activation-quantization#fp8#inference-optimization
中级

网络流:管道能通多少?

#graph-algorithms#network-flow#max-flow#min-cut#ford-fulkerson#edmonds-karp#dinic
中级

相似性与同构:两个图/节点有多像?

#graph-algorithms#similarity#isomorphism#graph-kernel#wl-test
高级

向量空间的几何:内积、投影、秩与子空间

#matrix-math#inner-product#projection#rank#null-space#orthogonality
高级

性能分析与瓶颈诊断

#intel#performance#profiling#roofline#vtune#bottleneck
高级

学习算子中的低秩结构:为什么神经网络权重是低秩的?

#matrix-math#learned-operator#low-rank#intrinsic-dimension#lora#overview
中级

一次推理的完整旅程

#ollama#llama-cpp#inference#pipeline
高级

因子分解机与 LLM 路由:从 FM 理论到 MF 路由器

#model-routing#factorization-machines#matrix-factorization#routellm
高级

音乐生成:当 Transformer 学会作曲

#music-generation#musicgen#jukebox#transformer#audio
高级

隐马尔可夫模型:当状态看不见

#matrix-math#hmm#hidden-markov-model#forward-backward#viterbi#baum-welch
高级

硬件后端

#ggml#cuda#metal#vulkan#hardware-backend
中级

优化对精度的影响

#benchmark#quantization#accuracy#perplexity#openvino#lm-eval-harness#llama-cpp
高级

优化算法:从梯度下降到牛顿法

#matrix-math#optimization#gradient-descent#newton-method#sgd#convergence
高级

语音与 Transformer:从 Whisper 到 VALL-E

#audio#speech#whisper#vall-e#tts#transformer
高级

在线学习与成本优化:路由也需要持续进化

#model-routing#bandit#reinforcement-learning#pareto#cost-optimization
高级

张量分解与知识图谱嵌入:从二维到高阶

#matrix-math#tensor-decomposition#knowledge-graph#CP-decomposition#Tucker-decomposition#DistMult#ComplEx
中级

着色与划分:最少几种颜色?

#graph-algorithms#graph-coloring#graph-partitioning#chromatic-number#greedy-coloring#dsatur#planarity#metis
中级

知识与推理 Benchmark

#benchmark#reasoning#mmlu#gpqa#math
高级

执行、采样与上下文管理

#llama-cpp#execution#sampling#speculative-decoding#kv-cache#context-management
中级

中心性:谁最重要?

#graph-algorithms#centrality#degree#betweenness#closeness#pagerank#eigenvector#katz
高级

状态空间模型与 Mamba

#ssm#mamba#state-space-model#selective-scan#sequence-modeling
高级

自动调优与端到端实战

#compiler#autotuning#triton#mlir#transform-dialect#end-to-end#torch-compile
中级

最短路径:图上的距离

#graph-algorithms#shortest-path#dijkstra#bellman-ford#floyd-warshall#a-star
中级

最小生成树:最便宜地连通所有人

#graph-algorithms#minimum-spanning-tree#kruskal#prim#boruvka#greedy#matroid#union-find
高级

Actor-Critic 与 PPO:稳定的策略优化

#actor-critic#ppo#gae#advantage#clipping#trust-region
中级

Agent 与 Tool Use Benchmark

#benchmark#agent#function-calling#tool-use#bfcl#gaia
中级

AI Compute Stack 全景 — 从推理框架到硬件指令集

#gpu#compute#software-stack#runtime#inference
高级

Attention 变体:从 Sliding Window 到 MLA

#transformer#attention#mla#sliding-window#cross-attention
高级

Attention 的低秩结构与 Efficient Attention

#matrix-math#attention#low-rank#linformer#performer#efficient-attention#kernel
中级

Attention 计算详解

#transformer#attention#softmax
高级

Backend 调度、Op Fusion 与内存分配

#llama-cpp#backend-scheduling#op-fusion#memory-allocation#pipeline-parallelism
高级

Batch、Ubatch 与解码主循环

#llama-cpp#batch#ubatch#decoding#parallel-sequences#kv-cache
中级

Benchmark 全景与评估方法论

#benchmark#evaluation#methodology#llm-as-judge#contamination
中级

BERT 与 GPT:理解与生成的两条路线

#bert#gpt#pretraining#nlp#nlu#classification#generation
高级

BFCL 实操指南

#benchmark#bfcl#function-calling#tool-use#evaluation
中级

BFS 与 DFS:图的两种基本呼吸方式

#graph-algorithms#bfs#dfs#traversal
中级

CUDA 编程模型 — 从代码到硬件

#gpu#cuda#programming#simt#simd#intel#sycl
高级

Diffusion Transformer:用 Transformer 做图像生成

#dit#diffusion#transformer#image-generation#stable-diffusion
高级

Dynamic Shapes:从捕获到执行的全链路挑战

#compiler#dynamic-shapes#symbolic-shapes#guards#bucketing#pytorch
高级

Flash Attention 分块原理

#attention#hardware-optimization#flash-attention#memory
高级

GEMM 优化 — 从 Naive 到极致

#gpu#gemm#cuda#optimization#tensor-core#xmx#intel
中级

GGUF 模型格式

#gguf#llama-cpp#model-format#serialization
中级

GPU Architecture — 从晶体管到线程

#gpu#architecture#hardware#nvidia
高级

Hybrid 架构:Mamba 与 Attention 的融合

#hybrid#mamba#jamba#zamba#hymba#architecture
高级

Hybrid LLM:本地与云端的智能路由

#model-routing#hybrid-llm#local-cloud#privacy#latency
中级

Intel 模型优化栈:Optimum Intel / NNCF / OpenVINO 三件套选型

#intel#optimum#nncf#openvino#quantization#model-conversion
高级

IR 设计(上):SSA、FX IR 与 MLIR Dialect

#compiler#ir#ssa#pytorch#mlir#fx-graph#dialect
高级

IR 设计(下):Progressive Lowering 与多层 IR

#compiler#mlir#progressive-lowering#dialect-conversion#bufferization
高级

Kernel 矩阵与再生核:数据定义的给定算子

#matrix-math#kernel#mercer-theorem#kernel-pca#gaussian-process#rkhs
高级

KV Cache 与 Batch 调度

#kv-cache#batch-scheduling#continuous-batching#prefix-cache
高级

KV Cache 原理

#inference#kv-cache#memory#optimization
高级

llama.cpp 量化方案

#quantization#llama-cpp#gguf#inference-optimization
高级

llama.cpp 执行流程总览

#llama-cpp#inference-engine#architecture#source-code
中级

LLM 推理引擎全景:vLLM、SGLang、Ollama 与 TensorRT-LLM

#inference#vllm#sglang#ollama#tensorrt-llm
高级

lm-eval-harness 实操指南

#benchmark#lm-eval#evaluation#harness#task-yaml
高级

LoRA:低秩分解在 LLM 微调中的应用

#matrix-math#lora#low-rank#fine-tuning#parameter-efficient#qlora
高级

MF 与 FM:协同过滤的矩阵分解视角

#matrix-math#matrix-factorization#factorization-machines#recommender-systems#collaborative-filtering
高级

Mixture of Experts:稀疏激活的大模型架构

#transformer#moe#routing#deepseek#mixtral
高级

Model Routing 全景:为什么一个模型不够

#model-routing#llm#cost-optimization#system-design
高级

MQA 与 GQA

#transformer#attention#mqa#gqa#kv-cache
中级

Multi-Head Attention

#transformer#attention#multi-head
高级

NMF:非负约束下的 Parts-Based 分解

#matrix-math#nmf#non-negative-matrix-factorization#parts-based#topic-modeling
高级

NP-hard 与近似算法:当最优解算不出来

#graph-algorithms#np-hard#approximation#tsp#christofides#lp-relaxation#fpt#treewidth#vertex-cover
高级

NPU 架构与 GPU+NPU 协同推理

#intel#npu#openvino#hetero#multi-device#co-inference
高级

NPU 上的 LLM 推理:KV Cache 与软件栈

#intel#npu#llm#kv-cache#openvino#npuw#static-shape
高级

NPU 执行模型与编程模型的边界

#intel#npu#execution-model#dma#tiling#attention#programming-model#cute
中级

Ollama + llama.cpp 架构总览

#ollama#llama-cpp#architecture#inference
高级

oneDNN GPU Kernel 优化

#intel#onednn#kernel-optimization#gemm#xmx#mixed-precision
高级

oneDNN Primitive 体系

#intel#onednn#primitive#memory-format#operator-library
高级

OpenVINO 图优化 Pipeline

#intel#openvino#graph-optimization#model-compilation#plugin
高级

PagedAttention 与 Continuous Batching

#paged-attention#continuous-batching#vllm#memory-management#kv-cache
高级

PageRank 与幂迭代:图上的马尔可夫链

#matrix-math#pagerank#power-iteration#markov-chains#spectral-gap
高级

PCA 与 Eigenfaces:从方差最大化到人脸识别

#matrix-math#pca#eigenfaces#dimensionality-reduction#covariance-matrix#svd
中级

Policy Gradient:直接优化策略

#policy-gradient#reinforce#baseline#variance-reduction#advantage
中级

Positional Encoding — 让 Transformer 理解顺序

#transformer#attention#positional-encoding
中级

Prefill vs Decode 阶段

#inference#prefill#decode#performance
高级

PTQ 权重量化:从 GPTQ 到 AWQ

#quantization#ptq#gptq#awq#smoothquant
中级

QKV 的数据结构与直觉

#transformer#attention#qkv
高级

Qwen3-Coder-Next 架构解析:当 SSM、Attention 与 MoE 三合一

#hybrid#moe#ssm#deltanet#qwen#architecture
高级

Reward 设计与 Scaling

#reward-model#reward-hacking#process-reward#outcome-reward#constitutional-ai
高级

RLHF:从人类反馈中学习

#rlhf#reward-model#alignment#instruct-gpt#kl-divergence
高级

Robust PCA:低秩 + 稀疏分解

#matrix-math#robust-pca#low-rank#sparse#nuclear-norm#convex-optimization#principal-component-pursuit
高级

RouteLLM 实战:从偏好数据到生产路由

#model-routing#routellm#matrix-factorization#training#deployment
中级

Sampling & Decoding — 从概率到文本

#inference#sampling#decoding#perplexity
高级

SGLang 编程模型与结构化输出

#sglang#structured-output#constrained-decoding#fsm#dsl
高级

Speculative Decoding — 猜测式解码加速

#inference#optimization#speculative-decoding
高级

SPIR-V 编译与 Level Zero 运行时

#intel#spirv#level-zero#compiler#runtime#jit#aot
高级

SSM / Mamba:矩阵对角化的胜利

#matrix-math#ssm#mamba#hippo#diagonalization#state-space#s4#selective-ssm
高级

SWE-bench 实操指南

#benchmark#swe-bench#code-evaluation#agent#docker
高级

Test-Time Scaling 与思维强化

#test-time-scaling#chain-of-thought#mcts#deepseek-r1#thinking#verifier
高级

Tiling 策略与内存层次优化

#compiler#tiling#memory-hierarchy#gpu#shared-memory#optimization
中级

Transformer 网络结构总览

#transformer#architecture
中级

Vision Transformer:当图像变成 Token 序列

#vision-transformer#vit#image-recognition#computer-vision
高级

Warmup、Tokenization 与 Chat Template

#llama-cpp#warmup#tokenization#chat-template#jinja2#multimodal
高级

Word2Vec 与 GloVe:隐式 vs 显式矩阵分解

#matrix-math#word2vec#glove#pmi#word-embeddings#implicit-factorization
高级

Xe2 执行模型与编程抽象

#intel#xe2#simd#sycl#execution-model#workgroup
高级

Xe2 GPU 架构

#intel#xe2#gpu-architecture#igpu#lunar-lake#panther-lake