LLM 评估与 Benchmark 深度解析
系统化理解 LLM 评估体系:从 benchmark 设计原理到具体 benchmark 深入剖析, 从量化优化的精度评估方法到模型选型决策。覆盖知识推理、代码、Agent 与 Tool Use 等维度,重点关注 OpenVINO 工具链和小模型评估。
- 1
Benchmark 全景与评估方法论
中级#benchmark#evaluation#methodology#llm-as-judge#contamination - 2
知识与推理 Benchmark
中级#benchmark#reasoning#mmlu#gpqa#math - 3
代码 Benchmark
中级#benchmark#code#humaneval#swe-bench#pass-at-k - 4
Agent 与 Tool Use Benchmark
中级#benchmark#agent#function-calling#tool-use#bfcl#gaia - 5
模型发布 Benchmark 标配解析
中级#benchmark#model-release#standard-set#small-models#gemma#phi#qwen - 6
优化对精度的影响
中级#benchmark#quantization#accuracy#perplexity#openvino#lm-eval-harness#llama-cpp - 7
排行榜解读与模型选型
中级#benchmark#leaderboard#model-selection#chatbot-arena#deployment - 8
lm-eval-harness 实操指南
高级#benchmark#lm-eval#evaluation#harness#task-yaml - 9
SWE-bench 实操指南
高级#benchmark#swe-bench#code-evaluation#agent#docker - 10
BFCL 实操指南
高级#benchmark#bfcl#function-calling#tool-use#evaluation