#benchmark
10 篇文章
中级
Agent 与 Tool Use Benchmark
#benchmark
#agent
#function-calling
#tool-use
#bfcl
#gaia
中级
Benchmark 全景与评估方法论
#benchmark
#evaluation
#methodology
#llm-as-judge
#contamination
中级
模型发布 Benchmark 标配解析
#benchmark
#model-release
#standard-set
#small-models
#gemma
#phi
#qwen
中级
代码 Benchmark
#benchmark
#code
#humaneval
#swe-bench
#pass-at-k
中级
排行榜解读与模型选型
#benchmark
#leaderboard
#model-selection
#chatbot-arena
#deployment
中级
优化对精度的影响
#benchmark
#quantization
#accuracy
#perplexity
#openvino
#lm-eval-harness
#llama-cpp
中级
知识与推理 Benchmark
#benchmark
#reasoning
#mmlu
#gpqa
#math
高级
BFCL 实操指南
#benchmark
#bfcl
#function-calling
#tool-use
#evaluation
高级
lm-eval-harness 实操指南
#benchmark
#lm-eval
#evaluation
#harness
#task-yaml
高级
SWE-bench 实操指南
#benchmark
#swe-bench
#code-evaluation
#agent
#docker