代码

Benchmark考察能力特点
SWE-bench软件工程:修 bug、写 feature、理解大型代码库基于真实 GitHub issue,需要定位修改点并生成 patch,是代码评测的事实主标
HumanEval函数级代码生成通过单元测试验证生成代码的正确性,题量小但引用率高
MBPP基础编程能力比 HumanEval 条目更多、题目更偏入门
LiveCodeBench实时编程竞赛从 LeetCode / AtCoder 等平台搜集新题,防止数据污染
Terminal-Bench 2.0终端/命令行任务模拟真实 shell 环境中的多步操作

知识与推理

Benchmark考察能力特点
MMLU-Pro多学科选择题MMLU 的升级版,选项从 4 个增加到 10 个,减少猜测空间,覆盖 50+ 学科
GPQA-Diamond研究生级别科学推理由领域专家出题(物理、化学、生物),非专家仅能做对 ~34%,主要测推理性
Humanity’s Last Exam跨学科极限难题题目来自全球研究人员投稿,难度极高,绝大多数人类也无法通过
MATH竞赛级数学涵盖代数、几何、数论等,需要多步推导
GSM8K小学数学应用题容易饱和,多数前沿模型达到 95%+
ARC-AGI抽象视觉推理每题包含少数几个网格示例,需要推断变换规则;强调 fluid intelligence

检索与搜索

Benchmark考察能力特点
BrowseCompWeb 浏览与信息综合需要从多个网页中收集、交叉比对信息后回答问题
DeepSearchQA深度搜索问答模拟多轮搜索、筛选、归纳的复杂信息检索流程
SimpleQA事实准确性单轮简单事实问答,主要测幻觉和知识边界

Agent 能力

Benchmark考察能力特点
tau2-bench工具使用与 Agent 任务规划模拟真实世界中 multi-step agent 任务,如预订、客服、数据操作
GDPvalAgent 综合能力评估 agent 在开放环境中的规划、执行和纠错
OSWorld操作系统级别 Agent在真实虚拟机上完成 GUI 操作,覆盖办公软件、浏览器、命令行等

多模态理解

Benchmark考察能力特点
MMMU-Pro跨学科多模态推理覆盖艺术、科学、医学等领域的图表、图像、文档理解
ZeroBench视觉计数与精确观察故意设计大量杂乱物体的数数题,当前模型普遍表现差
MathVista数学可视化推理几何图、统计图表、公式图像中的数学推理

综合与偏好

Benchmark考察能力特点
Chatbot Arena人类偏好对比LMSYS 组织的盲评投票,做 Elo 排名。因反映真实用户偏好而影响力大
BIG-bench泛化与极限能力Google 主导的 200+ 任务集合,覆盖面广但条目质量参差

四象限视角

按「AI 能不能做 × 人类能不能做」分类,可以快速判断一个 benchmark 的难度成色:

象限典型 benchmark意味着
AI 能做,人类难做SWE-bench、GPQA-Diamond、MATH模型在技术深度上可能超过非专业人类,是技术报告中最常引用的高含金量指标
AI 能做,人类也能做tau2-bench、MMLU(简单题)检验模型的日常辅助能力,门槛相对较低
AI 不大会,人类会做ZeroBench、ARC-AGI(部分)暴露模型在特定认知模式上的短板,是发现能力边界的关键
AI 不会,人类也不会Humanity’s Last Exam测的是“极限挑战”,用于展示模型绝对上限

选择 Benchmark 的注意事项

  1. 数据污染:训练数据可能泄露 benchmark 题目,老 benchmark(GSM8K、MMLU)尤其严重。优先看 LiveCodeBench、Chatbot Arena 这类动态更新的指标。
  2. 评测方式:选择题(MMLU)容易刷分但区分度下降;交互式评测(SWE-bench、Chatbot Arena)更能反映真实能力。
  3. 任务覆盖:没有单一 benchmark 能代表模型整体水平。通常组合代码 + 推理 + Agent + 多模态四个维度做交叉判断。
  4. 提示敏感度:同一个模型在 zero-shot、few-shot、CoT 下的表现差异可能很大,技术报告里的数字需要看具体评测方式。