如何建立更好的人工智能基准测试方法?

内容摘要来源:DeepTech深科技(来源:MIT Technology Review)成为硅谷最受青睐的标杆之一并不容易。 SWE-Bench 于 2024 年 11 月推出,旨在评估 AI 模型的编程能力。该基准测试采用了从 12 个不同 Py

来源:DeepTech深科技

(来源:MIT Technology Review)

成为硅谷最受青睐的标杆之一并不容易。 

SWE-Bench 于 2024 年 11 月推出,旨在评估 AI 模型的编程能力。该基准测试采用了从 12 个不同 Python 项目的 GitHub 公开仓库中提取的 2000 多个真实编程问题作为评测依据。

短短数月,SWE-Bench 迅速成为 AI 领域最热门的测试基准之一。如今,OpenAI、Anthropic 和谷歌等巨头发布大模型时,SWE-Bench 评分已成为标配指标。

而在基础模型之外,各家 AI 公司的微调团队更是展开激烈角逐,争相冲击排行榜榜首。目前领跑榜单的是 Anthropic 旗下 Claude Sonnet 模型的三个不同微调版本与亚马逊 Q 智能体的混战局面。其中基于 Claude 改进的 Auto Code Rover 在去年 11 月斩获亚军,仅三个月后便被收购。

尽管热潮汹涌,但这并不能真实反映哪个模型更优秀。随着该基准测试的影响力不断扩大,“你会发现人们开始不惜代价争夺榜首”,普林斯顿大学 SWE-Bench 开发团队成员 John Yang 表示。这种竞争导致参赛者开始钻营系统漏洞——促使越来越多人思考:是否该建立更科学的 AI 能力评估体系?

这些编程智能体的开发者未必存在赤裸裸的作弊行为,但他们设计的解决方案往往过度拟合了基准测试的特性。最初的 SWE-Bench 测试集仅包含 Python 语言编写的程序,这意味着开发者只需让模型专门训练 Python 代码就能获得优势。Yang 很快发现,那些高分模型在面对其他编程语言测试时完全失灵——这种应试策略被他形容为“镀金式”的取巧。

“乍看之下光鲜亮丽,但换种编程语言测试就会原形毕露,”他指出,“这本质上不是在开发软件工程智能体,而是在打造 SWE-Bench 专用工具——后者的意义要小得多。”

SWE-Bench 暴露的问题折射出 AI 评估领域一个普遍且复杂的困境:行业用于指导开发的基准测试,与实际能力评估的偏差正越来越大,其根本价值由此遭到质疑。更糟糕的是,FrontierMath 和 Chatbot Arena 等多个知名基准近期因透明度不足引发争议。尽管如此,基准测试仍在模型开发中占据核心地位——即便很少有专家会全盘采信其结果。OpenAI 联合创始人 Andrej Karpathy 近期将这种局面称为“评估危机”:行业既缺乏可信的能力测量方法,也看不到改进的明确路径。

斯坦福大学以人为本人工智能研究所(HAI)研究主任 Vanessa Parli 指出:“基准测试历来是评估 AI 系统的主要方式。但这是否仍是我们未来想要的方式?如果不是,又该采用什么方法?”

越来越多的学者和 AI 研究人员主张,答案在于“缩小评估范围”——放弃宏大目标,转而采用社会科学的研究方法。具体而言,他们希望更注重测试的“效度”(validity),即定量社会科学中衡量问卷能否准确评估目标指标的标准,更根本的是确认所测量的概念是否具有明确定义。这对评估“推理能力”或“科学知识”等模糊概念的基准测试将构成挑战,也会冲击那些追逐通用人工智能(AGI)热潮的开发者——但能让行业在证明单个模型价值时,拥有更坚实的理论基础。

密歇根大学教授 Abigail Jacobs 是这场“效度运动”的核心人物,她表示:“认真对待效度意味着要求学术界、工业界等各方证明其系统确实具备所宣称的能力。如果 AI 界回避这种验证要求,恰恰暴露了这个领域的弱点。”

传统测试的局限性

如果说 AI 公司对基准测试日益显露的缺陷反应迟缓,部分原因在于这种评分机制曾长期行之有效。

当代 AI 最早的里程碑之一——ImageNet 挑战赛,堪称现代基准测试的雏形。2010 年发布的这个开放研究项目,包含 300 多万张待分类图片,要求 AI 系统将其归入 1000 个不同类别。

关键在于,该测试完全兼容任何方法体系,任何成功算法无论运作原理如何都能快速获得认可。当名为 AlexNet 的算法在 2012 年突破性地采用当时非主流的 GPU 训练方法胜出时,这一成果直接奠定了现代 AI 的基础。此前几乎无人预料到,AlexNet 采用的卷积神经网络会成为解锁图像识别的密钥——但一旦其高分成绩得到验证,质疑声便烟消云散。(AlexNet 开发者之一 Ilya Sutskever 后来成为 OpenAI 联合创始人)

ImageNet 之所以成效卓著,很大程度上在于其物体分类挑战与真实图像识别任务几乎不存在实用差异。即便对方法存在争议,但没人会怀疑:在测试中表现最优的模型,实际部署时必然具备优势。

但在此后的 12 年间,AI 研究者将这种“方法论中立”的思路套用到越来越通用的任务上。SWE-Bench 常被用作广义编程能力的替代指标,而其他考试式基准测试则往往代表推理能力。这种宽泛的定位使得人们难以严谨界定特定基准测试的测量范畴——进而导致研究成果难以被负责任地运用。

症结所在

斯坦福大学博士生 Anka Reuel 在研究基准测试问题时发现,评估危机正是盲目追求通用性导致的恶果。“我们已从专用模型转向通用模型,”她指出,“评估对象不再局限于单一任务,而是涵盖庞杂任务集合,难度自然陡增。”

与密歇根大学的 Jacobs 不谋而合,Reuel 认为“基准测试的核心缺陷在于效度问题,而非技术实现,这正是多数评估体系崩塌的根源。”以编程这种复杂任务为例,几乎不可能将所有潜在场景纳入测试集。因此,我们难以判断模型得分提升是源于编程能力增强,还是对测试集的针对性优化。在开发者追逐破纪录分数的压力下,走捷径的诱惑难以抗拒。

开发者寄望于通过多个专项基准的优异表现堆砌出通用能力。但智能体 AI 技术使得单一系统能整合复杂模型阵列,专项任务的进步是否带来泛化能力提升变得难以评估。“可调节的参数实在太多了,”普林斯顿大学计算机科学家、AI 行业乱象批评者 Sayash Kapoor 坦言,“对于智能体,业界已基本放弃了评估的最佳实践。”

在 2023 年 7 月的论文中,Kapoor 揭露了 AI 模型应对 WebArena 基准时的取巧行为。该基准由卡耐基梅隆大学 2024 年设计,包含 800 多项在模拟网站(如Reddit、维基百科等)上执行的任务。Kapoor 团队发现夺冠模型 STeP 内置了 Reddit 网址结构的特定指令,使其能直接跳转用户主页(WebArena 常见任务类型)。

这种优化虽不构成作弊,但 Kapoor 认为“严重误导了人们对智能体首次接触 WebArena 任务时真实表现的判断”。然而由于该方法奏效,OpenAI 的网页智能体 Operator 随后采用了类似策略。(OpenAI 回应称其评估设置旨在检验智能体在获知网站结构后的任务解决能力,与 WebArena 使用惯例一致。STeP 未予置评。)

更严峻的是,Kapoor 团队上月发表论文揭露热门众包评估系统 Chatbot Arena 存在严重漏洞:多个顶级基础模型进行未公开的私有测试,并选择性发布分数。

如今,连基准测试鼻祖 ImageNet 也陷入效度危机。华盛顿大学与谷歌研究院 2023 年研究发现,当 ImageNet 冠军算法与 6 个真实数据集对抗时,架构改进“几乎未带来任何进步”,暗示该测试的外部效度已达极限。

回归细分评估

对于坚信效度才是核心问题的人而言,最佳解决方案是让基准测试重新聚焦具体任务。正如 Reuel 所言,AI 开发者“不得不依赖这些对终端用户几乎无意义的高层基准,因为测试设计者已无法预判下游任务需求”。那么,能否帮助终端用户识别这种断层?

2024 年 11 月,Reuel 发起了名为 BetterBench 的公共评级项目,从代码公开性等数十项指标对基准测试进行打分。但效度始终是核心主题,特定标准要求设计者明确说明:测试何种能力?这些能力与测试任务如何关联?

“必须建立能力结构分解图,哪些是真正需要关注的技能?又如何将其转化为可量化指标?”Reuel 强调。

评级结果出人意料:得分最高者之一是 2013 年问世的最古老测试 Arcade Learning Environment(ALE,用于评估模型玩 Atari 2600 游戏的能力);而评估通用语言能力的 Massive Multitask Language Understanding(MMLU)基准却位列末位——BetterBench 认为其试题与底层技能的关联定义过于模糊。

目前 BetterBench 尚未显著影响具体基准的声誉(MMLU 仍被广泛使用,ALE 依旧边缘化),但成功将效度问题推向了基准测试改革讨论的中心。今年 4 月,Reuel 低调加入由 Hugging Face、爱丁堡大学和 EleutherAI 联合成立的研究组,将与业内专家共同完善其关于效度与 AI 评估的理论。

Hugging Face 全球政策主管 Irene Solaiman 表示,该小组将致力于开发超越简单能力测量的有效基准:“业界太渴望现成的优质基准了,现有评估往往贪多求全。”

这种理念正获得越来越多认同。谷歌、微软、Anthropic 等机构研究人员在 3 月的论文中提出新评估框架,将效度作为首要原则:“AI 评估科学必须摒弃 通用智能 的粗放断言,转向更专注具体任务且贴合现实需求的进步度量。”

 明确测评指标

为推进这一转变,部分研究者正转向社会科学工具。2 月的一份立场文件提出评估生成式 AI 系统本质上是社会科学测量挑战,重点阐释如何将社会测量中的效度体系应用于 AI 基准测试。

这份由微软研究院主导、斯坦福大学和密歇根大学学者参与的报告指出,社会科学家测量意识形态、民主程度和媒体偏见等争议性概念的标准,同样适用于 AI 领域“推理能力”、“数学熟练度”等概念的量化——避免陷入模糊的泛化论断。

社会科学方法特别强调:测量指标必须始于对测试概念的严格定义。例如要测量社会民主程度,需先界定 民主社会 的定义,再设计与之相关的问题。

将此方法应用于 SWE-Bench 等基准测试时,设计者需摒弃传统机器学习思路(即从 GitHub 收集编程问题并验证答案对错),转而首先明确定义测量目标(如解决软件标记问题的能力),将其分解为子技能,最后构建全面覆盖这些子技能的测试题集。

这与 AI 研究者惯用的基准测试方法截然不同——但正如 2 月论文合著者 Jacobs 所言,这正是关键所在:“科技行业的现状与社会科学工具之间存在脱节,而后者拥有数十年测量人类复杂特质的经验。”

尽管该理念在学术界影响深远,却尚未显著改变 AI 公司使用基准测试的方式。

过去两个月,OpenAI、Anthropic、谷歌和 meta 发布的新模型仍重度依赖 MMLU 等选择题知识测试——这正是效度研究者试图超越的方法。毕竟模型发布的核心目标仍是展现通用智能提升,而宽泛的基准测试依然是支撑这类声明的工具。

沃顿商学院教授 Ethan Mollick 等观察家认为:“基准测试虽不完美,却是现有最佳选择。”他补充道:“与此同时模型确实在进步,快速进展掩盖了许多缺陷。”

目前,行业对通用人工智能的长期追求,似乎正挤压着基于效度的细分评估空间。只要 AI 模型的通用能力持续增长,具体应用场景的精准评估就显得不那么紧迫——即便这意味着从业者不得不继续使用可信度存疑的工具。

Hugging Face 的 Solaiman 坦言,“彻底推翻现有体系并不现实,尽管存在局限,评估工具对理解模型仍有重要价值。”

原文链接:

2025/05/08/1116192/how-to-build-a-better-ai-benchmark/

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备2021030705号-9