

机器之心剪辑部
这几天,Anthropic 的最新模子 Claude Fable 5 发布之后,在 AI 圈激起了不小的飘浮。
今天一早,大模子评测平台 Arena 放出了智能体基准测试(Agent Arena)的收货:Fable 5(High)排行第一,OpenAI 的 GPT-5.5(xHigh)屈居第二。另外,在「说明告捷率」和「可指点性」等两项盘算上,Fable 5(High)也稳压 GPT-5.5(xHigh)。
从 Agent Arena 的跑分来看,Fable 5 的性能强悍可见一斑。该基准通过数百万个真实宇宙的长周期智能体任务来评估模子,需要调用网页搜索、文献系统、结尾等用具,完成写代码、制作幻灯片、网页照应、构建专揽以及分析文档等复杂使命流。

但与此同期,在另一个智能体基准测试中,Fable 5 败给了一个多月前发布的 GPT-5.5。
它是加州大学伯克利分校宋晓东(Dawn Song)西宾团队修复的 ALE,全称为 Agents' Last Exam(智能体的终末开云中国2026世界杯手机app在线入口锻真金不怕火),用来臆想 AI 智能体是否真的有时在平常的真实宇宙规模中完成具有经济价值的使命。
ALE 测试涵盖 55 个非膂力做事,包含 1500 + 项任务,由来自 100 + 机构的 300+ 位各人孝敬,隐敝科学、工程、医学、法律、金融、栽种等多个规模。另外,该基准提供好意思满的 GUI + CLI 环境,并基于最终效果进行可考证评估。

在 ALE 中,团队评测了 Fable 5、GPT-5.5、Composer 2.5 以偏执他前沿 Agent 系统。效果既令东谈主印象深切,也充足让东谈主平缓:
现时的 Agent 如故有时照料相配一部分专科任务,但当咱们看向最难的那一类任务,也等于那些需要捏续推理、深厚规模常识,以及长周期可靠履行的任务时,它们距离东谈主类水平仍然很远。「灵验的 Agent 期间如故到来,但果真能胜任使命的 Agent 期间,还莫得。」
团队但愿 ALE 有时成为一个新的参照系,匡助行业修复出有时在平旧例模中清爽完成经济价值使命的 Agent。

针对 Fable 5,ALE 的以下几点测试效果值得咱们宽恕:
一是,在合座榜单中,GPT-5.5 凭借 24.0% 的通过率居于榜首,杰出了 Fable 5 的 22.0%;余下挨次为 composer-2.5、Gemini-3.1-pro-preview、Deepseek-v4-pro 和 Qwen-3.7-Max。
二是,资本互异繁多。天然 Fable 5、GPT-5.5 和 Composer 2.5 的合座阐述处在统一梯队,但每项任务的资本互异止境显然:Fable 5 平均每题蹧跶约 $15.70,GPT-5.5 仅 $3.80,Composer 2.5 为 $1.33。
也等于说,在性能左近的情况下,Fable 5 每完成一项任务的资本大致是其他模子的 4 到 12 倍。

三是,最难一档一网尽扫。在最高难度「Last-Exam」档位,包括 Fable 5 在内的总共前沿 agent 通过率为 0%。

另外,ALE 中还有一个仅维持号令行环境的子集 ——ALE-CLI。
比较 Terminal-Bench 和 SWE-bench-Pro,它的隐敝范围更广、任务周期更长,难度也显然更高:
隐敝更广:ALE-CLI 的任务隐敝 ALE 55 个行业子规模中的 40 个;比较之下,Terminal-Bench 只隐敝 6 个,SWE-bench-Pro 只隐敝 5 个。
周期更长:东谈主类完成这些任务常常需要数小时到数周,而不是几分钟到几天。
难度更高:阐述最好的 Agent 通过率也唯一 25.2%;比较之下,Terminal-Bench 上的最好通过率为 82.0%,SWE-bench-Pro 为 59.1%。
这诠释,Agent 离果真熟悉还有很长的路要走,也还有很大的进步空间。

在谈到为什么 ALE 的效果和一些其他基准不太一样,尤其是 Fable 5?宋晓东示意,原因很节略:不存在一个在总共场景下都最强的 Agent。包括 Fable 5 在内,每个前沿模子都有我方擅长的规模,也都有阐述吃力的规模。
总分会把 55 个做事、1500 多个任务的效果平均到一皆,因此好多模子的分数会挤在左近区间。但果真紧迫的,不是平平分。果真有价值的信号在于:Agent 在那处告捷,在那处失败,以及这些成败模式奈何随规模而变化。相同的任务,开云(中国)2026世界杯IOS|Android手机app下载不同模子失败的原因常常统统不同。

最常见的失败模式依然是一个熟悉的问题: Agent 还莫得果真考证我方的使命,就先告示任务完成。典型的完成回复常常是:「已完成,总共查抄都通过了。」但骨子输出可能发愤必要文献、统计数目有误、遗漏舛误字段,或者违犯了任务诠释中明确写出的不停条款。

ALE 照应先容

ALE 是一个包含 1000 多个任求实例的基准测试,隐敝 55 个子规模和 13 个行业集群,由来自 100 + 机构的 300 + 位各人孝敬。
为了确保行业隐敝充足平常且具有代表性,各人照应人委员会会梳理各个规模的使命流图景,并基于 O*NET / SOC 2018 做事分类体系,识别具有经济意念念的使命流类型。

ALE 任务使命流来自真实的专科履行。它并不是虚构设想合成场景,而是由各人提供他们如故完成过的真实样子。这些样子在被纳入基准之前,还要经过多轮质料结尾,包括初步审核、工程师试开动,以及各人委员会的最终同业评审。
大多量任务都要求智能体使用筹画机,并在 GUI 交互和 CLI 操作之间来去切换。GUI 交互包括桌面专揽、浏览器和特定规模软件;CLI 操作包括 shell 剧本、代码履行和文献处理。
云开体育2026世界杯中国官网入口这意味着,ALE 要求智能体同期具备多种能力,而这些能力在现存基准中常常是被分开测试的。
ALE 的标的评测对象是 GCUA(Generalist Computer-Use Agent)智能体,举例 Claude Code 或 Codex。这类智能体有时在统一个活动轮回中纠合视觉感知、代码履行、用具使用和长周期计划。按照设想,ALE 的任务形态隐敝范围要大于仅测试 GUI 的基准,举例 OSWorld,也大于仅测试 CLI 的基准,举例 Terminal-Bench 。
在职务聚集上,ALE 不是璷黫聚集一些任务来考验 AI,而是要求任务必须兴隆三个条款:
代表性。使命流应当妥当真实的专科履行,并使用规模各人骨子会使用的软件。举例,建筑规模各人在把 2D 蓝图转机为 3D 模子时,常常会使用 SolidWorks 或 Rhino,而不是 AutoCAD。
复杂性。一项任务应当是端到端的寄托物,需要各人干与相配时候完成,而不仅仅几个节略的 UI 操作。舛误隔离在于:这是一个使命流,照旧一个单一行动。
可考证性。输出效果应当有时领受确定性查抄,或者有时按照与可不雅察居品绑定的明确评分细目进行评估。最梦想的情况是,寄托物具有确定性,不错胜利与参考输出进行比较。即使无法作念到精准匹配,判断也应当有时回应为对某个可测量居品的评估。
另外,ALE 中的任务不是由平常众包工东谈主来提供;而是来自规模专科东谈主士的真实日常使命,并经过严格筛选,以确保真实性、复杂性和手艺可履行性,共包含五谈关卡。

各人着手。照应者通过由行业从业者构成的照应人委员会招募规模各人,确保任务有时隐敝总共这个词分类体系。
任务提交。各人通过特意的网页进口提交任务提案。他们会上传我方往时完成过的样子,这些样子常常需要数天以致数周的专科使命。AI 接济用具会匡助完善每个提案,直到五个中枢构成部分被好意思满诠释:天然讲话描述、输入文献、标的软件、预期寄托物和评测程序。
初步审核。提交内容会按照类似学术会议审稿的时势进行筛选,给出大修 / 小修、边际给与、给与、强给与等决定;需要修改的任务会复返给各人继续完善。
任求杀青。通过审核的任务程序会被飘浮为可开动的资源、设立好的软件容器,以及编码后的评测逻辑。工程师会进行试开动;一朝发现缺口,任务会被自动复返给各人补充。
最终质检。终末由各人委员会进行同业评审,核查参考输出是否正确,评测界限是否校准合理,既不成窄到简直不可能通过,也不成宽到无理宽松,同期说明任务险阻文是否充分。
值得一提的是基准混浊问题,这种混浊可能来自预老练数据肖似,也可能来自针对具体任务的优化。为此,ALE 只公开 1490 个任求实例中的 150 个,约占 10%;其余任务保留在特有池中。

在具体评测经由上,ALE 将一个基准实例拆分为三个相互解耦的组件,这些组件通过界诠释晰的接口进行交互。

终末,团队但愿 Agents' Last Exam(ALE)有时成为一个新的路标和北极星,指引行业修复出有时在平旧例模中可靠完成经济价值使命的智能体。