星颖 发表于 2026-6-3 17:40:57

arXiv:2605.27922: Agent能力取决于模型还是harness?Harness-Bench

论文: Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows (https://arxiv.org/abs/2605.27922) 注: 北大*360
代码:GitHub - Qihoo360/harness-bench · GitHub (https://github.com/Qihoo360/harness-bench)
https://cdn3.ldstatic.com/optimized/4X/5/a/2/5a22995fe31f37cf5158139993423b586b977ce3_2_690x441.jpeg
harness-bench.ai (https://www.harness-bench.ai/leaderboard.html)
Leaderboard - Harness Bench
Harness Bench leaderboard across harnesses, models, domains, and completion, process, and combined task scores.
harness bench 简单来说就是固定任务和模型,只换harness,看agent表现差多少。
方法
106个沙箱化离线任务,8个类别(SWE、数据分析、DevOps、长程状态维护等),每个任务有独立的oracle grader。
评估维度有completion score 、LLM judge score 和security score。
测了6个现在比较火的agent(OpenClaw、nanobot、Hermes、ZeroClaw、NullClaw、Moltis) 8个模型后端(gpt-5.4、claude-opus-4.6、claude-sonnet-4.6、gemini-3.1-pro-preview、qwen3.6-plus、glm-5.1、kimi-k2.5、deepseek-v4-flash),总共5194条execution trajectories。
几个关键结论
同模型换框架,综合分最大差距23.8分(nanobot 76.2 vs OpenClaw 52.4)。说明agent benchmark只报模型得分而不报框架配置是不够的。
Failure mode分析(Table 3)比较有参考价值:36.4%的失败是contract/format类,即agent产出了内容但格式不满足验证条件;24.6%是tool/recovery类,即工具调用出错后没能恢复。真正的推理错误只占一小部分。对框架设计的启示:容错和输出校验比堆模型能力更影响实际成功率。
强模型(gpt-5.4、claude-opus-4.6)跨harness的方差更小,中等模型对harness质量更敏感。好的harness能显著拉高中等模型的上限。
Token效率方面差异显著,同样任务不同harness消耗的token能差3-4倍,主要取决于上下文构建策略。
局限
全部是离线沙箱任务,没有在线服务、用户交互、长期记忆场景。LLM judge score 依赖LLM judge,引入了评估方的主观性。只测了配置级差异,没有因果分解。
Section 5提出的execution-alignment概念值得注意:框架的核心价值在于维持agent推理、workspace实际状态、工具返回结果、最终验证条件之间的对应关系,大多数失败的根本原因不是模型推理出错,而是agent的内部判断和外部实际状态脱节了,比如以为文件改对了其实没改,以为命令成功了其实报错了。

为她赚百万 发表于 2026-6-9 01:50:57

星友围观,高手云集,果断参与,求带!

吴刚 发表于 2026-6-14 13:09:32

星颖,是我翻身逆袭的起点,从迷茫到坚定,每一步都离不开星友们的支持与鼓励

WeiLeiFeng2 发表于 2026-6-19 08:08:01

跟着星宝们暴风成长,终于摆脱咸鱼体质了

DreamChaser88 发表于 2026-6-23 16:13:29

知被刷新!原来还能这么玩

DingYiMin1 发表于 2026-6-28 14:16:00

谢谢分享

LunarGlimmer 发表于 3 天前

我们做的大多数事情, 没有正反馈是正常的 ,有负反馈也是正常的。”
页: [1]
查看完整版本: arXiv:2605.27922: Agent能力取决于模型还是harness?Harness-Bench