星颖资源网

 找回密码
 立即注册
查看: 6|回复: 0

Opus 4.8知乎大佬模型编程能力榜分数出炉

[复制链接]

2万

主题

1万

回帖

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
110880
发表于 2026-5-31 11:43:20 | 显示全部楼层 |阅读模式
省流版:Opus 4.8 跳过了 C 和 D 题是因为Opus 4.6 已经评级A级不再复测

(https://linux.do#p-18457551-h-1)关于评分与实际体验
模型的扣分不完全体现实际编程体验,因此榜单按实际交互体验对模型进行分档:
档位定义A几乎不犯错,仅出现微小的 UI/交互类问题B大概率会错,但描述错误后可在 ≤2 轮内修复C大概率会错,需更多轮交互,但模型能自主推进修复,无需人工辅助D必须由人工提供大量 log、视觉描述、协助操作等才能修复F知识或方法论不足,即便有人帮助也无法完成任务
同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+C+ 表示。
通关机制:A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如Opus 4.8 跳过了 C 和 D 题。

完整榜单: LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-05%7C0)
完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 (https://zhuanlan.zhihu.com/p/2044228427075564340)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信

社群

VIP

AI

顶部

QQ|本站内容来源网友投稿或网络转载,如果有侵权的内容,请联系我们删除。|小黑屋|人人为我,我为人人!| 星颖资源网

GMT+8, 2026-6-8 05:40 , Processed in 0.156663 second(s), 25 queries .

快速回复 返回顶部 返回列表