星颖 发表于 2026-5-31 11:43:20

Opus 4.8知乎大佬模型编程能力榜分数出炉

省流版:Opus 4.8 跳过了 C 和 D 题是因为Opus 4.6 已经评级A级不再复测
https://cdn3.ldstatic.com/optimized/4X/b/b/1/bb1c0c3379b3f3c12bdea96ca0b1f23b1380b496_2_669x500.jpeg
(https://linux.do#p-18457551-h-1)关于评分与实际体验
模型的扣分不完全体现实际编程体验,因此榜单按实际交互体验对模型进行分档:
档位定义A几乎不犯错,仅出现微小的 UI/交互类问题B大概率会错,但描述错误后可在 ≤2 轮内修复C大概率会错,需更多轮交互,但模型能自主推进修复,无需人工辅助D必须由人工提供大量 log、视觉描述、协助操作等才能修复F知识或方法论不足,即便有人帮助也无法完成任务

同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+、C+ 表示。

通关机制:A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如Opus 4.8 跳过了 C 和 D 题。
https://cdn3.ldstatic.com/original/4X/9/3/7/937b5cf7d04b825d8451c2895f71d3339b68ca10.png
完整榜单: LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-05%7C0)
完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 (https://zhuanlan.zhihu.com/p/2044228427075564340)

叫个鸭子 发表于 2026-6-8 22:41:10

这个方向能不能成,关键看是否能持续优化。

黄俊 发表于 2026-6-14 05:24:51

这个思路我先马住!

QiYuan789 发表于 2026-6-18 23:23:02

看完先留个痕,后面实操再来反馈。

ZhaoLingFeng9 发表于 2026-6-23 10:34:20

星友,努力不一定成功,但不努力一定很舒服

发际线 发表于 2026-6-28 09:09:20

星颖这个分享很接地气,适合拆开慢慢看。
页: [1]
查看完整版本: Opus 4.8知乎大佬模型编程能力榜分数出炉