Opus 4.8知乎大佬模型编程能力榜分数出炉
省流版:Opus 4.8 跳过了 C 和 D 题是因为Opus 4.6 已经评级A级不再复测https://cdn3.ldstatic.com/optimized/4X/b/b/1/bb1c0c3379b3f3c12bdea96ca0b1f23b1380b496_2_669x500.jpeg
(https://linux.do#p-18457551-h-1)关于评分与实际体验
模型的扣分不完全体现实际编程体验,因此榜单按实际交互体验对模型进行分档:
档位定义A几乎不犯错,仅出现微小的 UI/交互类问题B大概率会错,但描述错误后可在 ≤2 轮内修复C大概率会错,需更多轮交互,但模型能自主推进修复,无需人工辅助D必须由人工提供大量 log、视觉描述、协助操作等才能修复F知识或方法论不足,即便有人帮助也无法完成任务
同档位中,若仅少数轮次出现问题、大部分情况表现良好,升半档,以 B+、C+ 表示。
通关机制:A 评级视作该模型在对应题目上通关,新版本默认跳过已通关题目。例如Opus 4.8 跳过了 C 和 D 题。
https://cdn3.ldstatic.com/original/4X/9/3/7/937b5cf7d04b825d8451c2895f71d3339b68ca10.png
完整榜单: LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-05%7C0)
完整评测内容: 大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 (https://zhuanlan.zhihu.com/p/2044228427075564340) 这个方向能不能成,关键看是否能持续优化。 这个思路我先马住! 看完先留个痕,后面实操再来反馈。 星友,努力不一定成功,但不努力一定很舒服 星颖这个分享很接地气,适合拆开慢慢看。
页:
[1]