Opus 4.8知乎大佬模型编程能力榜分数出炉

星颖发表于 2026-5-31 11:43:20

省流版：Opus 4.8 跳过了 C 和 D 题是因为Opus 4.6 已经评级A级不再复测
https://cdn3.ldstatic.com/optimized/4X/b/b/1/bb1c0c3379b3f3c12bdea96ca0b1f23b1380b496_2_669x500.jpeg
(https://linux.do#p-18457551-h-1)关于评分与实际体验
模型的扣分不完全体现实际编程体验，因此榜单按实际交互体验对模型进行分档：
档位定义A几乎不犯错，仅出现微小的 UI/交互类问题B大概率会错，但描述错误后可在 ≤2 轮内修复C大概率会错，需更多轮交互，但模型能自主推进修复，无需人工辅助D必须由人工提供大量 log、视觉描述、协助操作等才能修复F知识或方法论不足，即便有人帮助也无法完成任务

同档位中，若仅少数轮次出现问题、大部分情况表现良好，升半档，以 B+、C+ 表示。

通关机制：A 评级视作该模型在对应题目上通关，新版本默认跳过已通关题目。例如Opus 4.8 跳过了 C 和 D 题。
https://cdn3.ldstatic.com/original/4X/9/3/7/937b5cf7d04b825d8451c2895f71d3339b68ca10.png
完整榜单： LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-05%7C0)
完整评测内容：大语言模型-逻辑能力横评 26-05 月榜 (Opus/Qwen/Gemini) - 知乎 (https://zhuanlan.zhihu.com/p/2044228427075564340)

叫个鸭子 发表于 2026-6-8 22:41:10

这个方向能不能成，关键看是否能持续优化。

黄俊发表于 2026-6-14 05:24:51

这个思路我先马住！

QiYuan789 发表于 2026-6-18 23:23:02

看完先留个痕，后面实操再来反馈。

ZhaoLingFeng9 发表于 2026-6-23 10:34:20

星友，努力不一定成功，但不努力一定很舒服

发际线 发表于 2026-6-28 09:09:20

星颖这个分享很接地气，适合拆开慢慢看。

页: [1]

星颖资源网's Archiver

Opus 4.8知乎大佬模型编程能力榜分数出炉