这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬)

星颖发表于 2026-6-13 15:55:31

https://cdn3.ldstatic.com/optimized/4X/d/e/a/deab1cdbaa3454ed05d9522ec2dac461cfedef4b_2_690x347.png
我没看错吧，这个成绩应该真的能到Opus4.6Thinking了！！！A畜即将面临下架Fable的神罚！！！
https://cdn.ldstatic.com/images/emoji/twemoji/rofl.png?v=15
但是ZP别发布一周后猛猛降智，变成Z畜
完整榜单 LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-06%7C0)
https://cdn.ldstatic.com/user_avatar/linux.do/hliny/48/799508_2.png
这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/15)前沿快讯 (https://linux.do/c/news/34)
我给新佬解读一下，每一列是一个大型测试项目，比如macOS应用构建，分值代表依据表现的扣分值，越低越好，等级表示实际编程体验评分，等级比分数重要。unprompt表示一个项目仅需初始人工指令即可通过。如果一个题目上代模型已通过，则新代不测，记为Skip。从结果来看，大概是和opus4.6差不多，完全自主能力稍差，需要人类提示修复，但是整体错误会少一点
https://cdn.ldstatic.com/letter_avatar/pacman/48/5_82eae4ed8866f2911d81590c3c2c7791.png
这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/32)前沿快讯 (https://linux.do/c/news/34)
模型离A
https://cdn.ldstatic.com/images/emoji/twemoji/divide.png?v=15
越近，道德就离A
https://cdn.ldstatic.com/images/emoji/twemoji/divide.png?v=15
越近，达里奥的诅咒
https://cdn.ldstatic.com/images/emoji/twemoji/laughing.png?v=15

智谱真是上市后猛猛发力啊，不像Minimax已经靠M3成为路边一条了，开源了都无人问津
https://cdn3.ldstatic.com/optimized/4X/c/0/9/c09f2b27d9ba490e1040287a5be58324c2631c70_2_331x500.png

ZhaoXiXi66 发表于 2026-6-13 18:12:11

就是为了这个资源开了终身，哈哈哈

坤龙老师 发表于 2026-6-18 02:46:57

老哥，可以链接一下吗

XiaoXing982 发表于 2026-6-20 07:10:26

看到就转：年轻不是你玩的理由，而是你奋斗的资本。告诫年轻人要珍惜青春时光，努力奋斗

老司机 发表于 2026-6-24 01:56:50

跟着星宝们暴风成长，终于摆脱咸鱼体质了

中国美妆 发表于 2026-6-28 10:53:18

今日提升，看到就是学到：提升数据就是提高用户动作的几率，而用户产生动作的诱因是什么？落脚点还是要放在内容上，放在信息的传递上。

人间宝藏 发表于 3 天前

别人追剧我追课，这波我在第五层

页: [1]

星颖资源网's Archiver

这次真的超过Opus4.6了？GLM5.2的实际工程编程测评成绩(Nao佬)