星颖 发表于 2026-6-13 15:55:31

这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬)

https://cdn3.ldstatic.com/optimized/4X/d/e/a/deab1cdbaa3454ed05d9522ec2dac461cfedef4b_2_690x347.png
我没看错吧,这个成绩应该真的能到Opus4.6Thinking了!!!A畜即将面临下架Fable的神罚!!!
https://cdn.ldstatic.com/images/emoji/twemoji/rofl.png?v=15
但是ZP别发布一周后猛猛降智,变成Z畜
完整榜单 LLM Benchmark Dashboard (https://llm2014.github.io/llm_benchmark/#category=code_v3&dataset=code_v3%7C2026-06%7C0)
https://cdn.ldstatic.com/user_avatar/linux.do/hliny/48/799508_2.png
这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/15)前沿快讯 (https://linux.do/c/news/34)
我给新佬解读一下,每一列是一个大型测试项目,比如macOS应用构建,分值代表依据表现的扣分值,越低越好,等级表示实际编程体验评分,等级比分数重要。unprompt表示一个项目仅需初始人工指令即可通过。如果一个题目上代模型已通过,则新代不测,记为Skip。 从结果来看,大概是和opus4.6差不多,完全自主能力稍差,需要人类提示修复,但是整体错误会少一点
https://cdn.ldstatic.com/letter_avatar/pacman/48/5_82eae4ed8866f2911d81590c3c2c7791.png
这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬) (https://linux.do/t/topic/2393676/32)前沿快讯 (https://linux.do/c/news/34)
模型离A
https://cdn.ldstatic.com/images/emoji/twemoji/divide.png?v=15
越近,道德就离A
https://cdn.ldstatic.com/images/emoji/twemoji/divide.png?v=15
越近,达里奥的诅咒
https://cdn.ldstatic.com/images/emoji/twemoji/laughing.png?v=15

智谱真是上市后猛猛发力啊,不像Minimax已经靠M3成为路边一条了,开源了都无人问津
https://cdn3.ldstatic.com/optimized/4X/c/0/9/c09f2b27d9ba490e1040287a5be58324c2631c70_2_331x500.png

ZhaoXiXi66 发表于 2026-6-13 18:12:11

就是为了这个资源开了终身,哈哈哈

坤龙老师 发表于 2026-6-18 02:46:57

老哥,可以链接一下吗

XiaoXing982 发表于 2026-6-20 07:10:26

看到就转:年轻不是你玩的理由,而是你奋斗的资本。告诫年轻人要珍惜青春时光,努力奋斗

老司机 发表于 2026-6-24 01:56:50

跟着星宝们暴风成长,终于摆脱咸鱼体质了

中国美妆 发表于 2026-6-28 10:53:18

今日提升,看到就是学到:提升数据就是提高用户动作的几率,而用户产生动作的诱因是什么?落脚点还是要放在内容上,放在信息的传递上。

人间宝藏 发表于 3 天前

别人追剧我追课,这波我在第五层
页: [1]
查看完整版本: 这次真的超过Opus4.6了?GLM5.2的实际工程编程测评成绩(Nao佬)