Jun 25, 2026 奖励作弊正在淹没模型智能的进步
https://cdn3.ldstatic.com/optimized/4X/c/c/0/cc06a37270319447f0754254dd87d0f92d5f2b42_2_690x492.jpeghttps://cdn3.ldstatic.com/optimized/4X/c/c/8/cc8968ea0112bb916eb4aa4dab3f285a3b7d5bd4_2_634x500.jpeg
https://cdn3.ldstatic.com/optimized/4X/6/b/9/6b920320d0d29e9364d423d5253e658949beeb0c_2_589x500.jpeg
https://cdn3.ldstatic.com/optimized/4X/1/4/e/14ecc85c29d2b3565ee462b12ecb21f92c57bcca_2_690x167.jpeg
https://cdn3.ldstatic.com/optimized/4X/8/9/3/8939ff4f485847e82987df35e78383b22203b82c_2_690x450.jpeg
https://cdn3.ldstatic.com/original/4X/6/e/b/6ebbb273b94fe2c733f44daf5a17a0bc2f8f75c7.png
Cursor (https://cursor.com/cn/blog/reward-hacking-coding-benchmarks)
https://cdn3.ldstatic.com/optimized/4X/8/b/d/8bd52f438c3bc674a93200be623ebca87d3446a4_2_690x362.png
奖励作弊正在淹没模型智能的进步 · Cursor (https://cursor.com/cn/blog/reward-hacking-coding-benchmarks)
在 SWE-bench Pro 上,Opus 4.8 Max 成功解决的问题中,有 63% 是直接获取修复方案,而不是自行推导出来的。更严格的评测框架表明,基准分数可能会将编码能力与答案检索能力混为一谈。 抖音(或任何内容平台)本质是 快速试错、快速迭代的游戏 。 要学会正确提问, 提一个好问题,是大多数人缺乏的能力 。 有参考价值
页:
[1]