又一证据表明 Gemini 烂归烂但世界知识是真的没话说是真的大力出奇迹

星*** · 发表于 2026-5-29 09:53:57

来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks (https://lenz.io/research/llm-disagreement)
让AI进行事实核查并判断核查结果是否正确
官方给的各种数据乱七八糟所以我用raw data整理了下人能看懂的数据
简单但易懂
数据集中包含以下模型
gpt-5.4_verdict
claude-opus-4-7_verdict
gemini-3-pro_verdict
gemini-3-retrieval_verdict
sonar-pro_verdict
包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重)
gpt-5.4_verdictclaude-opus-4-7_verdictgemini-3-pro_verdictgemini-3-retrieval_verdictsonar-pro_verdictTRUE (越多越好)418375539520354Misleading (越少越好)1161933089158
可以看到基本符合模型大小排列
其中 Gemini 3 答对 525 题左右
GPT 5.4 虽然是相近模型大小但只能答对 418 题 (不排除模型更小一些)
Claude 4.7 符合日用体验和我之前的结论属于是算力优化的小模型
但是 Gemini 和 GPT 最大的差距就是 Misleading 的数量
Gemini 3 最少仅有 30 个误导答案
而 GPT 5.4 有整整 100 多个虽然不是最多但也超出了可接受的范围
无论是模型训练问题还是纯纯堆量
Gemini 哪怕干啥都不行但他模型大世界知识还是可以的
适合作为类似需要准确答案简单问答的场景 (而且Gemini 还有数一数二的多模态表现配合世界知识这方面真的不差)

WeiLe*** · 发表于 2026-6-8 23:18:41

先把一个小环节做到位，再去追求规模。

ljqs*** · 发表于 2026-6-14 07:17:39

果然有跟我一样想法的人

BaiJin*** · 发表于 2026-6-19 01:29:22

看完发现，很多机会其实需要主动挖掘。

坤龙*** · 发表于 2026-6-23 12:31:42

星颖赚钱星颖花，一分都不带回家

		自动登录	找回密码
密码			立即注册

又一证据表明 Gemini 烂归烂 但世界知识是真的没话说 是真的大力出奇迹

又一证据表明 Gemini 烂归烂但世界知识是真的没话说是真的大力出奇迹