星颖资源网

 找回密码
 立即注册
查看: 6|回复: 0

又一证据表明 Gemini 烂归烂 但世界知识是真的没话说 是真的大力出奇迹

[复制链接]

2万

主题

1万

回帖

11万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
110880
发表于 2026-5-29 09:53:57 | 显示全部楼层 |阅读模式
来自 lenz 的一项研究 Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks (https://lenz.io/research/llm-disagreement)
让AI进行事实核查 并判断核查结果是否正确
官方给的各种数据乱七八糟 所以我用raw data整理了下人能看懂的数据
简单 但易懂
数据集中包含以下模型
gpt-5.4_verdict
claude-opus-4-7_verdict
gemini-3-pro_verdict
gemini-3-retrieval_verdict
sonar-pro_verdict
包含 TRUE FALSE Mostly TRUE/FALSE 和 Misleading
统计了一下 TRUE 和 Misleading (因为误导比错误更加严重)
gpt-5.4_verdictclaude-opus-4-7_verdictgemini-3-pro_verdictgemini-3-retrieval_verdictsonar-pro_verdictTRUE (越多越好)418375539520354Misleading (越少越好)1161933089158
可以看到 基本符合模型大小排列
其中 Gemini 3 答对 525 题左右
GPT 5.4 虽然是相近模型大小 但只能答对 418 题 (不排除模型更小一些)
Claude 4.7 符合日用体验和我之前的结论 属于是算力优化的小模型
但是 Gemini 和 GPT 最大的差距就是 Misleading 的数量
Gemini 3 最少仅有 30 个误导答案
而 GPT 5.4 有整整 100 多个 虽然不是最多 但也超出了可接受的范围
无论是模型训练问题 还是纯纯堆量
Gemini 哪怕干啥都不行 但他模型大 世界知识还是可以的
适合作为类似需要准确答案 简单问答的场景 (而且Gemini 还有数一数二的多模态表现 配合世界知识 这方面真的不差)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信

社群

VIP

AI

顶部

QQ|本站内容来源网友投稿或网络转载,如果有侵权的内容,请联系我们删除。|小黑屋|人人为我,我为人人!| 星颖资源网

GMT+8, 2026-6-8 05:40 , Processed in 0.040396 second(s), 22 queries .

快速回复 返回顶部 返回列表