谷歌推出 FACTS 基准:AI 模型准确性面临70%天花板难题剖析

消息称,谷歌旗下的 FACTS 团队携手数据科学平台 Kaggle,共同推出了 FACTS 基准测试工具包,帮助解决当前 AI 模型评估中事实准确性缺乏统一衡量标准的问题。这一工具包构建了一个全面的评估体系,尤其适用于对准确性要求极高的法律、金融及医疗等行业。
FACTS 基准将“事实性”细化为两大操作维度:一是“上下文事实性”,即模型需根据给定数据生成精确回应;二是“世界知识事实性”,即模型需从记忆库或网络中检索相关信息。初步测试数据表明,包括 Gemini3Pro、GPT-5 及 Claude4.5Opus 在内的所有参评模型,在 FACTS 基准测试中的准确率均未超过 70%。
FACTS 基准测试并非局限于简单的问答形式,而是由四个各具特色的测试模块组成,这些模块模拟了开发人员在生产环境中可能遭遇的实际失败场景。
具体包括:
- 参数基准测试(评估模型内部知识);
- 搜索基准测试(考察工具使用能力);
- 多模态基准测试(针对视觉处理能力);
- 上下文基准测试。
目前谷歌已对外开放了 3513 个测试示例,而 Kaggle 则保留了一部分私有数据,以防止开发人员针对测试数据进行针对性训练。
根据初步测试结果,Gemini3Pro 以 68.8%的综合得分在 FACTS 基准测试中脱颖而出,紧随其后的是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别是在“搜索”基准测试中,Gemini3Pro 表现尤为突出,得分高达 83.8%,而在“参数”测试中则取得了 76.4%的成绩。这一数据提示,企业在构建知识检索增强生成(RAG)系统时,应考虑将模型与搜索工具或向量数据库相结合,以提升整体准确性。
不过,值得注意的是,所有模型在多模态任务中的表现均不尽如人意,即便是表现最佳的 Gemini2.5Pro,在该类别中也仅获得了 46.9%的准确率。这一数据反映出,当前的多模态 AI 在无人监督的数据提取方面仍显稚嫩,企业在产品开发过程中需对此保持审慎态度。
以上关于谷歌推出 FACTS 基准:AI 模型准确性面临70%天花板难题剖析的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » 谷歌推出 FACTS 基准:AI 模型准确性面临70%天花板难题剖析

微信
支付宝