NVIDIA 重磅推出 NitroGen:游戏代理领域视觉行动基础模型的创新引领者

AI 概述
NVIDIA发布专为通用游戏代理设计的开放视觉行动基础模型NitroGen,它可从网络视频学习游戏操作,历经40000小时、超1000款游戏训练,还开放数据集等配套资源。其构建以公开游戏视频为起点,精选40000小时高质量数据。提取每帧动作采用三阶段流程,确保动作预测精确。配备的通用模拟器能让商业Windows游戏兼容特定接口。该模型采用特定策略架构,预训练后零-shot评估能力出色,迁移到新游戏性能提升显著。

NVIDIA 的人工智能研究团队近期发布了名为 NitroGen 的开放视觉行动基础模型,该模型专为通用游戏代理设计。NitroGen 具备从网络视频中直接学习游戏操作的能力,它通过分析游戏画面和手柄动作来掌握商业游戏的玩法。整个模型历经 40,000 小时的游戏体验训练,覆盖了超过 1,000 款不同的游戏,同时还配套开放了数据集、通用模拟器以及预训练策略。

NVIDIA 重磅推出 NitroGen:游戏代理领域视觉行动基础模型的创新引领者

NitroGen 的构建过程以公开的游戏视频为起点,这些视频中包含了如游戏手柄可视化等输入叠加层。研究团队共收集了 71,000 小时的原始视频素材,经过严格的质量筛选后,最终精选出 40,000 小时的高质量数据,这些数据来自 818 位创作者的 38,739 个视频。统计显示,这些视频涉及 846 款游戏,其中动作角色扮演类游戏占据了 34.9%的游戏时间,平台类游戏占 18.4%,动作冒险类游戏占 9.2%,其余则分布在体育、roguelike、赛车等多个游戏类别中。

在提取每帧动作时,NitroGen 采用了一个三阶段的处理流程。首先,系统利用 300 个控制器模板来定位手柄叠加层的位置。随后,借助基于 SegFormer 的分类分割模型对手柄区域进行解析,最后对坐标进行精细调整。这一流程确保了动作预测的精确性,使得 NitroGen 能够高效地进行大规模行为克隆。

此外,NitroGen 还配备了一个通用模拟器,该模拟器能够将商业 Windows 游戏转换为兼容 Gymnasium 接口的形式,支持逐帧互动,且无需对游戏代码进行任何修改。这一特性使得 NitroGen 能够在多个游戏中直接应用相同的策略。

NitroGen 采用了基于 Diffusion Transformer 的策略架构,该模型在 256×256 分辨率的 RGB 图像上运行。经过预训练后,NitroGen 在多个任务中展现出了出色的零-shot 评估能力,任务完成率介于 45%至 60%之间。预训练使得 NitroGen 在迁移到新游戏时,性能显著提升,相较于从头开始训练,提升幅度可达 52%。

以上关于NVIDIA 重磅推出 NitroGen:游戏代理领域视觉行动基础模型的创新引领者的文章就介绍到这了,更多相关内容请搜索码云笔记以前的文章或继续浏览下面的相关文章,希望大家以后多多支持码云笔记。

「点点赞赏,手留余香」

0

给作者打赏,鼓励TA抓紧创作!

微信微信 支付宝支付宝

还没有人赞赏,快来当第一个赞赏的人吧!

声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请将相关资料发送至 admin@mybj123.com 进行投诉反馈,一经查实,立即处理!
重要:如软件存在付费、会员、充值等,均属软件开发者或所属公司行为,与本站无关,网友需自行判断
码云笔记 » NVIDIA 重磅推出 NitroGen:游戏代理领域视觉行动基础模型的创新引领者

发表回复