专用于理解游戏场景的开源大模型-VideoGameBunny

news2024/11/24 7:05:09

大模型在游戏开发领域扮演了重要角色,从AI机器人生成到场景搭建覆盖各个领域。但在游戏场景理解、图像识别、内容描述方面很差。

为了解决这些难题,加拿大阿尔伯塔的研究人员专门开源了一款针对游戏领域的大模型VideoGameBunny(以下简称“VGB”)。

VGB可以作为视觉AI助理,能够理解游戏环境并提供实时反馈。例如,在探索型的3A游戏中,可以帮助玩家识别关键物品或进行问答,帮助玩家能够更快地掌握游戏技巧,从而增强游戏的互动性和沉浸感。      

VGB也可以通过分析大量的游戏图像数据,够检测到图形渲染的错误、物理引擎的不一致性等,帮助开发人员快速识别和修复游戏中的bug和异常。

开源地址:https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

图片

VGB是基于Bunny模型(高性能低消耗版本)基础之上开发而成,这个模型的设计方法类似于LLaVA,采用多层感知器网络作为投影层,将来自强预训练视觉模型的视觉嵌入转化为图像标记,供语言模型处理,可有效利用了预训练的视觉和语言模型使它们能够高效地协同处理数据。

Bunny模型支持最高1152×1152像素的图像分辨率,这在处理视频游戏图像时非常重要,因为游戏画面通常包含从UI图标到大型物体等不同尺寸的视觉元素。多尺度特征的提取有助于模型捕捉这些元素,从而提高对游戏内容的理解能力。

图片

为了使VGB能够更好地理解和处理游戏的视觉内容,研究人员使用了Meta开源的LLama-3-8B作为语言模型,并结合了SigLIP视觉编码器以及S2包装器。这种多尺度特征提取方法能够捕捉游戏中不同尺度的视觉元素,从微小的用户界面图标到大型游戏对象,从而为模型提供了丰富的上下文信息。

此外,为了生成和游戏图像相匹配的指令数据,研究人员使用了多种先进的模型,包括Gemini-1.0-Pro-Vision、GPT-4V、GPT-4o等,以生成不同类型的指令。这些指令包括简短的标题、详细的标题、图像到JSON的描述以及基于图像的问答等,可以帮助模型更好地理解和响应玩家的查询和命令。

在模型训练方面,VGB使用了比较流行的LoRA参数高效微调方法,允许模型在保持预训练权重的同时,对特定任务进行微调,从而在不显著增加计算成本的情况下提高模型的性能。此外,研究团队还使用了PEFT库来指导模型的训练过程,进一步提升了训练的高效性和稳定性。

训练数据方面,研究人员收集了来自413款不同游戏的超过185,000多张图像以及将近39万个图像-指令对,涵盖了图像说明、问答对以及136,974张图像的JSON表示。

图片

JSON格式的数据包含了16个元素,能够捕捉图像的多层次细节信息,包括整体概述、具体的人物描述、天气信息、用户界面和玩家库存的摘要、场景中的物体、照明和环境效果等。

为了创建图像到JSON的数据集,研究团队使用Gemini-1.5-Pro结合特定的指示,将给定的图像转换成一个具有层次结构细节和信息的JSON文件。

图片

研究人员认为,全球游戏市场总额超过3000亿美元,在游戏开发、性能测试、提升游戏体验等方面对大模型有着巨大需求,VGB是可以辅助开发人员以及玩家达到这些目的。

本文素材来源VGB论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2101080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

7-8月月报 | Apache SeaTunnel社区进展一览

各位热爱 Apache SeaTunnel 的小伙伴们,社区 7-8 月份月报来啦!这两个月项目有了哪些进展?又有谁登上了我们社区的贡献者榜单呢?快来一睹为快吧。 Merge Stars 感谢以下小伙伴上两个月为 Apache SeaTunnel 项目和社区发展所做的…

非时序检查(Non-Sequential Check)

单元或宏(macro)的库文件可以将时序弧指定为非时序(non-sequential)检查,例如两个数据引脚之间的时序弧。非时序检查是指两个引脚之间的检查,两者都不是时钟。一个引脚是约束引脚,其作用类似于数…

WPF在MVVM架构下使用DataGrid并实现行删除

一、效果演示 二、Model创建 //User&#xff1a;用于绑定DataGrid控件的数据 private ObservableCollection<User> _users new ObservableCollection<User>();public ObservableCollection<User> Users{get { return _users; }set { _users value; }}//Sel…

day43|打家劫舍系列 198.打家劫舍 213. 打家劫舍 II 337.打家劫舍 III

文章目录 前言198.打家劫舍思路方法一213. 打家劫舍 II思路方法一337.打家劫舍 III思路方法一方法二 暴力搜索和记忆化递推总结前言 198.打家劫舍 思路 非常直接的思路 dp五部曲 dp极其下标含义:**考虑下标i(包括i)以内的房屋,最多可以偷窃的金额为dp[i]。**考虑的意思是…

IP地址安全与隐私保护

在当今数字化时代&#xff0c;IP地址作为网络设备的唯一身份标识&#xff0c;在网络安全与隐私保护中扮演着至关重要的角色。然而&#xff0c;随着网络技术的飞速发展&#xff0c;IP地址也面临着诸多挑战&#xff0c;对用户的隐私和网络安全构成了潜在威胁。本文将对IP地址在网…

JAVA基础:封装、继承和多态(详讲)

1 封装 面向对象的三大特征 &#xff1a; 封装&#xff0c; 继承&#xff0c; 多态 。 封装可以从三个层面理解 将属性和方法组合在一起&#xff08;封闭在一起&#xff09; 将属性隐藏起来&#xff0c; 对外提供可以间接操作属性的方法。&#xff08;提高程序设计安全性&…

CephFS使用

CephFS使用 一、CephFS架构二、部署CepfFS服务1、部署MDS服务2、创建CephFS metadata和data存储池3、创建cephFS并验证4、创建客户端账户5、安装ceph客户端并同步认证文件6、内核空间挂载ceph-fs6.1 客户端通过key文件挂载6.2 开机自动挂载 7、客户端模块挂载7.1 用户空间挂载c…

​​​​​​​《黑神话:悟空》—— 高科技点亮西游神话璀璨之路

《黑神话&#xff1a;悟空》作为一款以中国神话为背景的西游题材单机游戏&#xff0c;自诞生起便备受瞩目。它以中国古典名著《西游记》为蓝本&#xff0c;文化内涵深厚&#xff0c;承载着无数国人的童年回忆和文化情感。凭借高科技打造出美轮美奂的画面——细腻逼真的环境场景…

代理服务器详解(proxy server)

什么是代理服务器 (proxy server) 代理服务器&#xff08;Proxy Server&#xff09;是一个中间服务器&#xff0c;位于客户端和目标服务器之间。它代表客户端向目标服务器发送请求&#xff0c;并将目标服务器的响应返回给客户端&#xff0c;其模型如下图所示&#xff1a; 客户…

2024年“羊城杯”粤港澳大湾区网络安全大赛Misc 部分解析

2024年“羊城杯”粤港澳大湾区网络安全大赛Misc 部分解析 前言&#xff1a;数据安全&#xff1a;不一样的数据库_2&#xff1a;Misc - hiden&#xff1a;Misc - miaoro&#xff1a; 前言&#xff1a; 本次 解析是后期复现 当时没时间打 用于交流学习&#xff0c;感谢支持&…

代码随想录算法训练营第三十二天(动态规划 一)

前几天有点忙加上贪心后面好难QWQ 暂时跳过两天的贪心&#xff0c;开始学动归 动态规划理论基础: 文章链接:代码随想录 文章思维导图: 文章摘要: 动态规划&#xff0c;英文&#xff1a;Dynamic Programming&#xff0c;简称DP&#xff0c;如果某一问题有很多重叠子问题&…

运动耳机哪个牌子的好?五大口碑爆棚的骨传导运动耳机全方位分析

随着健康意识的提高和运动文化的普及&#xff0c;越来越多的人开始注重运动时的舒适度和体验感。在众多运动装备中&#xff0c;耳机作为不可或缺的一部分&#xff0c;其选择对运动体验有着直接的影响。传统的入耳式耳机在运动时可能会因为汗水、滑落等问题影响使用体验&#xf…

‘聊天不要太正经,越调戏对方越爱你的搞笑句子’

01 02 03 04 05 06 07 免费小程序《字形绘梦》上线啦&#xff01; 欢迎大家体验&#xff01;

自动驾驶技术软件教学平台

1、基本介绍 自动驾驶技术软件教学平台是中智讯公司开发的一款面向人工智能相关专业自动驾驶方向的综合型实验平台&#xff0c;主要满足&#xff1a;机器人控制技术、机器人操作系统、机器视觉技术、机器语言技术、智能边缘计算、人工智能中间件、机器人协作、SLAM导航等课程的…

餐饮行业的数字化转型——霸王餐API接口对接

霸王餐API接口对接对餐饮行业的数字化转型具有显著的推动作用&#xff0c;其关键优势和特点包括&#xff1a; 提升运营效率&#xff1a;通过自动化管理&#xff0c;减少人工操作&#xff0c;提高工作效率和减少错误。优化消费者体验&#xff1a;提供实时的菜品信息、下单和支付…

《软件工程导论》(第6版)第9章 面向对象方法学引论 复习笔记

第9章 面向对象方法学引论 一、面向对象方法学概述 1&#xff0e;要点 面向对象方法学已经成为人们在开发软件时首选的范型。面向对象技术已成为当前最好的软件开发技术。 &#xff08;1&#xff09;基本原则 面向对象方法学的出发点和基本原则&#xff0c;是尽可能模拟人…

NPDP|如何在传统行业中做好产品管理的策略与建议

在当今这个快速变化的数字时代&#xff0c;传统行业面临着前所未有的挑战与机遇。产品管理作为连接市场需求与企业生产的核心环节&#xff0c;其重要性不言而喻。对于传统行业而言&#xff0c;做好产品管理不仅意味着保持竞争力&#xff0c;更是实现转型升级、拥抱未来的关键。…

MATLAB进行天线阵列方向图综合

摘要&#xff1a;本次推文将介绍如何利用MATLAB的Sensor Array Analyzer进行天线阵列的方向图综合。 1. 阵列方向图综合理论 对于均匀平面阵列而言&#xff0c;其阵因子公式可以写成 当阵列是三角网格布置或者圆环阵时&#xff0c;《ANTENNA THEORY ANALYSIS AND DESIGN》等相…

前端跨域问题详解与解决方案指南

什么是跨域问题 跨域问题通常是由浏览器的同源策略&#xff08;Same-OriginPolicy&#xff0c;SOP&#xff09;引起的访问问题 同源策略是浏览器的一个重要安全机制&#xff0c;它用于限制一个来源的文档或脚本如何能够与另一个来源的资源进行交互 同源策略的定义 同源策略要…

【MySQL_JDBC】Day23-Day28 数据库基础、JDBC基础、聊天室3.0

数据库 数据库基本概念 数据库DataBase 定义: 保存数据的仓库就称为数据库 例如 编写一个用户管理系统&#xff0c;可以让用户在我们编写的系统上进行注册等操作&#xff0c;此时就涉及到了保存用户数据的操作&#xff0c;目前我们的做法可以将一个用户信息以一个User对象…