今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规

news2024/11/24 17:48:58

在足球世界,裁判的哨声可谓“千金难买”,因为它能直接决定俱乐部的钱包是鼓是瘪。但球场变化莫测,非常考验裁判的水平。

2022年卡塔尔世界杯上,半自动越位识别技术(SAOT)闪亮登场,通过12台摄像机,每秒50次追踪球员的29个数据点,精确绘制出越位线,辅助裁判做越位判别,以防错判和漏判。

除此之外,有学者开始研究让大模型来“看球”,通过视频判断球员是否违规并给出相应的解释。

这个模型叫做X-VARS,在足球领域SoccerNet-XFoul数据集上进行了训练与验证。这个数据集包含了超过22k个视频-问题-答案三元组,涵盖了最基本的裁判问题。超过70名专业裁判为数据集提供了详尽的标注和决策解释,确保了数据的质量和准确性。

经过验证,X-VARS在SoccerNet-MVFoul数据集上取得了最先进的性能,X-VARS生成的决策解释水平竟与人类裁判相当。一起来看看是否真的有这么厉害。

论文标题:
X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Models

论文链接
https://arxiv.org/pdf/2404.06332.pdf

SoccerNet-XFoul数据集构建

SoccerNet-XFoul,是一个专门设计用于犯规视频识别和解释的数据集。它包含高质量的视频文本对,超过10k个视频剪辑和22k个问题,由70多名经验丰富的裁判进标注。

与其他体育数据集相比,如下图所示,SoccerNet-XFoul是体育领域中最大的数据集,涵盖了复杂问题,并且是唯一专注于裁判问题的数据集。

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

1. 确定问题

作者首先确定了裁判在比赛中必须面对的最基础、最复杂和对比赛产生影响的决定的4个关键问题:

  1. “这是犯规吗?为什么?” ;

  2. “你会给出什么牌?为什么?”;

  3. “防守者是否阻止了有希望的进攻或进球机会?” ;

  4. “裁判是否可以给予优势?”。

要回答这四个问题,模型需要深入理解比赛规则,以及理解行为发生的背景。必须考虑诸如意图、犯规位置、比赛动态和接触强度等因素。问题的答案不仅仅是视觉的,模型还必须对潜在的未来结果进行预测。例如,在评估裁判是否应该给予优势时,模型需要评估进攻方是否更有利于继续比赛而不是获得任意球。

标注者

为确保答案质量,作者精选了经验丰富的裁判进行标注。这些裁判平均执裁了655场正式比赛,经验丰富。他们可以灵活评估视频剪辑,随时暂停避免疲劳。标注者可选择德语、法语、英语或西班牙语作答,确保语言无障碍。答案经ChatGPT-3.5翻译后再由人类裁判审核,保证翻译准确。

主观性

裁判在判决时也带有很强的主观性,如下图所示,两位裁判都认为视频中的行为是犯规的。但一位裁判认为犯规强度较低,不会出示牌,而另一位标注员认为铲球速度很快且鲁莽,会出示黄牌。

由于裁判工作中存在这种固有的主观性,数据集会收集同一行为的多个答案,而不是为每个问题收集单一的决定和解释。这种多个决定和解释实际上帮助模型学习人类裁判采用的一系列有效解释和推理策略。这可以提高 AI 模型的鲁棒性,使其能够在模糊或主观情况下做出明智的决策。

为确保同一行为得到多次评估,我们随机分配视频剪辑给标注者。最终,每个行为平均拥有1.5个相同问题的答案,丰富了模型的学习资源。

数据集统计

该数据集包含10k个视频剪辑,其中包含超过22k个裁判生成的问题和答案。下图显示了裁判标注者解释中最常见单词的分布。最常用的单词是用于描述两名球员之间对抗的特定术语,从描述性术语如defender或card到评估犯规时要考虑的关键术语如intention或intensity。每个答案的单词数量范围从1到66,总共超过540k个单词,平均每个答案近25个单词,单词分布存在显著不平衡。

方法

架构

本文的目标任务是识别是否犯规,并提供了关于其决策过程的解释。主要架构如下图所示:

使用多模态模型Video-ChatGPT作为基础模型,能够理解和生成关于视频的详细对话。首先输入一个视频剪辑视频,其中 T、H、W 和 C 分别是视频的帧数、高度、宽度和通道维度,以供 CLIP ViT-L/14 模型 使用。

通过上述公式获得相应的帧特征向量和隐藏状态.其中通过将 和 相乘获得的tokens数量, 是 CLIP 的 patch 大小,是输出层的维度,是隐藏状态的维度。然后沿时间维度对隐藏状态进行平均池化,以获得时间特征 ,并沿空间维度进行池化以获得视频级空间表示

。最后将两者连接起来以获得时空特征。

在将视频特征 输入LLM之前,通过应用线性投影层将其投影到与文本嵌入相同的特征空间中。

使用表示一系列视觉标记。特征向量也沿时间维度进行平均池化,以获得单个视频级表示。视频级特征表示通过两个分类头和C_{sev}传递,以获得犯规类型(即铲球、拉扯、推搡、站立铲球、肘击、假摔、挑战或高腿)并确定是否犯规,以及相应的严重程度(即无犯规、犯规+无牌、犯规+黄牌或犯规+红牌),预测结果为:

为了在LLM中获得高性能,关键在于找到LLM能够理解的提示。鉴于使用的是VideoChatGPT骨干,作者精心设计了以下查询作为提示,以优化模型性能:

其中代表从视频-问题-答案三元组的训练集中随机抽取的一个问题, < >和< >是从经过微调的CLIP获得的关于犯规类型和严重程度识别任务的两个预测, < >是投影的时空特征。

两阶段训练方法

作者第一阶段对CLIP进行微调,进行多任务分类以学习关于足球和裁判的先验知识。第二步是微调投影层和几层LLM,以增强模型在特定领域的生成能力。

  • 阶段1微调CLIP以融入足球专业知识。虽然CLIP擅长泛化到各类图像任务,但在识别细粒度动作或事件方面仍显不足。这类动作的识别需综合考虑时间维度,而非仅依赖静态图像。例如,评估足球犯规的严重程度需考虑动作强度和速度,这无法通过单张图像准确判断。由于CLIP未针对足球数据训练,不同情景的足球视频片段可能产生相似特征,使得LLM难以区分动作。因此,作者在SoccerNet-MVFoul数据集上微调CLIP,以学习足球相关知识。训练过程中,最小化两个任务的交叉熵损失之和,鉴于损失量级相近,直接相加而不进行缩放或加权。

  • 阶段2涉及特征对齐和端到端训练。保持微调后的CLIP权重不变,仅对线性投影层和LLM进行训练。采用VideoChatGPT的预训练投影层权重作为起点进一步微调这个投影层,确保足球片段的时空特征能够与词嵌入处于同一维度空间,实现特征的有效对齐。在训练过程中,使用CLIP的预测标签<>和<>的groundtruth标签<>和<>进行替换,因为CLIP的预测可能存在噪音,导致混淆。为确保模型能够充分利用视频信息,采用了端到端的训练策略,使模型能够在整个流程中学习到最佳的特征表示和文本生成方式。

实验

人类评估

作者邀请了20名足球裁判对X-VARS模型回答的质量进行评估。这些裁判并不知道这些解释是由人类裁判还是由X-VARS系统生成的,确保了评估的公正性和客观性。

每位裁判随机评估了20个视频片段,每个片段时长为5秒,且评估过程不受时间限制。裁判们主要关注解释的质量,判断其是否与视频内容保持一致,以及决定和解释是否符合《比赛规则》。裁判们根据1到5的评分标准对每个解释进行打分,其中5分代表“非常同意”,1分代表“非常不同意”。

下表显示了结果,X-VARS 的表现与人类裁判类似,只有极小的分数差异

定性评估

下图展示了使用X-VARS模型判决的过程:

在图(a)中X-VARS能够准确回答用户的问题,与真实情况基本一致,图(b)展示了犯规情况的主观性。X-VARS将犯规解释为中等强度,而人类裁判将其解释为低强度,没有机会触球。

结论

本文邀请70多名经验丰富的裁判员标注了一个犯规视频识别和解释的数据集——SoccerNet-XFoul。还提出了一个多模态LLM:X-VARS,从裁判的角度理解足球视频。X-VARS不仅具备视频描述、问题回答、动作识别等多种功能,更能根据视频内容展开有意义的对话,判断足球运动员是否犯规,并给出合理且专业的理由。

这一研究不仅展示了多模态大语言模型在足球视频理解领域的巨大潜力,更为未来的研究提供了新的思路与方向。我们期待着X-VARS在足球领域发挥更大的作用,为比赛的公正性和透明度贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1626862.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Rabbitmq安装延迟插件rabbitmq_delayed_message_exchange失败

Docker里的Rabbitmq容器安装延迟插件rabbitmq_delayed_message_exchange失败 一启动插件Rabbitmq容器直接停止运行了 rabbitmq-plugins enable rabbitmq_delayed_message_exchange排除了版本问题和端口问题等&#xff0c;发现是虚拟机运行内存不够&#xff0c;增加虚拟机运行内…

游戏新手村18:游戏广告渠道与广告形式

上文我们说到&#xff0c;渠道为王&#xff0c;渠道可以为我们带来流量和用户&#xff0c;进而带来收入。我们可以通过哪些渠道导入用户呢&#xff1f;每个渠道有哪些优劣呢&#xff1f;在进行游戏营销推广的时候我们该如何选择呢&#xff1f; 根据付费性质&#xff0c;我们可…

Dbeaver客户端安装和使用

数据库管理软件&#xff08;DBMS&#xff09;&#xff1a; • 数据是数据库中存储的基本对象&#xff0c;种类包括文字、图形、图像、声音等等 • 数据库&#xff08;database&#xff09;是以某种有组织的方式存储的数据集合&#xff0c;保存有组织的数据的容器&#xff0c;通…

【C语言必刷题】7. 百钱百鸡

&#x1f4da;博客主页&#xff1a;爱敲代码的小杨. ✨专栏&#xff1a;《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 |《Web世界探险家》 ❤️感谢大家点赞&#x1f44d;&#x1f3fb;收藏⭐评论✍&#x1f3fb;&#xff0c;您的三连就是我持续更…

大模型_ ChatGLM-Med推理及微调部署

文章目录 ChatGLM-Med是什么数据集构建推理部署python环境切换到安装好的conda环境下载github数据切换目录在infer.py修改模型路径启动推理解决infer.py报错修改后再次启动推理完成 微调部署安装evaluate包修改模型路径启动微调 ChatGLM-Med是什么 经过中文医学指令精调/指令微…

echarts地图叠加百度地图底板实现数据可视化

这里写自定义目录标题 echarts地图叠加百度地图实现数据可视化echarts地图叠加百度地图实现数据可视化 实现数据可视化时,个别情况下需要在地图上实现数据的可视化,echarts加载geojson数据可以实现以地图形式展示数据,例如分层设色或者鼠标hover展示指标值,但如果要将echa…

国产麒麟系统下打包electron+vue项目(AppImage、deb)

需要用到的一些依赖包、安装包以及更详细的打包方法word以及麒麟官网给出的文档都已放网盘&#xff0c;链接在文章最后&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&a…

【系统架构师】-选择题(四)

1、“41”视图 ①逻辑视图(Logical View)&#xff0c;设计的对象模型(使用面向对象的设计方法时)。 ②过程视图(Process View)&#xff0c;捕捉设计的并发和同步特征。系统集成师 ③物理视图(Physical View)&#xff0c;描述了软件到硬件的映射&#xff0c;反映了分布式特性。系…

SCI一区级 | Matlab实现BES-CNN-GRU-Mutilhead-Attention多变量时间序列预测

SCI一区级 | Matlab实现BES-CNN-GRU-Mutilhead-Attention秃鹰算法优化卷积门控循环单元融合多头注意力机制多变量时间序列预测 目录 SCI一区级 | Matlab实现BES-CNN-GRU-Mutilhead-Attention秃鹰算法优化卷积门控循环单元融合多头注意力机制多变量时间序列预测预测效果基本介绍…

命令行启动pytest自动化程序时,程序卡住不动了,不继续往下执行了

一、问题描述 在执行pytestallure自动化测试工具的时候&#xff0c;命令行启动程序时&#xff0c;程序卡住不继续往下执行&#xff0c;如下图所示。 代码主函数如下&#xff1a; 二、解决方法 测试客户项目时遇到2次此类问题&#xff0c;2次问题原因不一样。 原因一&#xf…

【JVM】从i++到JVM栈帧

【JVM】从i到JVM栈帧 本篇博客将用两个代码例子&#xff0c;简单认识一下JVM与栈帧结构以及其作用 从i与i说起 先不急着看i和i&#xff0c;我们来看看JVM虚拟机&#xff08;请看VCR.JPG&#xff09; 我们初学JAVA的时候一定都听到过JAVA“跨平台”的特性&#xff0c;也就是…

XiaodiSec day017 Learn Note 小迪安全学习笔记

XiaodiSec day017 Learn Note 小迪安全学习笔记 记录得比较凌乱&#xff0c;不尽详细 day 17 主要内容&#xff1a; php 框架 thinkPHPyiilaravel 使用 fofa 搜索 thinkphp 市面上 thinkphp5 版本较多 url 结构 域名/.php(文件名)/index(目录)/index(函数名)模块名-控…

律师口才训练技巧课程介绍?

律师口才训练技巧课程介绍 一、课程背景与目标 律师口才作为法律职业的核心能力之一&#xff0c;对于律师在**辩论、法律咨询、谈判协商等场合的表现具有至关重要的作用。然而&#xff0c;许多律师在口才方面存在不足&#xff0c;难以充分发挥自己的专业能力。因此&#xff0c;…

stm32开发之netxduo组件之mqtt客户端的使用记录

前言 1使用mqtt协议的简单示例记录 代码 MQTT服务端(C# 编写,使用MQTTnet提供的示例代码) 主程序 namespace ConsoleApp1;public class Program {public static async Task Main(string[] args){await Run_Server_With_Logging();}}public static async Task Run_Server_Wi…

HarmonyOS ArkUI实战开发—状态管理

一、状态管理 在声明式UI编程框架中&#xff0c;UI是程序状态的运行结果&#xff0c;用户构建了一个UI模型&#xff0c;其中应用的运行时的状态是参数。当参数改变时&#xff0c;UI作为返回结果&#xff0c;也将进行对应的改变。这些运行时的状态变化所带来的UI的重新渲染&…

电子负载仪的远端控制

前言 最近研究了电子负载仪的远端控制&#xff08;区别于前面板控制&#xff09;&#xff0c;主要是用于程序控制&#xff0c;避免繁琐复杂的人工控制&#xff0c;举了南京嘉拓和艾维泰科的例子。 有纰漏请指出&#xff0c;转载请说明。 学习交流请发邮件 1280253714qq.com …

CoReFace:深度人脸识别的样本引导对比正则化

CoReFace: Sample-Guided Contrastive Regularization for Deep Face Recognition 一、摘要 人脸识别对比正则化&#xff08;CoReFace&#xff09;&#xff08;损失函数&#xff09;&#xff0c;将图像级正则化应用于特征表示学习。 具体来说&#xff0c;采用样本引导对比学习…

base64算法

1 介绍 将二进制数据编码为文本字符串的算法 理解&#xff1a;把一个能看懂的明文变成一个看不懂的密文数据统称为加密 2 使用 A 在浏览器控制台使用 加密 window.btoa(加密的数据) 解密 window.atob(MTIzNDQ) B 在VSconde中使用 加密 解密

【算法基础实验】图论-UnionFind连通性检测之quick-union

Union-Find连通性检测之quick-union 理论基础 在图论和计算机科学中&#xff0c;Union-Find 或并查集是一种用于处理一组元素分成的多个不相交集合&#xff08;即连通分量&#xff09;的情况&#xff0c;并能快速回答这组元素中任意两个元素是否在同一集合中的问题。Union-Fi…

基于Springboot的点餐平台

基于SpringbootVue的点餐平台的设计与实现 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringbootMybatis工具&#xff1a;IDEA、Maven、Navicat 系统展示 用户登录 首页展示 菜品信息 菜品资讯 购物车 后台登录 用户管理 菜品分类管理 菜品信息管理 …