大模型日报|8 篇必读的大模型论文

news2024/10/6 16:18:07

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Pandora:自回归-扩散混合通用世界模型

世界模型模拟世界在不同行动下的未来状态,它们有助于创建交互式内容,并为有依据的长远推理提供基础。然而,目前的基础模型并不能完全满足通用世界模型的能力要求——大语言模型(LLM)由于依赖语言模式和对物理世界的理解有限而受到限制,而视频模型则缺乏对世界模拟的交互式行动控制。

来自 Maitrix、加州大学圣地亚哥分校和 MBZUAI 的研究团队提出了一种自回归-扩散混合模型 Pandora,通过生成视频来模拟世界状态,并允许使用自由文本操作进行实时控制,从而向建立通用世界模型迈出了一步。

Pandora 通过大规模预训练和指令微调实现了领域通用性、视频一致性和可控性。最重要的是,Pandora 通过整合预训练 LLM(7B)和预训练视频模型,绕过了从头开始训练的成本,只需要额外的轻量级微调。他们展示了 Pandora 在不同领域(室内与室外、自然与城市、人类与机器人、2D 与 3D 等)的生成结果。结果表明,通过更大规模的训练,建立更强大的通用世界模型潜力巨大。

论文链接:
https://arxiv.org/abs/2406.09455
项目地址:
https://world-model.maitrix.org/

2.牛津大学新研究:将深度贝叶斯主动学习用于 LLM 偏好建模

近年来,利用人类偏好来引导大语言模型(LLM)的行为已经取得了显著的成功。然而,数据选择和标签仍然是这些系统尤其是在大规模应用中的瓶颈。因此,选择信息量最大的点来获取人类反馈,可以大大降低偏好标签的成本,促进 LLM 的进一步发展。贝叶斯主动学习(Bayesian Active Learning)为此提供了一个原则性框架,并在各种环境中取得了成功。然而,之前将其用于偏好建模的尝试并未达到预期效果。

来自牛津大学的研究团队发现原生(naive)的认识论不确定性估计会导致获取冗余样本。为此,他们提出了一种新颖的随机获取策略——贝叶斯主动学习器偏好建模(BAL-PM),它不仅能根据偏好模型锁定认识不确定性高的点,还能在所采用的 LLM 所跨的特征空间中寻求获取的提示分布熵的最大化。

实验证明,在两个流行的人类偏好数据集中,BAL-PM 所需的偏好标签减少了 33%-68%,超过了以前的随机贝叶斯获取策略。

论文链接:
https://arxiv.org/abs/2406.10023

3.哈佛、牛津团队提出 LLM 数据选择新方法 CoLoR-Filter

选择高质量的数据进行预训练对塑造语言模型的下游任务性能至关重要。确定最佳子集是一项重大挑战,因此需要可扩展的有效启发式方法。来自哈佛大学和牛津大学的研究团队提出了一种数据选择方法 —— 条件损失减少过滤 (CoLoR-Filter),利用贝叶斯启发法的经验,基于两个辅助模型的相对损失值,推理出一种简单且计算效率高的选择标准。

除了建模原理外,他们还在两个语言建模任务中对 CoLoR-Filter 进行了实证评估:(1)从 C4 中选择数据,用于在 Books 上进行领域适应性评估;(2)从 C4 中选择数据,用于一套下游选择题回答任务。通过更积极地进行子选择和使用小型辅助模型为大型目标模型选择数据,他们展示出了该方法良好的扩展性。

一个突出的结果是,使用一对 1.5 亿参数的辅助模型选择 CoLoR-Filter 数据,可以训练一个 1.2b 参数的目标模型,使其与在 25b 随机选择的 token 上训练的 1.2b 参数模型相匹配,而 Books 的数据要少 25 倍,下游任务的数据要少 11 倍。

论文链接:
https://arxiv.org/abs/2406.10670
GitHub 地址:
https://github.com/davidbrandfonbrener/color-filter-olmo

4.GAMA:具有高级音频理解和复杂推理能力的大型音频语言模型

感知和理解非语言声音和非语言语音对于做出有助于人类与周围环境互动的决策至关重要。

来自美国马里兰大学和 Adobe 的研究团队提出了具有高级音频理解和复杂推理能力的新型通用大型音频语言模型——GAMA,其通过将 LLM 与多种类型的音频表征(包括来自定制音频 Q-Former 的特征)相集成来构建。Q-Former 是一种多层聚合器,可聚合来自音频编码器多层的特征。

他们在大规模音频语言数据集上对 GAMA 进行了微调,从而增强了它的音频理解能力。他们还提出了一个合成生成的指令微调数据集——复杂音频推理指令微调(CompA-R),其中包含要求模型对输入音频执行复杂推理的指令。他们利用 CompA-R 对 GAMA 进行指令微调,使其具备复杂推理能力,并通过利用输入音频的事件标签,进一步添加软提示作为具有高级语义证据的输入。

最后,他们还提出了一个人工标签的评估数据集 CompA-R-test,用于评估 LALM 在需要复杂推理的开放式音频问题解答方面的能力。通过自动和专家人工评估,他们发现 GAMA 在各种音频理解方面的表现优于文献中的其他大型音频语言模型。

论文链接:
https://arxiv.org/abs/2406.11768
GitHub 地址:
https://sreyan88.github.io/gamaaudio/

5.探索 LLM 在扩散模型提示编码中的作用

与 CLIP 和 T5 系列模型相比,基于纯解码器 transformer 的大语言模型(LLM)已显示出较好的文本理解能力。然而,在文本到图像的扩散模型中利用当前先进的 LLM 的模式仍有待探索。

来自 SenseTime、香港中文大学和上海 AI Lab 的研究团队观察到:直接使用 LLM 作为提示编码器会显著降低图像生成中的提示跟踪能力。他们发现这一问题背后有两个主要障碍:一是 LLM 中的下一个 token 预测训练与扩散模型中对判别提示特征的要求不一致;二是纯解码器架构的内在位置偏差。

为此,他们提出了一个新颖的框架,以充分利用 LLM 的能力。通过精心设计的使用指南,他们有效地增强了提示编码的文本表示能力,并消除了其固有的位置偏差。这使他们能够将先进的 LLM 灵活地集成到文生图像模型中。此外,他们还提供了将多种 LLM 融合到他们的框架中的有效方法。考虑到 transformer 架构所展示的优异性能和扩展能力,他们进一步设计了基于该框架的 LLM 注入扩散 transformer(LI-DiT)。

他们进行了大量实验来验证 LI-DiT 的模型规模和数据规模。得益于 LLMs 的固有能力和他们的创新设计,LI-DiT 的提示理解性能超越了开源模型以及主流闭源商业模型,包括 Stable Diffusion 3、DALL-E 3 和 Midjourney V6。

论文链接:
https://arxiv.org/abs/2406.11831

6.VideoLLM-online:用于流媒体视频的在线视频大语言模型

目前,大语言模型(LLM)已经增强了视觉功能,使其能够理解图像、视频和交错的视觉语言内容。然而,这些大型多模态模型的学习方法通常将视频视为预先确定的片段,使其在处理流媒体视频输入时效率较低。

来自新加坡国立大学和 Meta 的研究团队提出了一种新颖的视频流中学习(LIVE)框架,它可以在连续视频流中实现时间对齐、长上下文和实时对话。他们的 LIVE 框架由实现视频流对话的综合方法组成,包括:(1)旨在为连续流输入执行语言建模的训练目标;(2)将离线时间注释转换为流式对话格式的数据生成方案;(3)在真实世界视频流中加快模型响应速度的优化推理管道。

利用 LIVE 框架,他们在 Llama-2 与 Llama-3 的基础上建立了 VideoLLM-online 模型,并展示了它在处理流视频方面的显著优势。例如,他们的模型可以在 A100 GPU 上以超过 10 FPS 的速度支持 5 分钟视频片段中的流式对话。此外,它还在识别、字幕和预测等公共离线视频基准测试中展示了 SOTA。

论文链接:
https://arxiv.org/abs/2406.11816
GitHub 地址:
https://showlab.github.io/videollm-online/

7.华盛顿大学、苹果等推出 DataComp-LM:寻找下一代语言模型训练集

来自华盛顿大学、苹果、丰田综合研究所、德克萨斯大学奥斯汀分校和特拉维夫大学的研究团队及其合作者,提出了一个以改进语言模型为目标的受控数据集实验平台 DataComp for Language Models(DCLM)。作为 DCLM 的一部分,他们提供了从 Common Crawl 中提取的 240T token 的标准化语料库、基于 OpenLM 框架的有效预训练综合方案以及 53 种下游评估的广泛套件。DCLM 基准的参与者可以在 412M 到 7B 参数的模型规模内尝试重复数据删除、过滤和数据混合等数据整理策略。

作为 DCLM 的基线,他们进行了大量实验,发现基于模型的过滤是组建高质量训练集的关键。由此产生的数据集 DCLM-Baseline 可以从头开始训练一个 7B 参数的语言模型,并在具有 2.6T 训练 token 的 MMLU 上达到 64% 的 5 shot 准确率。与之前的开放数据语言模型 MAP-Neo 相比,DCLM-Baseline 在 MMLU 上提高了 6.6 个百分点,而训练所需的计算量却减少了 40%。他们的基线模型在 MMLU(63% 和 66%)上也可与 Mistral-7B-v0.3 和 Llama 3 8B 相媲美,并且在平均 53 个自然语言理解任务中表现相似,而训练所需的计算量是 Llama 3 8B 的 6.6 倍。他们的研究结果凸显了数据集设计对训练语言模型的重要性,并为进一步研究数据整理提供了一个起点。

论文链接:
https://arxiv.org/abs/2406.11794
GitHub 地址:
https://www.datacomp.ai/dclm/

8.mDPO: 多模态大语言模型的条件偏好优化

直接偏好优化(DPO)已被证明是大语言模型(LLM)对齐的有效方法。最近有研究尝试将 DPO 应用于多模态场景,但发现要实现一致的改进具有挑战性。

来自南加州大学、加利福尼亚大学戴维斯分校和微软的研究团队通过对比实验,发现了多模态偏好优化中的无条件偏好问题,即模型忽略了图像条件。为此,他们提出了一种多模态 DPO 目标 ——mDPO,通过同时优化图像偏好来防止仅语言偏好的过度优先化。此外,他们还提出了一个奖励锚,强制所选反应的奖励为正,从而避免其可能性的降低——这是相对偏好优化的一个固有问题。在两个不同规模的多模态 LLM 和三个广泛使用的基准上进行的实验表明,mDPO 有效地解决了多模态偏好优化中的无条件偏好问题,并显著提高了尤其在减少幻觉方面的模型性能。

论文链接:
https://arxiv.org/abs/2406.11839

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842064.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【stm32单片机应用】基于I2C协议的OLED显示(利用U82G库)

一、U8g2库 (一)U8g2简介 U8g2 是一个用于单色和彩色显示的嵌入式图形库,特别适用于单色OLED、LCD显示屏的驱动。它是对早期U8g库的扩展和改进,提供了更多功能和更广泛的硬件支持。U8g2作为一款强大而灵活的嵌入式图形库&#x…

为什么你不能下载哨兵遥感影像?Sentinel-1 和 Sentinel-2(解决)

​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 点击学习——>遥感影像综合处理4大遥感软件ArcGISENVIErdaseCognition 今天的文章来介绍一下如何下载欧空局哨兵数据,哨兵数据是目前我们可以免费下载的全球…

海康威视-下载的录像视频浏览器播放问题

目录 1、播放异常比对 2、视频编码检查 2.1、正常视频解析 2.2、海康视频解析 2.3、比对工具 3、转码 3.1、maven依赖 3.2、实现代码 4、验证 在前面的文章(海康威视-按时间下载录像文件_海康威视 sdk 下载录像 大小0-CSDN博客)中,通…

吊打Unity的角色动画重定向专业版工具FPS手臂武器动画动物动画角色动作微调烘焙20240620

今天发现一款关注已久的Unity插件上架商店了,可以将动画从一个通用/人形角色重新定位到另一个通用角色。 吊打Unity的角色动画重定向专业版工具FPS手臂武器动画动物动画角色动作微调烘焙202406201103 Unity 中任何通用角色的终极解决方案。它没有 Humanoid 系统的限…

分析师:是什么导致山寨币在本轮周期表现不佳?

在加密货币领域,山寨币的过度分散化问题逐渐凸显,成为本轮周期内其表现疲软的核心因素。经过深入研究,我发现这种分散化对加密货币市场的整体健康造成了严重威胁。然而,令人遗憾的是,目前看来,我们尚未找到…

ECharts 雷达图案例001-自定义节点动画

ECharts 雷达图案例001-自定义节点动画 引言 在数据可视化的领域中,ECharts 提供了一种强大的工具来展示多维数据。本文将介绍如何使用 ECharts 创建一个自定义节点样式的雷达图,让数据展示更加生动和个性化。 效果预览 通过自定义节点样式&#xff…

数据结构_二叉树

目录 一、树型结构 二、二叉树 2.1 概念 2.2 特殊的二叉树 2.3 二叉树的性质 2.4 二叉树的存储 2.5 遍历二叉树 2.6 操作二叉树 总结 一、树型结构 树是一种非线性的数据结构,它是由 n(n>0) 个有限结点组成一个具有层次关系的集合,一棵 n 个…

CatBoost算法详解

CatBoost算法详解 CatBoost(Categorical Boosting)是由Yandex开发的一种基于梯度提升决策树(GBDT)的机器学习算法,特别擅长处理包含类别特征的数据集。它不仅在精度和速度上表现出色,还对类别特征有天然的…

工业园安全生产新保障:广东地区加强可燃气体报警器校准检测

广东,作为我国经济的重要引擎,拥有众多工业园区。 这些工业园区中,涉及化工、制药、机械制造等多个领域,每天都会产生和使用大量的可燃气体。因此,可燃气体报警器的安装与校准检测,对于保障工业园区的安全…

太湖远大毛利率下滑:研发费用率远低同行,募投项目合理性疑点重重

《港湾商业观察》黄懿 6月20日,浙江太湖远大新材料股份有限公司(以下简称“太湖远大”,873743.NQ)即将迎来过会。 2023年11月30日,太湖远大所提交的上市申请材料正式获北交所受理,保荐机构为招商证券&…

渗透测试基础(五) 获取WiFi密码

1. 前提条件 需要无线网卡,kali无法识别电脑自带的网卡。 2. 实验步骤: 2.1 查看网卡 命令:airmon-ng 2.2 启动网卡监听模式 命令airmon-ng start wlan0 检查下是否处于监听模型:ifconfig查看一下,如果网卡名加…

技术支持与开发助手:Kompas AI的革新力量

一、引言 随着技术发展的迅猛进步,技术开发的高效需求日益增加。开发人员面临着更复杂的项目、更紧迫的时间表以及不断提高的质量标准。在这种背景下,能够提供智能支持的工具变得尤为重要。Kompas AI 正是在这种需求下应运而生的。它通过人工智能技术&a…

word复制技巧二则

1 纵向复制 按下Alt键,按下鼠标左键拖动,选中要纵向复制的内容,如下图, 再粘贴即可; 2 整页复制 在页的任意位置单击,然后按CtrlA,这会选中整页;然后再复制粘贴即可;

企业为什么要进行数据资产管理工作:价值与案例剖析

在数字化浪潮席卷全球的今天,数据已经成为企业不可或缺的重要资产。数据资产管理,作为确保数据资产价值得以最大化利用的关键环节,正逐渐成为企业战略规划中的核心议题。本文将深入剖析企业进行数据资产管理工作的必要性,并结合实…

TikTok达人带货合作秘籍:从联系到合作,一站式合作流程解析

在数字化营销时代,TikTok作为一个全球性的短视频平台,已成为品牌推广的重要渠道。与TikTok达人建立合作关系,借助他们的影响力和粉丝基础,可以实现快速有效的带货效果。本文Nox聚星将和大家详细讨论如何有效地与选定的TikTok达人建…

【机器学习】【深度学习】MXnet神经网络图像风格迁移学习简介

使用部分 一、编程环境 编程环境使用Windows11上的Anaconda环境,Python版本为3.6. 关于Conda环境的建立和管理,可以参考我的博客:【Anaconda】【Windows编程技术】【Python】Anaconda的常用命令及实操 二、项目结构(代码非原创…

【人机交互 复习】第8章 交互设计模型与理论

一、引文 1.模型: 有的人成功了,他把这一路的经验中可以供其他人参考的部分总结了出来,然后让别人套用。 2.本章模型 (1)计算用户完成任务的时间:KLM (2)描述交互过程中系统状态的变…

众包招聘零工兼职任务发布人力资源招聘小程序

📢众包招聘零工兼职任务发布——人力资源招聘小程序全攻略 一、引言:打破传统,开启零工新时代 随着社会的快速发展,零工经济已成为一种不可忽视的就业模式。为了满足广大求职者与招聘者的需求,众包招聘零工兼职任务发…

好用的矩阵系统推荐,抖去推,筷子剪辑,超级编导哪个好用?

抖去推、筷子剪辑、超级编导都是很流行的视频内容创作形式,每个都有自己的特点和受众群体。要选择哪个最好,取决于客户您的需求,下面也整理了以下各个产品的收费模式及各自优势,可作为参考进行选择 抖去推,抖去推是一款…

go的context

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…