大模型日报|10 篇必读的大模型论文

news2024/11/14 3:40:44

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.斯坦福推出大模型网络安全能力和风险评估框架 Cybench

用于网络安全的语言模型智能体(agent)能够自主识别漏洞并执行漏洞利用,有可能对现实世界造成影响。政策制定者、模型提供者以及人工智能(AI)和网络安全界的其他研究人员都对量化此智能体的能力感兴趣,从而帮助减轻网络风险并调查渗透测试的机会。

在这项工作中,来自斯坦福大学的研究团队推出了 Cybench,这是一个用于指定网络安全任务和评估智能体执行这些任务情况的框架。他们从 4 个不同的专业级夺旗(CTF)竞赛中选取了 40 个 CTF 任务,这些任务都是最新的、有意义的,而且难度跨度很大。每个任务都有自己的描述和启动文件,并在一个环境中初始化,在该环境中,智能体可以执行 bash 命令并观察输出结果。由于许多任务超出了现有智能体的能力范围,他们提出了子任务,将任务分解为中间步骤,以便进行更分级的评估;他们为 40 项任务中的 17 项添加了子任务。

为了评估智能体能力,他们构建了一个网络安全智能体,并对 7 个模型进行了评估:GPT-4o、Claude 3 Opus、Claude 3.5 Sonnet、Mixtral 8x22b Instruct、Gemini 1.5 Pro、Llama 3 70B Chat 和 Llama 3.1 405B Instruct。在没有指导的情况下,他们发现智能体只能完成最简单的完整任务,而人类团队需要长达 11 分钟才能完成这些任务,其中 Claude 3.5 Sonnet 和 GPT-4o 的成功率最高。最后,与无引导运行相比,子任务为衡量性能提供了更多信号,有子任务引导的模型在完整任务上的成功率比无子任务引导的高出 3.2%。

论文链接:
https://arxiv.org/abs/2408.08926
项目网站:
https://cybench.github.io/

2.LongVILA:长上下文视觉-语言模型全栈解决方案

长上下文能力对于多模态基础模型至关重要。在这项工作中,来自英伟达和麻省理工学院(MIT)提出了长上下文视觉-语言模型的全栈解决方案 LongVILA,包括系统、模型训练和数据集开发。

在系统方面,他们介绍了首个多模态序列并行(MM-SP)系统,该系统可实现长上下文训练和推理,在 256 个 GPU 上实现 200 万上下文长度的训练。MM-SP 的效率也很高,在纯文本设置下,它比 Ring-Style Sequence Parallelism 快 2.1 - 5.7 倍,比 Megatron-LM 快 1.1 - 1.4 倍。此外,它还能与 Hugging Face Transformers 无缝集成。

在模型训练方面,他们提出了包括对齐、预训练、上下文扩展和长-短联合监督微调在内的五阶段管道。

在数据集方面,他们构建了大规模视觉语言预训练数据集和长视频教学跟踪数据集,从而支持多阶段训练过程。

该全栈解决方案将 VILA 的可行帧数扩大了 128 倍(从 8 帧增加到 1024 帧),并将长视频字幕得分从 2.00 提高到 3.26(1.6 倍),在 1400 帧视频(274k 上下文长度)中实现了 99.5% 的准确率。随着视频帧数的增加,LongVILA-8B 在 VideoMME 基准测试中的长视频性能也得到了持续改善。

论文链接:
https://arxiv.org/abs/2408.10188
GitHub 地址:
https://github.com/NVlabs/VILA/blob/main/LongVILA.md

3.Agent Q:自主 AI 智能体的高级推理和学习

大语言模型(LLMs)在需要复杂推理的自然语言任务中表现出了非凡的能力,但将其应用于交互环境中的智能体(agent)、多步骤推理仍是一项艰巨的挑战。

传统的在静态数据集上进行监督预训练的方法无法实现自主智能体能力,而这种能力是在网络导航等动态环境中执行复杂决策所必需的。以往弥补这一差距的尝试—通过对专家论证进行监督微调—往往会受到复合误差和探索数据有限的影响,从而导致次优的政策结果。

为了克服这些挑战,来自 MultiOn 和斯坦福大学的研究团队提出了一个框架,它将蒙特卡洛树搜索(MCTS)与自批评机制相结合,并使用直接偏好优化(DPO)算法的离策略(off-policy)变体对智能体互动进行迭代微调。这一方法允许 LLM 智能体从成功和不成功的轨迹中有效地学习,从而提高它们在复杂的多步骤推理任务中的通用性。

他们在 WebShop 环境(模拟电子商务平台)中验证了这一方法,其性能始终优于行为克隆和强化微调基线,并在具备在线搜索功能时优于人类的平均性能。在真实世界的预订场景中,在一天的数据收集后,这一方法使 Llama-3 70B 模型的零样本成功率从 18.6% 提高到 81.7%(相对提高 340%),在线搜索成功率进一步提高到 95.4%。

论文链接:
https://arxiv.org/abs/2408.07199

4.Meta 推出个性化图像生成模型 Imagine yourself

在这项研究中,Meta 团队提出了 Imagine yourself,这是一种专为个性化图像生成而设计的模型。与传统的基于微调的个性化技术不同,Imagine yourself 是一种免微调模型,所有用户都能利用共享框架,无需进行个性化微调。此外,以往的工作在平衡身份保持、遵循复杂提示和保持良好视觉质量方面遇到了挑战,导致模型具有很强的参考图像复制粘贴效果,很难根据需要对参考图像做出重大改变的提示生成图像,例如改变面部表情、头部和身体姿势,而且生成图像的多样性也很低。

为了解决这些局限性,他们提出的方法包括:1)一种新的合成配对数据生成机制,以鼓励图像多样性;2)一种完全并行的注意力架构,包含三个文本编码器和一个完全可训练的视觉编码器,以提高文本的忠实性;3)一种新颖的从粗到细的多阶段微调方法,逐步推进视觉质量的边界。

研究表明,Imagine yourself 超越了 SOTA 个性化模型,在身份保持、视觉质量和文本对齐方面表现出卓越的能力。人类评估结果证明,与以前的个性化模型相比,该模型在所有方面(身份保持、文本忠实性和视觉吸引力)都具有 SOTA 优势。

论文链接:
https://ai.meta.com/research/publications/imagine-yourself-tuning-free-personalized-image-generation/

5.通用智能体新进展:自动设计,优于 SOTA 人工设计智能体

研究人员正投入大量精力开发功能强大的通用智能体(agent),其中基础模型被用作智能体系统(如思维链、自我反思、工具成型器)中的模块。 然而,机器学习的历史告诉我们,人工设计的解决方案最终会被学习的解决方案所取代。

在这项工作中,来自英属哥伦比亚大学的研究团队提出了一个新的研究领域——智能体系统的自动设计(Automated Design of Agentic Systems,ADAS),旨在自动创建功能强大的智能体系统设计,包括发明新的构建模块和/或以新的方式组合它们。

他们进一步证明,ADAS 中有一种尚未开发但前景广阔的方法,即可以用代码定义智能体,并通过元智能体在代码中编写更好的智能体来自动发现新智能体。鉴于编程语言是图灵完备的,这种方法理论上可以学习任何可能的智能体系统:包括新颖的提示、工具使用、控制流及其组合。他们提出了一种名为“元智能体搜索”(Meta Agent Search)的简单而有效的算法来证明这一想法,在这种算法中,元智能体会根据不断增长的先前发现档案对有创新性的新智能体进行迭代编程。

通过跨编码、科学和数学等多个领域的广泛实验,他们发现这一算法可以逐步发明出具有新颖设计的智能体,其性能大大优于 SOTA 人工设计智能体。重要的是,元智能体搜索发明的智能体即使在跨领域和跨模型时也能保持优异的性能,这证明了它们的鲁棒性和通用性。 只要我们能安全地开发它,这一工作说明了一个令人兴奋的新研究方向的潜力,即“自动设计出更强大的智能体系统来造福人类”。

论文链接:
https://arxiv.org/abs/2408.08435
项目地址:
https://www.shengranhu.com/ADAS/

6.JPEG-LM:一种新颖的图像、视频生成模型

由于自回归大语言模型(LLM)架构具有通用性,而且很容易集成到多模态系统中,因此最近在图像和视频生成方面的工作一直在采用这种架构。将语言生成中的自回归训练应用于视觉生成的关键在于离散化——将图像和视频等连续数据表示为离散 token。离散化图像和视频的常见方法包括原始像素值建模或矢量量化,前者过于冗长,后者需要复杂的预设训练。

在这项工作中,来自华盛顿大学和 Meta 的研究团队建议将图像和视频直接建模为通过标准编解码器(如 JPEG、AVC/H.264)保存在计算机上的压缩文件。他们使用了 Llama 架构,不做任何针对视觉的修改,通过直接输出 JPEG 和 AVC 格式的压缩文件字节,从头开始预训练 JPEG-LM 来生成图像(作为概念验证,AVC-LM 生成视频)。

对图像生成的评估表明,这种简单直接的方法比基于像素的建模和复杂的矢量量化基线更有效,该方法可将 FID 降低 31%。分析表明,在生成长尾视觉元素方面,JPEG-LM 比矢量量化模型更具优势。总之,该研究表明,使用规范编解码器表示法有助于降低语言生成和视觉生成之间的障碍,从而促进未来对多模态语言/图像/视频 LLM 的研究。

论文链接:
https://arxiv.org/abs/2408.08459

7.生成式蒙太奇拼图

文本到图像模型是创建图像的强大工具。然而,生成过程就像掷骰子一样,很难生成一张能捕捉到用户想要的所有内容的图像。

在这项工作中,来自卡内基梅隆大学和赖赫曼大学的研究团队提出了一个框架,通过合成已生成图像的各个部分来创建所需的图像,其实质就是形成生成式蒙太奇拼图(Generative Photomontage)。对于 ControlNet 使用相同的输入条件和不同的种子生成的一叠图像,他们让用户使用笔触界面从生成的结果中选择所需的部分。 他们提出了一种新颖的技术,其能接收用户的笔触,在扩散特征空间中使用基于图的优化方法分割生成的图像,然后通过一种新的特征空间混合方法合成分割区域。这一方法忠实地保留了用户选择的区域,同时将它们合成在一起。

研究证明,这一灵活的框架可用于多种应用,包括生成新的外观组合、修复不正确的形状和人工痕迹,以及改进及时对齐;该方法优于现有的图像混合方法和各种基线。

论文链接:
https://arxiv.org/abs/2408.07116
项目地址:
https://lseancs.github.io/generativephotomontage/

8.清华、智谱AI 团队推出 10000 字长文本输出模型 LongWriter

目前的长上下文大语言模型(LLM)可以处理多达 10 万个 token 的输入,但很难生成长度超过 2000 个 token 的输出。

通过对照实验,来自清华大学和智谱AI 的研究团队发现,模型的有效生成长度受到其在监督微调(SFT)过程中所见样本的内在限制。换句话说,它们的输出限制是由于现有 SFT 数据集中长输出示例的稀缺性造成的。

为了解决这个问题,他们提出了一种基于智能体的管道——AgentWrite,其可以将超长生成任务分解为子任务,使得现有可用的 LLM 能够生成超过 20000 字的连贯输出。利用 AgentWrite,他们构建了 LongWriter-6k,这是一个包含 6000 个 SFT 数据的数据集,输出长度从 2k 到 32k 字不等。通过将该数据集纳入模型训练,他们成功地将现有模型的输出长度扩展到了 10000 字以上,同时保证了输出质量。

他们还开发了用于评估超长生成能力的综合基准 LongBench-Write。9B 参数模型经过 DPO 的进一步改进,在该基准测试中取得了 SOTA,甚至超过了更大的专有模型。总的来说,这项工作表明,现有的长上下文 LLM 已经具备了更大输出窗口的潜力——只需要在模型对齐过程中提供扩展输出数据,就能释放这种能力。

论文链接:
https://arxiv.org/abs/2408.07055
GitHub 地址:
https://github.com/THUDM/LongWriter

9.谷歌推出文生图模型 Imagen 3

在这项工作中,Google DeepMind 提出了 Imagen 3,这是一种可根据文本提示生成高质量图像的潜在扩散模型。他们介绍了质量和责任评估。在评估时,Imagen 3 优于其他 SOTA 模型。此外,他们还讨论了与安全性和表示有关的问题,以及用来尽量减少模型潜在危害的方法。

论文链接:
https://arxiv.org/abs/2408.07009

10.OpenResearcher:利用人工智能加速科学研究

科学文献的快速增长给研究人员带来了巨大的挑战,他们必须努力了解各自领域的最新进展,并深入研究新的领域。

来自 GAIR lab 的研究团队及其合作者提出了一个利用人工智能(AI)技术加快研究进程的创新平台—— OpenResearcher,其可以回答研究人员提出的各种问题。OpenResearcher 基于检索增强生成(RAG)技术构建,将大语言模型(LLM)与最新的特定领域知识整合在一起。

此外,他们还开发了各种工具,用于理解研究人员的查询、从科学文献中搜索、过滤检索到的信息、提供准确而全面的答案并自我完善这些答案。OpenResearcher 可以灵活使用这些工具,同时兼顾效率和效果。因此,OpenResearcher 使研究人员能够节省时间,提高发现新见解和推动科学突破的潜力。

论文链接:
https://arxiv.org/abs/2408.06941
GitHub 地址:
https://github.com/GAIR-NLP/OpenResearcher

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057144.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

海外媒体投稿:怎样在法国媒体发稿宣传中获得成功

法国是一个充满机遇的销售市场,而媒体发稿营销推广是企业在法国市场里扩张曝光度和提升知名度的有效途径。下面我们就共享如何运用低投资得到高收益的办法,帮助企业在法国媒体发稿推广过程中获得成功。 第一步:掌握目标群体在进行法国媒体发稿…

HCIP-交换实验

根据实验要求,完成实验内容: 实验拓扑图如下所示 : 搭建拓补图: LSW1,LSW2: [LS1]interface Eth-Trunk 0 [LS1-Eth-Trunk0]q [LS1]interface g0/0/3 [LS1-GigabitEthernet0/0/3]eth-trunk 0 [LS1]interf…

微信支付商家转账到零钱申请必过方案总结

商家在申请商家转账到零钱时总会遇到各种原因的驳回,不少商家不断的修改又产生新的驳回原因从而导致工期无限延长,本文根据我们上万次成功申请商家转账到零钱的经验整理,帮助商家可以快速过审: 准备工作和注意事项 - 确认主体资格…

mq-fanout交换机

交换机 交换机是什么?步骤 交换机本身具备路由功能 消息先发到交换机,交换机在路由到队列,消费者监听队列拿到消息 广播模式是什么 是什么 例如:每个微服务创建队列,订单服务只启动1台,1个消费者,订单 怎么创建 创建一个队列 -交换机里type-选择模式(广播模式) 在交换…

AMD为何花49亿美元收购ZT Systems?

是的,是不是很震惊! 苏妈再次出手,在美国当地时间8月19日,AMD同意用价值49亿美元的现金和股票收购ZT Systems——这笔费用超过了AMD 2024年预期在数据中心GPU销售总额。 从收购的金额我们就能看出这笔收购的重要性。 但为什么AM…

NGINX常用指令及其防盗链

目录 1 NGINX的指令及其应用 1.1 if指令 1.2 set 指令 - 实现变量定义 1.3 break 指令 1.4 return 指令 1.5 rewrite 指令 1.5.1 Nginx rewrite 介绍 1.5.2 Nginx rewrite 语法 1.5.3 rewrite 指令结尾的 flag 标记说明 2 域名永久与临时重定向 2.1 永久重定向301 2.2 临时重…

同行聚势,喆啡酒店11周年熠熠生辉

当下酒店与消费者之间已超越传统服务关系,在旅途中彼此相伴,相互支持,并肩前行,喆啡酒店作为生活方式酒店的标杆品牌,超百万忠诚消费者正是其品牌旅伴。十一年发展旅程,喆啡酒店携手万千消费者,…

Mantel Test分析与绘图

目录 1.前言 2.步骤 3.在R语言中,除了mantel_test函数,还有其他几个工具和方法可以用于进行Mantel Test分析: 4.利用ggcor包在进行Mantel Test分析 5.使用ggcor包进行Mantel Test分析 6.两个距离矩阵的行名和列名不完全相同的处理方法 …

一个BUG搞懂ThreadLocal、InheritableThreadLocal、TransmittableThreadLocal

首发公众号:赵侠客 引言 最近我收到一个非常诡异的线上BUG,触发BUG的业务流程大概是这样的:A系统新建任务数据需要同步到B系统,数据是多租户的,比如C租户在A系统新建了一条任务,那么C租户登录B系统后会看到…

基于springboot和vue的酒店管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图详细视频演示技术栈系统测试为什么选择我官方认证闲鱼玩家,服务很多代码文档,百分百好评,战绩可查!!入职于互联网大厂,可以交流,共同进步。有保障的售后 代码参考数据…

《黑神话.悟空》:一场跨越神话与现实的深度探索

《黑神话.悟空》:一场跨越神话与现实的深度探索 在国产游戏日益崛起的今天,《黑神话.悟空》以其独特的剧情、丰富的人物设定和深刻的主题,成为了无数玩家翘首以盼的国产3A大作。这款游戏不仅是一次对传统故事的创新演绎,更是一场对…

oracle日常巡检命令

一、日常巡检命令 1、检查Oracle实例状态 SQL> set pages 600 lines 600 SQL> select instance_name,host_name,startup_time,status,database_status from v$instance; 说明:“STATUS”表示Oracle当前的实例状态,必须为“OPEN”;“…

中国软件评测中心:2024最新人工智能大语言模型技术发展研究报告 (附文档)

人工智能作为引领新一轮科技产业革命的战略性技术和新质生产力重要驱动力,正在引发经济、社会、文化等领域的变革和重塑,2023 年以来,以 ChatGPT、GPT-4 为代表的大模型技术的出台,因其强大的内容生成及多轮对话能力,引…

swift微调款框架使用自定义数据集进行通义千问1.5的微调

使用自定义数据集进行通义千问1.5的 Swift 微调 模型训练手册文档 通义千问(T2IQA)是一个基于Transformer架构的问答系统,本文将介绍如何使用自定义数据集对Swift语言版本的通义千问进行微调,以适应特定的问题和领域。 swift微…

ubuntu server 扩容

环境:VirtualBox、Ubuntu-server 调整虚拟磁盘大小 在 VirtualBox 主界面 工具 -- 介质 中选择你要操作的虚拟磁盘,点击属性,更改大小即可,保存后启动虚拟机 查看磁盘状态 lsblk 可以看到 sda 已经是 128G 了。ubuntu--vg-ubun…

Vue下载文件的两种方法以及文件流处理

点击按钮下载文件 1.文件流形式 pdfHeaders: {Authorization: localStorage.getItem(Access-Token).replace(/"/g, ),Content-Type: application/json,}, downLoad(){let getUrl if (process.env.NODE_ENV "development") {getUrl 测试地址} else if (p…

浅探空间智能

空间智能,这一概念在人工智能领域逐渐升温,部分归功于AI界的领军人物李飞飞博士所领导的创新项目。 Seeing is for doing and learning. 【精校】TED:李飞飞 | 空间智能让AI理解真实世界 2024.5 李飞飞在 X 上介绍称,「空间智能…

【流媒体】基于libRTMP的H264推流器

目录 1. 整体流程2. 代码2.1 头文件2.2 c文件 3. 测试 RTMP协议相关: 【流媒体】RTMP协议概述 【流媒体】RTMP协议的数据格式 【流媒体】RTMP协议的消息类型 【流媒体】RTMPDump—主流程简单分析 【流媒体】RTMPDump—RTMP_Connect函数(握手、网络连接&a…

智云-一个抓取web流量的轻量级蜜罐docker一键启动

智云-一个抓取web流量的轻量级蜜罐docker安装教程 github地址 https://github.com/xiaoxiaoranxxx/POT-ZHIYUN docker快速启动(v1.4) git clone https://github.com/xiaoxiaoranxxx/POT-ZHIYUN.git cd POT-ZHIYUN docker-compose up -d默认映射到80和8080端口 mysql不对外开放…

leetcode67. 二进制求和,简单模拟

leetcode67. 二进制求和 给你两个二进制字符串 a 和 b ,以二进制字符串的形式返回它们的和。 示例 1: 输入:a “11”, b “1” 输出:“100” 示例 2: 输入:a “1010”, b “1011” 输出:“10101” …