大模型日报|今日必读的 8 篇大模型论文

news2024/11/16 3:15:18

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.清华、智谱AI 团队推出代码评测基准 NaturalCodeBench

大型语言模型(LLM)在为生产活动生成代码方面表现出强大的能力。然而,目前的代码合成基准,如 HumanEval、MBPP 和 DS-1000,主要面向算法和数据科学的入门任务,不能充分满足现实世界中普遍存在的编码挑战要求。

为了填补这一空白,来自清华大学和智谱AI 的研究团队提出了自然代码基准(NaturalCodeBench,简称 NCB),这是一个具有挑战性的代码基准,旨在反映真实编码任务的复杂性和场景的多样性。

据介绍,NCB 由 402 个 Python 和 Java 中的高质量问题组成,这些问题都是从在线编码服务的自然用户查询中精心挑选出来的,涵盖 6 个不同的领域。考虑到为真实世界的查询创建测试用例异常困难,他们还提出了一个半自动化管道,从而提高测试用例构建的效率。与人工解决方案相比,其效率提高了 4 倍多。

他们在 39 个 LLM 上进行的系统实验发现,HumanEval 分数接近的模型之间在 NCB 上的性能差距仍然很大,这表明我们对实际代码合成场景缺乏关注,或者对 HumanEval 进行了过度优化。另一方面,即使是性能最好的 GPT-4 在 NCB 上的表现也远远不能令人满意。

论文链接:
https://arxiv.org/abs/2405.04520
GitHub 地址:
https://github.com/THUDM/NaturalCodeBench

2.“文生视频”新研究:多场景文生视频的时间对齐字幕

文生视频(T2V)模型可以在文本提示的条件下生成高质量的视频。这些 T2V 模型通常产生单场景视频片段,描述执行特定动作的实体(比如,一只小熊猫爬树)。然而,生成多场景视频是非常重要的,因为它们在现实世界中无处不在(比如,一只小熊猫爬上树,然后睡在树顶上)。

为了从预训练的 T2V 模型生成多场景视频,来自加州大学洛杉矶分校和谷歌的研究团队提出了时间对齐字幕(TALC)框架,增强了 T2V 模型中的文本条件作用机制,从而识别视频场景和场景描述之间的时间对齐。例如,他们用第一个场景描述(一只小熊猫在爬树)和第二个场景描述(小熊猫睡在树顶上)的表示对生成视频的早期和后期场景的视觉特征进行条件约束。T2V 模型可以生成符合多场景文本描述的多场景视频,并在视觉上保持一致(如实体和背景)。

此外,他们使用 TALC 框架用多场景视频-文本数据对预训练的 T2V 模型进行微调。研究表明,用 TALC 微调的模型在总分数上比基线方法高出 15.5 分。

论文链接:
https://arxiv.org/abs/2405.04682
GitHub 地址:
https://talc-mst2v.github.io/

3.StyleMamba:高效文本驱动图像风格迁移的状态空间模型

来自帝国理工学院、芬兰奥卢理工大学和戴尔的研究团队提出了一种有效的图像风格迁移框架——StyleMamba,其能够将文本提示翻译为相应的视觉风格,同时保留原始图像的内容完整性。

现有的文本引导样式化需要数百次训练迭代,并且需要大量的计算资源。为加快这一过程,他们提出了一种条件状态空间模型 StyleMamba,用于有效的文本驱动图像风格迁移,按顺序将图像特征与目标文本提示对齐。为了增强文本和图像之间的局部和全局风格一致性,他们提出了掩码和二阶方向损失来优化风格化方向,将训练迭代次数显著减少5次,推理时间显著减少3次。

广泛的实验和定性评估证实,与现有的基线相比,所提出方法达到了 SOTA。

论文链接:
https://arxiv.org/abs/2405.05027

4.注意力驱动的无训练扩散模型效率提升

扩散模型(DMs)在生成高质量和多样化的图像方面表现出优越的性能。

然而,这种卓越的性能以昂贵的架构设计为代价,特别是在领先模型中大量使用了 attention 模块。现有工作主要采用再训练流程来提高数据挖掘效率。这在计算上是昂贵的,且不太可扩展。

为此,来自普林斯顿大学和 Adobe 的研究团队提出了注意力驱动的免训练高校扩散模型(AT-EDM)框架,其利用注意力图来执行冗余 Token 的运行时修剪,而不需要任何再训练。具体来说,对于单步去噪修剪,他们开发了一种新的排序算法—— 通用加权页面排序(G-WPR),从而识别冗余的 Token,以及一种基于相似性的方法去恢复卷积操作的 Token。此外,他们还提出了一种去噪步骤感知的剪枝(DSAP)方法,来调整不同去噪时间步的剪枝预算,从而获得更好的生成质量。

广泛的评估表明,AT-EDM 在效率方面优于现有技术(例如,与 Stable Diffusion XL 相比,节省了 38.8% 的 FLOPs 和高达 1.53 倍的加速),同时保持与完整模型几乎相同的 FID 和 CLIP 分数。

论文链接:
https://arxiv.org/abs/2405.05252
GitHub 地址:
https://atedm.github.io/

5.VisionGraph:利用大型多模态模型解决视觉背景下的图论问题

大型多模态模型(LMM)在视觉理解和推理方面取得了令人瞩目的成就,显著提高了视觉背景下的数学推理能力。然而,多模态图论问题是一种极具挑战性的视觉数学类型,它要求大型多模态模型准确理解图形结构,并对视觉图形进行多步推理。此外,探索多模态图论问题将为生物、交通和机器人规划等领域带来更有效的策略。

为了朝这个方向迈进,来自哈尔滨工业大学和中山大学的研究团队,首次设计了一个名为 VisionGraph 的基准,用于探索高级 LMM 解决多模态图论问题的能力。从连通性问题到最短路径问题,这一基准包括八个复杂的图问题任务。随后,他们提出了描述-程序-推理(DPR)链,通过图形结构描述生成和算法感知多步推理来提高推理过程的逻辑准确性。

大量研究表明:1)GPT-4V 在多步图推理方面优于 Gemini Pro;2)无论是在零/少样本设置还是在有监督微调(SFT)的情况下,所有 LMM 对图形结构的感知精度都较差,这进一步影响了解决问题的性能;3)DPR 显著提高了 LMM 的多步图推理能力,GPT-4V(DPR)智能体实现了 SOTA 性能。

论文链接:
https://arxiv.org/abs/2405.04950

6.综述:用于网络安全的大型语言模型

随着网络威胁的数量和复杂程度不断增加,人们越来越需要能够自动检测漏洞、分析恶意软件和应对攻击的智能系统。

在这项工作中,来自华中科技大学的研究团队及其合作者,对网络安全领域应用 LLM(LLM4Security)的文献进行了全面回顾。通过全面收集 3万多篇相关论文,并系统分析来自顶级安全和软件工程领域的 127 篇论文,他们旨在提供一个整体视图,说明 LLM 如何用于解决网络安全领域的各种问题。

通过分析,他们得到了几个重要发现。首先,LLM 被广泛应用于各种网络安全任务,包括漏洞检测、恶意软件分析、网络入侵检测和网络钓鱼检测;其次,在这些任务中用于训练和评估 LLM 的数据集在规模和多样性上往往有限,这突出表明需要更全面和更具代表性的数据集;第三,他们发现了几种将 LLMs 用于特定网络安全领域的可行技术,如微调、迁移学习和特定领域的预训练;最后,他们讨论了 LLM4Security 未来研究的主要挑战和机遇,包括需要更多可解释和可说明的模型、解决数据隐私和安全问题的重要性,以及利用 LLMs 进行主动防御和威胁捕猎的潜力。

论文链接:
https://arxiv.org/abs/2405.04760

7.AWS 团队提出基于目标的幻觉基准 THRONE

在大型视觉语言模型(LVLM)中减少幻觉仍然是一个未解决的问题。目前的基准并没有解决开放式自由回答中的幻觉问题, 即“第一类幻觉”,相反,其关注的是对非常具体的问题格式做出反应的幻觉——通常是关于特定对象或属性的多项选择反应——即“第二类幻觉”。此外,此类基准通常需要外部 API 调用模型,而这些模型可能会发生变化。

在实践中,来自 AWS 和牛津大学的研究团队发现,减少第二类幻觉并不会导致第一类幻觉的减少,相反,这两种形式的幻觉往往互不相关。为了解决这个问题,他们提出了 THRONE,这是一个基于对象的新型自动框架,用于定量评估 LVLM 自由形式输出中的第一类幻觉。

他们使用公共语言模型来识别 LVLM 反应中的幻觉,并计算相关指标。通过使用公共数据集对大量最新的 LVLM 进行评估,他们发现,现有指标的改进并不会导致第一类幻觉的减少,而且现有的第一类幻觉测量基准并不完整。最后,他们提供了一种简单有效的数据增强方法,从而减少第一类和第二类幻觉,并以此作为强有力的基准。

论文链接:
https://arxiv.org/abs/2405.05256

8.上交大团队提出一致性大型语言模型(CLLMs)

雅可比解码等并行解码方法打破了 LLM 解码过程的顺序性,将其转化为可并行计算,因此有望提高 LLM 推理的效率。然而,在实践中,与传统的自回归(AR)解码相比,雅可比解码的速度几乎没有提高,这主要是因为雅可比解码很少能在一个定点迭代步骤中准确预测一个以上的标记。

为了解决这个问题,来自上海交通大学、加州大学圣地亚哥分校的研究团队提出了一种新方法,旨在实现从任何状态到雅可比轨迹上的定点的快速收敛。为此,他们改进了目标 LLM,以便在输入任何状态时都能持续预测定点。

广泛的实验证明了这一方法的有效性,在特定领域和开放领域基准测试中,生成速度提高了 2.4 到 3.4 倍,同时保持了生成质量。

论文链接:
https://arxiv.org/abs/2403.00835

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1656548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Latex编辑器WinEdt修改正文字体大小方法,防止字体大小对眼睛不好

一、背景 使用Latex编辑器WinEdt写论文时,默认的正文字号太小,看起来比较累眼,如下图所示。但是该编辑器没有简单的设置菜单,不能一键修改字体大小。因此通过百度测试以下方法可以,特记录如下。 二、WinEdt修改正文字…

院校信息 | 伯明翰大学24Fall新增3个专业!附截止时间!

伯明翰大学针对2024年秋季入学,推出3个新的授课型硕士项目: MSc Financial Data Science 金融数据科学理学硕士 MSc Statistical Data Science 统计学数据科学理学硕士 MSc Statistics 统计学理学硕士 以上所有课程24fall申请截止时间为6月1日&#xf…

2024年,UTONMOS也许能带领元宇宙走向下一个征程

“元宇宙元年”开启时,科技的触角企图在0与1构成的世界里、安放可以数字化的一切,绘制出时间与空间的虚拟延长线。 尼尔斯蒂芬森笔下的虚拟城市沿着一条100米宽的道路发展,楼宇上的电子标志在昏暗的街区蔓延,人们可以通过虚拟现实…

一站式HMI软件开发套件eStation,让开发更简单高效

4月份举办的北京国际车展上全球首发车117辆,新能源车型278个,越来越多的车厂通过差异化和改善UI/UE体验,来获取更多用户的青睐。为快速响应差异化竞争需求,智能座舱HMI市场遇到以下挑战: 如何兼容不同项目开发人员编程…

MySQL利用变量进行查询操作

新建连接,自带world数据库,里面自带city表格。 # MySQL利用变量进行查询操作 set cityNameHaarlemmermeer; select * from city where NamecityName;# 多个结果查询 set cityName1Haarlemmermeer; set cityName2Breda; set cityName3Willemstad; selec…

个人直播/流媒体服务解决方案实践

目录 1. 说明 1.1 拓扑结构图 2. 准备工作 2.1 软硬件清单 3. 步骤 3.1 按上面的软硬件清单准备好材料 3.2 内网检查测试 3.3 透传到公网服务器 3.5 机顶盒配置 4. 总结 5. 参考 6. 后语 1. 说明 - 在本地局域网建立流媒体服务,并发布到公网服务器供终…

读天才与算法:人脑与AI的数学思维笔记22_中文房间

1. 华生的工作模式 1.1. 请你想象一个巨大的场景,其中有单词、名字和其他可能的答案,它们散布在各处 1.1.1. IBM所做的第一步是以某种连贯的方式排列单词 1.1.2. 第二步是理解每个问题,并为该问题生成候选位置标记 1.1.2.1. 爱因斯坦会演…

ChatGPT Web Midjourney一键集成最新版

准备工具 服务器一台 推荐使用浪浪云服务器 稳定 安全 有保障 chatgpt api 推荐好用白嫖的api 项目演示 项目部署 浏览器访问casaos 添加软件原添加 https://gitee.com/langlangy_1/CasaOS-AppStore-LangLangy/raw/master/chatmjd.zip 安装此软件 等待安装 安装后再桌面设置…

开发Web3 ETF的技术难点

开发Web3 ETF(Exchange-Traded Fund,交易所交易基金)软件时,需要注意以下几个关键问题。开发Web3 ETF软件是一个复杂的过程,涉及到金融、法律和技术多个领域的专业知识。开发团队需要综合考虑上述问题,以确…

和comate一起,用JavaScript实现一个简易版五子棋小游戏

前言 五子棋起源于中国,是全国智力运动会竞技项目之一,是一种两人对弈的纯策略型棋类游戏。双方分别使用黑白两色的棋子,下在棋盘直线与横线的交叉点上,先形成五子连珠者获胜。 这次和Baidu Comate智能代码助手共同完成这个小游戏…

设置LCD为第二终端

我一直使用xshell端,开发板通过串口和 xshell进行通信。 调试好LCD 驱动之后,可以设置 LCD 作为终端,也就是开发板使用自己的显示 设备作为自己的终端,然后接上键盘就可以直接在开发板上敲命令了,将 LCD 设置为终端控制…

wish、亚马逊怎么给店铺引流?怎么运用自养号测评提高流量的转化率?

作为全球知名的跨境电商平台,wish、亚马逊为卖家提供了一个拓展海外市场的机会。然而,在wish、亚马逊平台上建立和经营一家成功的店铺需要有效的引流策略。那么,Wish、亚马逊怎样才能给店铺引流呢? 一、Wish、亚马逊怎么给店铺引…

C++STL细节,底层实现,面试题04

文章目录 19. STL19.1. 序列容器19.1.1. vector19.1.1.1. 底层实现和特点19.1.1.2. 常用函数19.1.1.3. emplace_back() vs push_back() 19.1.2. array19.1.2.1. 底层实现和特点19.1.2.2. 常用函数 19.1.3. deque19.1.3.1. 底层实现和特点19.1.3.2. 常用函数 19.1.4 list19.1.4.…

CentOS常用命令有哪些?

目录 一、CentOS常用命令有哪些? 二、不熟悉命令怎么办? 场景一:如果是文件操作,可以使用FileZilla工具来完成 场景二:安装CentOS桌面 一、CentOS常用命令有哪些? CentOS 系统中有许多常用命令及其用法…

计算机SCI期刊,IF=9.657,1区TOP,2周内出版!

一、期刊名称 Neural Networks 二、期刊简介概况 期刊类型:SCI 学科领域:计算机科学 影响因子:7.8 中科院分区:1区TOP 出版方式:订阅模式/开放出版 版面费:选择开放出版需支付$3350 三、期刊简介 神…

Android Compose 一:基础控件

Flutter 与 Compose 组件辣么像,难道是同一个google团队整的;也未深究,只是猜测。 创建项目 需要使用新版本Android studio,忽略步骤… 项目目录 MainActivity说明 1 系统默认页面 Preview 修饰的方法,只用来供开发…

怎么制作地理思维导图?方法推荐

怎么制作地理思维导图?随着信息技术的飞速发展,教育领域也迎来了深刻的变革。思维导图作为一种高效的学习工具,已经广泛应用于地理学科的教学中。它不仅可以帮助学生更好地理解和记忆地理知识,还能提高学习效率。本文将为大家推荐…

深度解析:数据结构二叉树(1)

✅作者简介:大家好,我是再无B~U~G,一个想要与大家共同进步的男人😉😉 🍎个人主页: 再无B~U~G-CSDN博客 目标 1. 掌握树的基本概念 2. 掌握二叉…

【多客开源】游戏陪玩系统,游戏陪玩源码,游戏陪玩语音社交源码运营版游戏陪玩平台源码/tt语音聊天/声优服务/陪玩系统源码开黑/约玩源码

介绍 我们针对陪玩app源码市场的发展趋势,整合市面上主流陪玩app应用功能,自主开发了多客陪玩系统源码,并可为客户提供全部原生陪玩源码,进行二次开发,打造适用于线上游戏陪玩、语音聊天、心理咨询、情感陪伴等业务场…

20240509打开VMware17出现问题:VMware Workstation 未能启动 VMware Authorization Service

20240509打开VMware17出现问题:VMware Workstation 未能启动 VMware Authorization Service 2024/5/9 16:37 VMware Workstation 未能启动 VMware Authorization Service。您可以尝试手动启动 VMware Authorization Service。如果此问题仍然存在,请联系 …