ICML 2024 顶级论文:机器学习有什么新进展?

news2025/1/22 20:58:57

在本周的文章中,我打算探讨在国际机器学习大会 ICML 上发表的论文,该大会目前于 2024 年 7 月 21 日至 27 日在奥地利首都维也纳举行。与其他顶级人工智能会议一样,每年都会有数千篇论文提交,但录取率相对较低(过去三年不到 28%)。例如,今年的会议共提交了 9,653 篇论文,但只有 2,609 篇被接受,录取率为 27.03%。

闲话少说,让我们直接进入新内容吧!本文将分为几个部分,请看下面的目录:

目录:

  1. 最佳论文奖获得者
  2. 时间序列
  3. 大型语言模型和迁移学习
  4. 计算机视觉和音频

1. 最佳论文奖获奖者

立场:考虑使用大规模公共预训练进行差异化隐私学习(Kamath 等人):

本届获奖论文由滑铁卢大学教授Gautam Kamath 、苏黎世联邦理工学院计算机科学家Florian Tramèr和 Google DeepMind 研究员Nicholas Carlini撰写。它挑战了迄今为止所有已知的大型语言模型训练范式。

为了提供一些背景信息,作者首先观察到,在数百万个数据点上训练的大型语言模型在这些数据包含私人或敏感信息时会构成威胁。到目前为止,推荐的解决方案是在公共数据上训练模型,然后在私人数据上进行微调。

从网络上抓取的预训练数据本身可能很敏感;因为“隐私保护”的微调模型仍然可以记住其预训练数据,这会造成直接伤害并削弱“私人学习”的含义。(引自论文)

然而,作者认为,所谓的公开数据也可能包含有关个人的敏感或私人信息,这有损害机密性的风险。论文表明,这种训练范式可能导致机密性丧失,主要有两个原因:

  1. 仅基于公共和私人数据分布重叠的参数来高估公共预训练的价值。
  2. 这些大型模型的训练需要大量的计算能力,而这些计算能力无法在最终用户的机器上执行,从而导致私人数据的外包。

在法学硕士领域出现越来越多的小型模式之际,对当前私人学习实践持批评态度。通过本文,作者呼吁科学界考虑解决这些问题的解决方案。

2.时间序列

你们中的一些人可能知道(或不知道),但时间序列是我最喜欢的主题之一。因此,当论文列表公布时,我首先要看的是与时间序列相关的创新。今年,ICML 上又有很多关于这个主题的论文,我选了一些:

用于时间序列预测的仅解码器基础模型(Das 等):

“对大量时间序列数据进行训练的大型预训练模型能否学习时间模式,从而对以前未见过的数据集的时间序列进行预测?”这是研究人员在本文中试图回答的问题。

近年来,LLM 和基础模型的快速崛起启发了研究人员提出一种零样本时间序列预测的基础模型,称为 TimesFM(时间序列基础模型)。

零样本学习 (ZSL)是一种模型检测训练期间从未见过的类别的能力。条件是监督学习期间不知道这些类别。(零样本学习 | 带代码的论文)

首先,预测模型必须能够适应不同的背景和范围,同时具有足够的容量来编码来自大型数据集的所有模式。为了满足这些期望,TimesFM 的架构基于以下几个原则:

  • 修补:补丁类似于语言模型中的标记。
  • 仅解码器模型:给定一系列输入补丁,该模型经过优化,可以根据所有过去补丁的函数来预测下一个补丁。
  • 更长的输出补丁:更长的输出序列,以避免与预测范围长度的先验知识相关的限制。

图 1:LLMTime(Zero-Shot) 的架构

该零样本模型能够达到全监督模型的性能,如以下示例所示:

图 2:LLMTime(Zero-Shot)的预测可视化

立场:大型语言模型能告诉我们有关时间序列分析的什么信息(Jin,Zhang 等人):

如前所述,法学硕士为这些模型在时间序列数据上的潜在应用打开了大门。在本文中,研究人员强调了法学硕士彻底改变时间序列分析的潜力,并指出其能够“促进有效决策并朝着更通用的时间序列分析智能形式迈进”。

以下是本文的三个主要贡献:

  • 为使用 LLM 进行时间序列分析提供了新的视角。
  • 对现有方法进行基准测试和审查,并提出将 LLM 集成到时间序列分析中的路线图(见图 3)。
  • 发现未来的机会。

图3:时间序列分析路线图

TimeMIL:通过时间感知多实例学习推进多元时间序列分类(Chen, Qiu 等):

借助 Transformer 和卷积网络,多变量时间序列分类得到了极大改进。然而,这些方法通常基于监督学习。监督学习无法捕捉时间序列中的所有模式,也无法捕捉可能发生的罕见事件,因此我们只能从已经看到的内容中学习。

在本文中,研究人员提出了一种称为多实例学习 (MIL) 的新方法,可以更好地捕捉兴趣点并模拟时间序列中的时间依赖性。TimeMIL通过区分时间序列中的正实例和负实例来做出决策,其中每个时间点都是一个在实践中通常没有标签的实例。

图 4:监督模型 VS TimeMIL

时间编织者:条件时间序列生成模型(Narasimhan 等人):

时间序列生成是一个令人兴奋但又充满挑战的课题。例如,在能源领域,生成相关的时间序列意味着整合天气、位置等元数据,而这在生成模型中并不总是可行的。

在本文中,研究人员提出了一种基于扩散模型的方法,该方法利用分类、连续甚至时间特征形式的元数据来克服上述问题。此外,他们还提出了一种新的评估指标,能够准确捕捉生成的时间序列的真实性。

图 5:在传播过程中整合元数据的时间编织器架构

3.大型语言模型和迁移学习

趋势肯定是朝着更小的模型发展;比以往任何时候都多的论文几乎都朝着这个方向发展。这包括关于提炼的讨论以及更有效的微调技术:

将知识从大型基础模型转移到小型下游模型(Qiu 等人):

在本文中,AWS AI Lab 的研究人员提出了一种名为自适应特征迁移 (AFT) 的新知识迁移方法。与传统迁移学习中转移权重不同,AFT 直接对特征进行操作,自适应地迁移最有用的特征。这种方法的目标是解决与迁移学习相关的问题,例如:

  • 重量转移导致信息传递受限。
  • 预训练模型通常很大。
  • 无法结合学习互补信息的多个模型。

有关更多详细信息,所有文章的链接均位于参考资料部分。

LLaGA:大型语言和图形助手(陈等人):

在 LLaMA 和 LLaVA 进行视觉指导之后,让我介绍一下 LLaGA(在我的文章中找到 LLaxA 似乎已经成为一种传统,不是吗?😜)。

我们再次看到,法学硕士的兴起为深度学习开辟了新途径,图神经网络 (GNN) 也不例外。然而,图结构的复杂性使得用自然语言解释它们变得更加困难。

本文提出了一种名为 LLaGA(大型语言和图形助手)的新模型。该模型能够使用 LLM 处理图形数据。该方法基于将这些图形数据映射到与 LLM 兼容的空间。LLaGA 在各种数据集的泛化和可解释性方面表现出色。

图 6:LLaGA 框架

FrameQuant:Transformer 的灵活低位量化(Adepu 等人)

Transformer 非常高效,但仍然占用大量内存。因此,最近引入了多种方法来创建较小的模型,包括量化为 8 位或 4 位。

量化是一种通过使用低精度数据类型(如 8 位整数 ( int8) 而不是通常的 32 位浮点数 ( float32))来表示权重和激活,从而降低运行推理的计算和内存成本的技术。量化 (huggingface.co)

在本文中,作者建议进一步采用 2 位量化,同时将性能损失降至最低。该方法基于一种称为“融合帧”的谐波分析。他们表明,关键在于量化的应用位置,不应在原始权重空间中进行,而应在融合帧的表示中进行。

DISTILLM:面向大型语言模型的精简提炼(Ko 等人):

模型蒸馏是指使用较大的模型(称为教师模型)来创建较小的模型(称为学生模型),目的是在保持性能的同时降低成本和内存。这种方法对某些模型很有效,但对 LLM 却不太适用。本文建议将蒸馏应用于 LLM,并介绍 DistiLLM。

本文的主要贡献是:

  • 倾斜 KLD(Kullback-Leibler 散度):一种新的目标函数,针对稳定的梯度和最小的近似误差进行了优化。
  • 自适应离线策略方法:减少训练时间。
  • 先进的性能和效率: DistiLLM 与最先进的性能相媲美。

4.计算机视觉和音频:

Vision Mamba:通过双向状态空间模式实现高效的视觉表征学习(Zhu、Liao 等人):

谈论 Vision Mamba 而不提及Mamba(原始架构)有点离题。简而言之,Mamba 是一种新架构,效率极高,尤其是在处理长序列时(Mistral的最新型号之一基于此架构)。

附言:我将在未来几天发布一篇有关该主题的文章,敬请关注!

Mamba 是一种新的状态空间模型架构,在语言建模等信息密集型数据上表现出色,而之前的次二次模型则不如 Transformers。它基于结构化状态空间模型的进展路线,具有高效的硬件感知设计和实现,秉承了FlashAttention的精神。(摘自GitHub — state-spaces/mamba:Mamba SSM 架构)

图 7:Mamba Vision 架构

因此,回到 Vision Mamba (Vim),它利用 Mamba 架构使其适应视觉数据。与 Vision Transformers 相比,Vim 在 ImageNet 分类任务、COCO 对象检测和分割方面实现了卓越的性能,同时速度提高了 2.8 倍并节省了 86.8% 的 GPU 内存(这真是太棒了 👊)。

ConvNet 与 Transformer、Supervised 与 CLIP:超越 ImageNet 准确率( Vishniakov 等人):

Meta AI 的这篇论文提出,通过考虑其他参数来捕捉所有可能的细微差别,从而超越计算机视觉任务的准确性。事实上,研究人员认为,尽管 Vision Transformers、ConvNet 架构和 CLIP 之间的性能相似,但许多其他不同方面可能会有所不同。其中包括:错误类型、输出校准、可转移性和特征不变性等。

下图显示了我们在衡量视觉模型性能时可以考虑的参数。

比较具有相同准确率的模型

UniAudio:面向大型语言模型的通用音频生成(Yang,Tian 等):

正如我们近几个月所看到的,音频与法学硕士 (LLM) 的融合是一个快速发展的领域,现在越来越多的对话模型能够进行口头讨论(尤其是Kyutai的 Moshi )。

在本文中,研究人员介绍了 UniAudio,这是一个利用 LLM 技术生成各种类型音频的模型,包括声音、语音、音乐和歌唱。该模型经过 165,000 小时音频的训练,拥有 10 亿个参数。

以下是 UniAudio 工作原理的简要概述:

  • 首先,它将所有类型的目标音频与其他条件模式一起标记化。
  • 然后,它将源-目标对连接为一个序列。
  • 最后,它使用 LLM 执行下一个标记预测。

参考

  • 最佳论文奖获得者

职位:考虑使用大规模公共预训练进行差异化隐私学习 (mlr.press)

  • 时间序列

[2310.10688] 用于时间序列预测的仅解码器基础模型 (arxiv.org)

[2402.02713] 立场:大型语言模型能告诉我们有关时间序列分析的什么信息 (arxiv.org)

[2405.03140] TimeMIL:通过时间感知多实例学习推进多元时间序列分类 (arxiv.org)

[2403.02682] 时间编织者:条件时间序列生成模型 (arxiv.org)

  • 大型语言模型和迁移学习

[2406.07337] 将知识从大型基础模型转移到小型下游模型 (arxiv.org)

LLaGA:大型语言和图形助手(mlr.press)

FrameQuant:Transformer 的灵活低位量化(mlr.press)

DistiLLM:面向大型语言模型的精简提炼(mlr.press)

  • 计算机视觉和音频

Vision Mamba:通过双向状态空间模型实现高效的视觉表征学习 (mlr.press)

ConvNet 与 Transformer、Supervised 与 CLIP:超越 ImageNet 准确度 (mlr.press)

UniAudio:利用大型语言模型实现通用音频生成 (mlr.press)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2077166.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript高阶 day-02

目录 一.构造函数 1.1 JS构造函数的实例成员和静态成员 1.1.1实例成员 1.1.2静态成员 1.2构造函数原型prototype 1.3对象原型 1.4 constructor构造函数 1.5原型链 1.6构造函数实例和原型对象三角关系 1.7原型链和成员的查找机制 1.7.1 Object.prototype.hasOwnPrope…

正高职称评审中专利与论文的权重比较

正高职称评审中,专利和论文的权重因地区、行业、单位以及具体评审政策的不同而有所差异。 一般来说,专利分不同类型,包括发明专利、实用新型专利和外观设计专利。发明专利申请授权过程中要进行实质审查,含金量最高,在…

通过ClearScript V8在.NET中执行复杂JavaScript逻辑

介绍 在现代网络开发中,爬虫技术已成为数据采集和分析的核心手段之一。通常,爬虫程序需要处理复杂的JavaScript逻辑,尤其是在面对动态加载的网页时。这时,传统的HTTP请求和HTML解析已经无法满足需求。为了应对这些挑战&#xff0…

高清无水印,2024年最佳免费录屏工具集合

如果你喜欢记录游戏的精彩瞬间,那班迪录屏你一定不陌生吧,它是一款主攻游戏录制的工具,这次我们一起来探索下除了它之外还有什么工具能实现我们电脑录屏操作呢。 1.福昕REC大师 链接:www.foxitsoftware.cn/REC/ 这个软件我推荐…

深度学习——分布式训练

目录 1. 前言2.分布式训练的分类3.不并行(单机单卡)4. 数据并行 DP和DDP4.1 异同点4.2 原理4.3 DP 实现(单机多卡)4.4 DDP 实现(单机多卡,多机分布式)4.4.1DDP 基本概念4.4.2 DDP之单机多卡4.4.…

知识付费小程序搭建

近期,我的一位教育培训机构的朋友巧妙运用了一款知识付费小程序,成功解锁了教育创新的新篇章。这个月,他的教学平台迎来了显著的增长,新增生源高达200人,这一成就令人瞩目。他巧妙地将线上教学的便捷性与线下互动的沉浸…

一个php快速项目搭建框架源码,带一键CURD等功能

介绍: 框架易于功能扩展,代码维护,方便二次开发,帮助开发者简单高效降低二次开发成本,满足专注业务深度开发的需求。 百度网盘下载 图片:

汉服文化平台网站

您好!本篇论文将详细介绍汉服文化平台网站的设计与实现,该项目基于Java语言,采用SSM框架,结合MySQL数据库完成开发。如果您对汉服文化或本项目有任何兴趣或疑问,欢迎随时与我联系。 开发语言 Java 数据库 MySQL 技…

C#多项目统一版本号

问题 如果C#项目有个项目组合成,每次升级都需要修改csproj里面的版本号,处理起来比较麻烦 案例 common.targets 有如下两个项目,Main引用ClassLibrary1 namespace ClassLibrary1 {public class Class1{public void SayHello(){Console.W…

BSV区块链发布Golang软件开发工具包

​​发表时间:2024年8月8日 BSV区块链团队正式发布为Golang语言开发的软件开发工具包(SDK)。这个Golang SDK(以下称Go SDK)为开发可扩展的BSV区块链应用提供了一套升级且标准化的接口和工具。 请在GitHub上访问Go SDK…

1Panel应用推荐:MeterSphere开源持续测试工具

1Panel(github.com/1Panel-dev/1Panel)是一款现代化、开源的Linux服务器运维管理面板,它致力于通过开源的方式,帮助用户简化建站与运维管理流程。为了方便广大用户快捷安装部署相关软件应用,1Panel特别开通应用商店&am…

【protobuf入门学习(一)】 —— protobuf安装教程

目录 (一)protobuf 的基本介绍 1. 序列化概念 2. ProtoBuf 是什么 3. ProtoBuf 的使用特点 (二)protobuf 安装 2.1 protobuf ——Windows 1. 下载ProtoBuf编译器 2. 配置环境变量 3. 检查是否配置成功 2.2 protobuf —— L…

【数字时序】时钟树延迟偏差——CPPR adjustment

接上一篇文章Innovus的时序报告解读,新版的貌似多了一些信息,比如CPPR Adjustment和Derate。不太清楚这两个是什么概念,搜索之后转载2篇后端工程师的博客如下: 搜到个这个网站好像有很多后端相关的知识点分享一哈: Co…

Linux文件编程(进阶)

文章目录 Linux文件编程文件操作的基本元素(文件在磁盘上的操作)软链接和硬链接原理文件系统范围创建方式示例:在终端使用指令创建软硬链接软链接硬链接 删除源文件影响软链接和硬链接实现的具体原理link函数unlink函数代码示例:使…

【链栈的实现】--------本质为不带头结点的 头插法建立起来的单链表

1.链栈的基本属性与特征: 链栈是运算受限的单链表,只能在链表头部进行操作 2.链栈的相关基础操作汇总 初始化操作:操作结果:构造一个空栈 S。 InitStack(LinkStack *s)判定S是否为空栈: 初始条件:栈S 已存在 操作结果:若栈S为…

【Linux】全面解析进程:优先级、环境变量与地址空间

文章目录 1. 进程概念1.1 什么叫做进程?1.2 进程和程序的区别 2. linux下的进程2.1 task_struct 包含哪些内容2.2 访问(查看)进程信息2.3 通过系统调用获取进程标示符2.4 通过系统调用创建进程2.5 进程状态2.6 如何查看进程状态(指…

鸿蒙开发5.0【基于CameraKit,通过avrecorder进行录像】

1 场景描述 录像是相机应用的最重要功能之一,录像是循环帧的捕获。本文通过CameraKit自定义相机并通过avrecorder进行录像。 2 效果图 3 自定义相机录像流程图 4 方案描述 4.1 整体描述: 总体可分为:1、相机输入,2、同时输出预览流录像流…

【Python机器学习】NLP分词——利用分词器构建词汇表(三)——度量词袋之间的重合度

如果能够度量两个向量词袋之间的重合度,就可以很好地估计他们所用词的相似程度,而这也是它们语义上重合度的一个很好的估计。因此,下面用点积来估计一些新句子和原始的Jefferson句子之间的词袋向量重合度: import pandas as pdse…

win10配置安装apache服务

Welcome! - The Apache HTTP Server Project

redisson watchdog 原理

目录 1、使用2、加锁解析1、getLock2、tryLock2.1、当ttl为null时为加锁成功,返回true,否则继续往下执行,判断是否超过等待时间,当前时间减去获取锁前时间就是获取锁花费时间。2.2、tryAcquire(leaseTime, unit, threadId)2.3 、renewExpirat…