探索 Transformer²:大语言模型自适应的新突破

news2025/1/18 14:59:41

目录

一、来源:

论文链接:https://arxiv.org/pdf/2501.06252

代码链接:SakanaAI/self-adaptive-llms

论文发布时间:2025年1月14日

二、论文概述:

图1 Transformer² 概述 

图2 训练及推理方法概述

图3 基于提示的自适应

图4 奇异值微调(SVF)学习曲线 

图5 视觉语言模型(VLM)领域的结果

三、总结


一、来源:

论文链接:https://arxiv.org/pdf/2501.06252
代码链接:SakanaAI/self-adaptive-llms
论文发布时间:2025年1月14日

二、论文概述:

Transformer² 的发布在性能提升、成本降低等方面展现出优势,有可能像 Transformer 当初一样带来新一轮技术革命,推动大模型技术进一步发展。

作者表示,这项研究为人们提供了一个未来 AI 模型不再静态的初步展望。这些系统将在测试时动态地调整其计算能力,以适应它们所遇到任务的复杂性,体现出能够持续变化和终生学习的”活“的智能。

Transformer² 主要具备以下三大亮点:

  1. 奇异值微调(SVF)
  2. 使用 SVF 和 RL 进行训练
  3. 自适应策略

接下来我们从论文中寻找他的技术细节,对Transformer²进行初步的探究。

正如图 1 所示,在训练时,Transformer²会精心调整权重矩阵的奇异值以获得‘专家’向量,这些向量在后续的推理过程中发挥着关键作用。在推理的第一阶段,模型依据任务特性调用合适的专家向量,为生成准确答案奠定基础,第二阶段则完成最终的答案生成。 

图1 Transformer² 概述 

从图 2 中我们能深入了解其构建过程。在训练环节(左图),SVF 与 RL 协同工作,学习得到具有针对性的专家向量。而在推理阶段(右图),Transformer² 提供了三种灵活的方法来应对不同的任务需求,如基于提示的方法通过巧妙构建提示来筛选专家向量,基于任务分类器的方法利用专门训练的分类器提高任务识别能力,基于混合的方法则通过创新的线性插值和 CEM 搜索实现更精准的自适应组合。

图2 训练及推理方法概述

Transformer²共有三种自适应策略,分别是

  • 基于提示的适应:通过提示词,对任务进行分类并选择预训练的 z 向量。

  • 基于分类器的适应:使用 SVF 训练的任务分类器,在推理中识别任务并选择合适的 z 向量。

  • 少样本适应:通过加权插值组合多个预训练的 z 向量。根据少样本评估集上的性能调整权重。

其中从图 3 中可以清晰地看到,Transformer² 利用一种特殊的自适应提示,其核心目的是将接收到的任务提示分类到预定义的类别之中。这就好比为不同的任务提示找到了它们各自对应的 “收纳箱”,让模型能够更高效地处理这些信息。

举例来说,当用户输入一个关于数学计算的任务提示时,自适应提示会迅速将其归类到数学相关的预定义类别中,然后模型就能精准地调用擅长数学任务的 “专家” 向量,给出准确的计算结果或解决方案。

图3 基于提示的自适应

在探究 Transformer² 中奇异值微调(SVF)的效果时,图 4 为我们呈现了关键信息。从图中可以看到,那些虚线代表着 LLAMA3 - 8B INSTRUCT 在每个任务测试集上的性能表现。而 SVF 的强大之处在于,它通过有效的微调,成功地超越了基础性能。

为了更全面地展示 SVF 的学习能力,作者不仅展示了最终用于评估的最佳验证分数对应的检查点(用醒目的红点标记),还给出了完整的训练曲线,没有采用提前停止的策略。这意味着我们能清晰地看到 SVF 在整个训练过程中的学习进展。

图4 奇异值微调(SVF)学习曲线 

同时,作者使用 SVF 对 LLAMA3 - LLAVA - NEXT - 8B 进行微调,使基础模型的性能提升超过 39%(见图 5)。为确保公平比较,在附录 4.3 中针对不同架构和优化目标,对模型和 LoRA 基线进行了广泛的消融实验。由于其关键的参数化方式,训练 SVF 所需资源大幅减少,其训练参数不到作者LoRA 实现的 10%。 

(读论文看到这里我想到了刚发布的deepseekv3,其不仅在性能上霸榜,更是在训练效率上遥遥领先,值得大家关注!)

图5 视觉语言模型(VLM)领域的结果

当然,既然比其他模型多出了自适应功能,那么就需要相应的计算,作者解释:"表 1 报告了 Transformer² 的提示自适应策略所需的推理时间,其中分别列出了第一遍和第二遍解决整个问题集所花费的时间。请注意,第二遍推理时间是解决问题所花费的时间,第一遍推理时间是自适应所花费的时间,第一遍与第二遍推理时间的比率在括号内。虽然额外的一遍推理可能看似使总体运行时间翻倍,但重要的是要注意,推理时间主要取决于生成的令牌数量。在我们的设定中,它是O(n),其中n是输入的长度。ARC-challenge 的成本比率较大,因为它们是单项选择题,因此第二遍的成本也是O(n) 。在一般情况下,我们认为假设这个比率更接近 MATH 和 Humaneval 的比率是合理的。"

三、总结:

在本文中,作者介绍了 Transformer²,为实现自适应大语言模型(LLMs)提供了一个全新蓝图。在此框架内,首先提出了奇异值微调(SVF)方法,与先前的微调方法相比,它性能更优,同时成本更低、组合性更强,还能对过拟合进行正则化处理 —— 这些都是实现可扩展自适应的关键特性。以一组 SVF 专家向量作为构建模块,我们开发了三种有效的自适应策略,每种策略都有独特优势,并且随着对测试时条件了解的增多,能带来持续的性能提升。

尽管 Transformer² 取得了令人瞩目的成果,但未来仍有诸多令人期待的研究方向。其局限性之一在于,SVF 专家向量的能力与基础模型的潜在组件紧密相关。为解决这一问题,模型融合提供了一个颇具前景的方向,它能将专门化的模型合并为一个能力更强的单一模型。此外,虽然我们基于交叉熵方法(CEM)的自适应策略能有效平衡性能与效率,但扩展到大量特定领域可能会导致一次性计算成本增加。不过,性能提升和自适应能力增强带来的好处抵消了这种权衡。模型融合和高效自适应技术的进步催生了在公开排行榜上名列前茅的模型,使其成为 Transformer² 基础模型的有力候选,为自适应大语言模型开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2278516.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【北京迅为】iTOP-4412全能版使用手册-第八十七章 安装Android Studio

iTOP-4412全能版采用四核Cortex-A9,主频为1.4GHz-1.6GHz,配备S5M8767 电源管理,集成USB HUB,选用高品质板对板连接器稳定可靠,大厂生产,做工精良。接口一应俱全,开发更简单,搭载全网通4G、支持WIFI、蓝牙、…

LDD3学习8--linux的设备模型(TODO)

在LDD3的十四章,是Linux设备模型,其中也有说到这个部分。 我的理解是自动在应用层也就是用户空间实现设备管理,处理内核的设备事件。 事件来自sysfs和/sbin/hotplug。在驱动中,只要是使用了新版的函数,相应的事件就会…

Jira中bug的流转流程

Jira中bug的状态 1. 处理Bug的流程2. bug状态流转详述bug的状态通常包括 1. 处理Bug的流程 2. bug状态流转详述 bug的状态通常包括 未解决 1. 测试人员创建一个bug,填写bug的详细信息,如概要、bug级别、复现步骤、现状、预期结果等 2. 定位bug&#x…

解决关于Xcode16提交审核报错

# 问题描述 The following issues occurred while distributing your application. Asset validation failed Invalid Executable. The executable xxx.app/Frameworks/HappyDNS.framework/HappyDNS contains bitcode.(lD:ef5dd249-731f-4731-8173-8e4a12519352) Asset valida…

windows下安装并使用node.js

一、下载Node.js 选择对应你系统的Node.js版本下载 Node.js官网下载地址 Node.js中文网下载地址??? 这里我选择的是Windows64位系统的Node.js20.18.0(LTS长期支持版本)版本的.msi安装包程序 官网下载: 中文网下载: 二、安…

基于SpringBoot+Vue旅游管理系统的设计和实现(源码+文档+部署讲解)

个人名片 🔥 源码获取 | 毕设定制| 商务合作:《个人名片》 ⛺️心若有所向往,何惧道阻且长 文章目录 个人名片环境需要技术栈功能介绍功能说明 环境需要 开发语言:Java 框架:springboot JDK版本:JDK1.8 数据库&…

python之二维几何学习笔记

一、概要 资料来源《机械工程师Python编程:入门、实战与进阶》安琪儿索拉奥尔巴塞塔 2024年6月 点和向量:向量的缩放、范数、点乘、叉乘、旋转、平行、垂直、夹角直线和线段:线段中点、离线段最近的点、线段的交点、直线交点、线段的垂直平…

RabbitMQ---消息确认和持久化

(一)消息确认 1.概念 生产者发送消息后,到达消费端会有以下情况: 1.消息处理成功 2.消息处理异常 如果RabbitMQ把消息发送给消费者后就把消息删除,那么就可能会导致,消息处理异常想要再获取这条消息的时…

map和set c++

关联式容器也是⽤来存储数据的,与序列式容器不同的是,关联式容器逻辑结构通常是⾮线性结构,两个位置有紧密的关联关系,交换⼀下,他的存储结构就被破坏了。顺序容器中的元素是按关键字来保存和访问的。关联式容器有map/…

turtle教学课程课堂学习考试在线网站

完整源码项目包获取→点击文章末尾名片!

Digital Document System (DDS)

Digital Document System (DDS) 数字档案平台 信息注入

Springer Nature——Applied Intelligence 投稿指南

投稿系统:Editorial Manager (Manuscript and Peer Review) : 使用Editorial Manager 投稿系统的期刊列表:期刊列表 期刊主页:Spring Nature 主页 投稿主页:Spring Nature Submit SystemSubmission Guidelines: Official Submissi…

如何在前端给视频进行去除绿幕并替换背景?-----Vue3!!

最近在做这个这项目奇店桶装水小程序V1.3.9安装包骑手端V2.0.1小程序前端 最近,我在进行前端开发时,遇到了一个难题“如何给前端的视频进行去除绿幕并替换背景”。这是一个“数字人项目”所需,我一直在冥思苦想。终于有了一个解决方法…

使用python+pytest+requests完成自动化接口测试(包括html报告的生成和日志记录以及层级的封装(包括调用Json文件))

一、API的选择 我们进行接口测试需要API文档和系统,我们选择JSONPlaceholder免费API,因为它是一个非常适合进行接口测试、API 测试和学习的工具。它免费、易于使用、无需认证,能够快速帮助开发者模拟常见的接口操作(增、删、改、…

UE4原生的增量Cook原理

设置Cook的步骤后&#xff0c;断点进入到如下堆栈&#xff1a; UCookOnTheFlyServer::StartCookByTheBook(const UCookOnTheFlyServer::FCookByTheBookStartupOptions &) CookOnTheFlyServer.cpp:7723 UCookCommandlet::CookByTheBook(const TArray<…> &, TArr…

C#表达式和运算符

本文我们将学习C#的两个重要知识点&#xff1a;表达式和运算符。本章内容会理论性稍微强些&#xff0c;我们会尽量多举例进行说明。建议大家边阅读边思考&#xff0c;如果还能边实践就更好了。 1. 表达式 说到表达式&#xff0c;大家可能感觉有些陌生&#xff0c;我们先来举个…

蓝桥杯 Python 组知识点容斥原理

容斥原理 这张图初中或者高中数学课应该画过 也就是通过这个简单的例子引出容斥原理的公式 这张图的面积&#xff1a;s1 s3 s7 - 2 * s2 - 2 * s4 - 2 * s6 3 * s5 通过此引导出容斥原理公式 那么下面来一起看看题目 题目描述 给定 n,m 请求出所有 n 位十进制整数中有多…

PDF文件提取开源工具调研总结

概述 PDF是一种日常工作中广泛使用的跨平台文档格式&#xff0c;常常包含丰富的内容&#xff1a;包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用&#xff0c;尤其是RAG项目中&#xff0c;通过将非结构化数据转化为结构化和可访问的信息&#xff0…

PDF编辑 PDF-XChange Editor Plus 免装优化版

PDF编辑器很多打工人都需要用到&#xff0c;也分享过好几款口碑不错的&#xff0c;这次这款PDF依旧值得你的期待。 PDF-XChange Editor&#xff0c;号称打开速度最快最强大的PDF编辑器/PDF阅读器&#xff0c;专注于PDF文档的编辑&#xff0c;可以自定义制作PDF电子文档&#xf…

IP属地会随着人的移动而改变吗

在当今数字化时代&#xff0c;互联网已成为人们生活中不可或缺的一部分。无论是社交媒体的日常互动&#xff0c;还是在线购物、远程工作&#xff0c;IP地址作为网络身份的重要标识&#xff0c;扮演着举足轻重的角色。随着移动互联网技术的飞速发展&#xff0c;人们越来越多地在…