计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-12

news2024/10/11 23:36:46

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-12

1. Autoregressive Large Language Models are Computationally Universal

D Schuurmans, H Dai, F Zanini - arXiv preprint arXiv:2410.03170, 2024
https://arxiv.org/pdf/2410.03170
自回归大型语言模型是计算通用的

摘要:
本文展示了基于变换器的语言模型的自回归解码能够实现通用计算,无需外部干预或修改模型权重。研究者通过考虑语言模型如何处理任意长输入的有界上下文来证明这一结果。他们提出了一种自回归解码的泛化,其中在处理每个连续的上下文后,发出的标记被附加到序列末尾。通过这种方式,研究者证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟,并且现有的大型语言模型可以在确定性(贪婪)解码下模拟这种行为。

研究背景:
随着大型语言模型的出现,人们开始质疑它们相对于经典计算模型的计算能力。先前的工作已经研究了大型语言模型的计算能力,例如通过考虑变换器架构在表示电路方面的表达能力。本文考虑了一个更一般的问题,即大型语言模型是否能够在应用无界链思考时支持通用计算。

算法模型:
研究者提出了一种自回归解码的泛化,其中在处理每个连续的上下文后,发出的标记被附加到序列末尾。他们还介绍了Lag系统,这是一种简单的计算模型,由一组规则组成,每个规则将输入模式映射到输出。
在这里插入图片描述
在这里插入图片描述

核心创新点:

  • 提出了一种自回归解码的泛化,允许处理任意长的输入和输出序列。
  • 证明了一个通用图灵机可以通过一个具有2027个产生规则的Lag系统来模拟。
  • 开发了一种特定的系统提示,可以驱动大型语言模型gemini-1.5-pro-001在贪婪解码下正确应用每一条2027规则。

实验效果:
实验表明,通过扩展自回归(贪婪)解码的gemini-1.5-pro-001能够精确模拟任何输入上的U15,2的执行,因此它是一个通用计算机。

后续潜在研究方向:

  • 探索其他类型的语言模型是否也能实现通用计算。
  • 研究如何进一步优化提示设计,以提高模型的计算效率。
  • 考虑如何将这种计算能力应用于实际问题,例如自然语言处理以外的领域。

推荐阅读指数: ★★★★★

2. Neuron-Level Sequential Editing for Large Language Models

H Jiang, J Fang, T Zhang, A Zhang, R Wang, T Liang… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2410.04045

大型语言模型的神经元级序列编辑

摘要:
本文探索了大型语言模型(LLMs)中的序列模型编辑,这是一个涉及通过多轮编辑持续修改LLMs内部知识的关键任务。现有模型编辑方法通常关注单轮编辑,并且在序列模型编辑中面临显著挑战,尤其是模型遗忘和失败问题。为了解决这些挑战,研究者介绍了一种新的模型编辑方法,即神经元级序列编辑(NSE),它通过优化目标层的隐藏状态来防止模型失败,并迭代选择多层中的神经元进行编辑,以减轻模型遗忘。

研究背景:
随着现实世界知识不断演变,这些模型中的信息可能变得过时或错误。重新训练LLMs以纳入新信息通常成本过高。因此,近年来出现了许多专注于修改特定知识的模型编辑方法。
在这里插入图片描述

算法模型:
NSE方法通过优化目标层的隐藏状态来防止模型失败,并迭代选择多层中的神经元进行编辑,以减轻模型遗忘。研究者还引入了迭代多层编辑来简化神经元选择过程,使NSE能够在单次编辑中有效进行大规模知识更新。
在这里插入图片描述

核心创新点:

  • 提出了一种新的模型编辑方法NSE,它使用模型的原始权重来优化隐藏状态,有效减轻了先前编辑累积变化的影响。
  • 通过选择多层中具有高激活值的神经元进行编辑,以减轻模型遗忘。
  • 引入了迭代多层编辑来简化神经元选择过程。

实验效果:
通过在GPT2-XL、GPT-J和Llama3模型上进行的实验,NSE在五个常用指标(如特异性和一致性)方面显著优于当前的模型编辑方法。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

后续潜在研究方向:

  • 探索更有效的神经元归因方法。
  • 提高编辑技术的效率,以应对大规模或时间敏感的应用。

推荐阅读指数: ★★★★☆

3. Quo Vadis, Motion Generation? From Large Language Models to Large Motion Models

Y Wang, S Zheng, B Cao, Q Wei, Q Jin, Z Lu - arXiv preprint arXiv:2410.03311, 2024
https://arxiv.org/pdf/2410.03311
运动生成何去何从?从大型语言模型到大型运动模型

摘要:
本文介绍了MotionBase,这是一个百万级别的运动生成基准数据集,提供了比以前最大数据集多15倍的数据量,并具有层次详细的文本描述。利用这个庞大的数据集,研究者的大型运动模型在广泛的运动上表现出色,包括以前未见过的运动。通过系统研究,强调了扩大数据和模型规模的重要性,合成数据和伪标签在减轻数据获取成本中发挥了关键作用。此外,研究揭示了现有评估指标的局限性,特别是在处理域外文本指令时——这是一个长期被忽视的问题。此外,研究者还介绍了一种新颖的2D查找自由运动标记方法,该方法保留了运动信息并扩展了码本容量,进一步增强了大型运动模型的表示能力。

研究背景:
运动生成是一个新兴领域,在视频游戏、电影制作和机器人动画中有多种应用。文本到运动生成(T2M)在这一领域中处于前沿,它在将自然语言转化为人体运动中起着关键作用。尽管近年来出现了一些高质量的数据集,但它们的有限规模限制了当前方法在处理多样化或未见过的运动会话中的性能。
在这里插入图片描述
在这里插入图片描述

算法模型:
研究者提出了一个大型运动模型,该模型建立在预训练的大型语言模型(LLM)上,作为一个生成模型,将运动标记器与LLM主干连接起来。运动标记器将原始运动剪辑特征编码为标记嵌入,然后LLM生成基于提供的文本输入标记的运动序列。

核心创新点:

  • 提出了MotionBase,这是一个超过一百万运动序列的大规模运动生成基准数据集。
  • 强调了扩大数据和模型规模的重要性,并发现合成数据和伪标签在减轻数据获取成本中的重要性。
  • 引入了一种新颖的2D查找自由运动量化方法,将运动剪辑作为2D图像处理,构建了一个有限规模的码本,无需查找码本中的相应标记。

实验效果:
在HumanML3D和Motion-X数据集上的实验表明,随着模型规模和数据规模的增加,运动生成性能得到了显著提升。此外,研究者还展示了大型运动模型在处理未见过的域外数据时的优越性能。
在这里插入图片描述

后续潜在研究方向:

  • 探索更有效的运动表示方法,以进一步提高运动生成的质量和多样性。
  • 研究更鲁棒和公平的评估指标,以更好地评估大型运动模型在开放集上的性能。
  • 将大型运动模型应用于更广泛的领域,如虚拟现实和增强现实。

推荐阅读指数: ★★★★★

4. Hyperbolic Fine-tuning for Large Language Models

M Yang, A Feng, B Xiong, J Liu, I King, R Ying - arXiv preprint arXiv:2410.04010, 2024
https://arxiv.org/pdf/2410.04010

大型语言模型的双曲微调

摘要:
大型语言模型(LLMs)在各种任务上表现出色。然而,默认的欧几里得空间是否是LLMs中标记嵌入的最佳选择仍然是一个开放问题。在这项研究中,研究者首先调查了LLMs的非欧几里得特性。他们的发现揭示了标记频率遵循幂律分布,高频标记聚集在原点附近,而低频标记则更远。此外,标记嵌入表现出高度的双曲性,表明嵌入空间中存在潜在的树状结构。基于这一观察,研究者提出了在双曲空间中有效微调LLMs的方法,以更好地利用这些复杂的结构。

研究背景:
尽管LLMs在理解和生成类人文本方面表现出色,但这些模型通常依赖于欧几里得几何来学习文本表示,这可能无法始终适应现实世界数据结构的复杂、层次化特性。
在这里插入图片描述

算法模型:
研究者提出了一种在双曲空间中进行LLM微调的新方法,称为HypLoRA,它在双曲流形上直接执行低秩适配,避免了指数和对数映射引起的抵消效应,从而保留了双曲建模能力。
在这里插入图片描述

核心创新点:

  • 提出了HypLoRA,这是一种参数高效的微调方法,将双曲几何集成到LLMs中,同时保留了双曲建模能力。
  • 通过在双曲域中进行适配,HypLoRA能够捕获更复杂的层次关系,特别是对于标记更具体的标记。

实验效果:
通过在推理任务上的广泛实验,HypLoRA显著提高了LLMs的性能,特别是在复杂的AQuA数据集上,性能提升了高达13.0%。

后续潜在研究方向:

  • 探索更高效的双曲空间微调技术,以减少计算开销。
  • 研究如何将双曲几何与LLMs的自注意力机制更好地结合,以提高模型的性能和泛化能力。

推荐阅读指数: ★★★★☆

5. Inductive Generative Recommendation via Retrieval-based Speculation

Y Ding, Y Hou, J Li, J McAuley - arXiv preprint arXiv:2410.02939, 2024
https://arxiv.org/pdf/2410.02939
通过检索式推测的归纳式生成推荐

摘要:
生成式推荐(GR)是一种新兴的范式,它将项目标记化为离散标记,并学习自回归地生成下一个标记作为预测。尽管有效,但GR模型在归纳设置中运行,这意味着它们只能生成训练期间见过的项目,而不应用启发式的重新排名策略。在本文中,研究者提出了SpecGR,一个即插即用的框架,使GR模型能够在归纳设置中推荐新项目。

研究背景:
GR模型在推荐系统中的应用受到了限制,因为它们只能生成训练期间见过的项目,而无法生成新的或未见过的项目。这在需要实时推荐的场景中是不切实际的,例如电子商务或短视频平台。
在这里插入图片描述

算法模型:
SpecGR框架包括两个主要模块:(1)一个归纳草稿模型来提出项目,(2)一个生成推荐验证器来接受或拒绝这些项目。研究者还引入了引导式重起草技术,以使提出的候选项目更符合生成推荐模型的输出,从而提高验证效率。
在这里插入图片描述

核心创新点:

  • 提出了SpecGR框架,它通过使用归纳模型作为起草者来提出候选项目,并使用GR模型作为验证器来确保只有高质量的候选项目被推荐。
  • 引入了引导式重起草技术,以提高后续批次中候选项目的接受率。

实验效果:
在三个真实世界数据集上的实验表明,SpecGR在归纳推荐能力和整体性能方面都表现出色。
在这里插入图片描述

后续潜在研究方向:

  • 探索如何通过设计语义ID和解码机制来开发具有归纳能力的GR模型。
  • 研究扩大模型参数规模是否能使GR模型展现出紧急的归纳能力。

推荐阅读指数: ★★★★☆



后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2206230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

太速科技-628-基于VU3P的双路100G光纤加速计算卡

基于VU3P的双路100G光纤加速计算卡 一、板卡概述 基于Xilinx UltraScale16 nm VU3P芯片方案基础上研发的一款双口100 G FPGA光纤以太网PCI-Express v3.0 x16智能加速计算卡,该智能卡拥有高吞吐量、低延时的网络处理能力以及辅助CPU进行网络功能卸载的能力…

UE5安卓,多指点击时会调出控制台

参考文章: How to turn off "console window" on swipe (my Lemurs keep opening it!) - Platform & Builds / Mobile - Epic Developer Community Forums (unrealengine.com) 准确来说是4只手指同时在屏幕中按下。这个控制台能像编辑器那样&#xf…

浏览器和客户端结合的erp系统,java控制浏览器操作自动登录,socket客户端通信进行表单赋值

java做一个toB的客户端操作系统,客户端和web的结合; 主要是使用java编写客户端代码,采用selenium控制浏览器,主要是用到selenium自动化测试的功能; javaEE 项目调用 selenium使用谷歌控件chromedriver.exe控制浏览器…

小米员工薪资一览表

小米 之前我们写了 京东 和 华为OD,不少同学在后台点名要看小米的职级和薪资。 没问题,在了解小米的薪资分布前,我们要先对小米职级有个初步概念。 小米职级从 13 到 22,共 10 级。 title 大致分为 专员(13~15级&#…

go语言中的template使用

在 Go 语言中,你可以使用 text/template 或 html/template 包来创建和执行模板。以下是一个基本示例,展示如何使用 Go 的模板语法: 1. 导入包 import ("os""text/template" )2. 创建数据结构 定义一个数据结构&#x…

反向指标KDJ?只要做个简单的魔改,就能一直在新高路上!

KDJ又叫随机指标,是一个适用于短线的技术指标,在股票、期货等市场受到广泛使用。在老Q看来,这是一个很有趣的指标。但是如果你按照经典用法来使用的话,它就变成财富毁灭机了! 下边,老Q就一步步从统计原理、…

【阿里云中的大数据组件】技术选型和数仓系统流程设计 --- 阿里云的组件简介

文章目录 一、DataHub二、DataWorks 和 MaxCompute三、RDS四、技术选型和对比1、阿里云技术跟之前的技术对比2、技术选型 五、系统流程设计 一、DataHub 通俗来说这个 DataHub 类似于传统大数据解决方案中 Kafka 的角色,提供了一个数据队列功能 对于离线计算&#x…

ES 全文检索完全匹配高亮查询

我们ES会将数据文字进行拆词操作,并将拆解之后的数据保存到倒排索引当中几十使用文字的一部分也能查询到数据,这种检索方式我们就称之为全文检索,ES的查询结果也会倒排索引中去查询匹配 下面的查询结果中输入的词,就是输入小也可…

PDF文件怎么添加水印?这里有6个方法

PDF文件怎么添加水印?在职场中,随着信息数字化的普及,PDF文件已成为我们日常工作中不可或缺的一部分。然而,如何在这些文件中确保信息的安全性和版权保护,成为了许多企业面临的重要课题。其中,给PDF文件添加…

Android常用组件

目录 1. TextView 控件 常用属性: 1)android:text: 2)android:gravity: 3)android:textSize: 4)android:textColor: 5)android:background: 6)android:padding: 7)android:layout_width 和 andr…

Web集群服务-Nginx

1. web服务 1. WEB服务:网站服务,部署并启动了这个服务,你就可以搭建一个网站 2. WEB中间件: 等同于WEB服务 3. 中间件:范围更加广泛,指的负载均衡之后的服务 4. 数据库中间件:数据库缓存,消息对列 2. 极速上手指南 nginx官网: nginx documentation 2.1 配置yum源 vim /etc/…

spock 并行执行单元测试

继上一篇 使用 mvnd之后 发现 deploy 公共库还是需要十分钟左右、后面发现跳过所有单元测试之后、deploy 只需要 4 分钟。 所以想着从提升单元测试的速度来加快 deploy 。 前前后后最终还是按官方的配置并行执行单元测试 链接1 链接2 看了下打印的日志、依赖的是默认的 Fork…

python环境的配置

VScode的安装 https://code.visualstudio.com/download python环境利用anaconda进行安装 https://www.anaconda.com/download/ 点击第三个 conda create -n python python3.8 #建立环境activate python #激活环境路径示例: D:\Anaconda3\envs 打开vscode 配置…

Java学习第九天

相同包下的类可以直接访问,不同包下的类需要导包才可以使用,导包格式:import 包名.类名 final关键字: 常量: 枚举:一种特殊的类型(反编译之后本质就是实例常量,自己定义的类,创建了几…

aws(学习笔记第五课) AWS的firewall SecurityGroup,代理转发技术

aws(学习笔记第五课) AWS的firewall– SecurityGroup,代理转发技术 学习内容: AWS的firewall– SecurityGroup代理转发技术 1. AWS的filewall– SecurityGroup 控制进入虚拟服务器的网络流量 通常的firewall(防火墙)配置 AWS上使用安全组进行网络流量…

linux安装Go ImageMagick插件

ImageMagick安装 在程序中需要对图片转化时需要使用到gopkg.in/gographics/imagick.v2/imagick库,但是这个库需要在本地安装ImageMagick插件。 有些机器在软件库是有的,可以直接下载安装,没有的话推荐源码安装。 ImageMagick中文站 ImageM…

使离医院最远的村庄到医院的路程最短

给定n个村庄之间的交通图,若村庄i和j之间有道路,则将顶点i和j用边连接,边上的Wij表示这条道路的长度,现在要从这n个村庄中选择一个村庄建一所医院,问这所医院应建在哪个村庄,才能使离医院最远的村庄到医院的…

大数据处理从零开始————9.MapReduce编程实践之信息过滤之学生成绩统计demo

1.项目目标 1.1 需求概述 现在我们要统计某学校学生的成绩信息,筛选出成绩在60分及以上的学生。 1.2 业务分析 如果我们想实现该需求,可以通过编写一个MapReduce程序,来处理包含学生信息的文本文件,每行包含【学生的姓名&#x…

《深度学习》【项目】OpenCV 答题卡识别 项目流程详解

目录 一、上半部分 1、定义展示图像函数 2、预处理 运行结果: 3、轮廓检测并绘制 运行结果: 4、排序轮廓 5、定义排序点函数 6、透视变换 1)定义透视变换处理函数 2)执行透视变换 运行结果: 7、二值化处理…

python 边际分布图

import seaborn as snspenguins sns.load_dataset("penguins") colors {"Gentoo": #AE5259, "Adelie": #CF992C, "Chinstrap": #6B9DAA}# 分类散点图 sns.jointplot(datapenguins, x"bill_length_mm", y"bill_depth_…