计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

news2024/12/26 19:42:31

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-26

1. LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench

Authors: Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

LLMs仍然无法规划;LRMs可以吗?对OpenAI的o1在PlanBench上的初步评估
在这里插入图片描述

摘要

本文探讨了大型语言模型(LLMs)是否具备规划能力,并特别评估了OpenAI最新模型o1(草莓模型)在PlanBench基准上的表现。尽管o1在性能上相较于其他LLMs有显著提升,但仍未达到饱和状态,这引发了关于准确性、效率和保证的讨论。

创新点

  • 提出了将大型推理模型(LRMs)与LLMs进行比较的新视角。
  • 对o1模型在规划任务上的能力进行了初步评估。

算法模型

  • o1模型:OpenAI开发的新型模型,旨在通过更深入的“思考”来解决科学、编码和数学领域的复杂任务。

实验效果

  • Blocksworld Zero Shot: 准确率97.8%,执行时间40.43秒。
  • Mystery Blocksworld One Shot: 准确率41.6%,执行时间82.03秒。
  • Randomized Mystery Blocksworld Zero Shot: 准确率37.3%,执行时间111.11秒。
    在这里插入图片描述
    在这里插入图片描述

重要数据与结论:

  • o1模型在PlanBench上的表现超过了现有的LLMs,但仍未达到最优。
  • 在不同的规划任务中,o1显示出了改进,但仍然存在一定的局限性。

推荐阅读指数:

★★★★☆

推荐理由:

  • 对于对AI规划能力和大型语言模型的最新进展感兴趣的研究者和从业者来说,这篇文章可以参考。
  • 文章讨论了LRMs的潜力和当前的局限性,对于理解未来AI的发展方向具有启发性。

2. Seeing Through Their Eyes: Evaluating Visual Perspective Taking in Vision Language Models

Authors: Gracjan G’oral, Alicja Ziarko, Michal Nauman, Maciej Wo{\l}czyk
https://arxiv.org/abs/2409.12969
通过他们的眼睛看:评估视觉语言模型中的视觉视角获取
在这里插入图片描述

摘要:

本文探讨了视觉语言模型(VLMs)是否具备理解他人视角的能力,这对于预测他人行为至关重要。研究者们开发了两个数据集Isle-Bricks和Isle-Dots来测试VLMs的视觉视角获取(VPT)技能,并评估了12种常用的VLMs。研究发现,当需要进行视角获取时,所有模型的性能都显著下降。

研究背景:

在现实世界中,理解他人的视角对于避免事故、有效协调行动或在社交环境中做出适当反应至关重要。尽管VLMs在许多任务上表现出色,但它们是否具备VPT能力尚不清楚。
在这里插入图片描述
在这里插入图片描述

技术挑战:

  • 如何评估VLMs在VPT任务上的表现。
  • 如何设计能够准确测试VPT技能的数据集。

创新点:

  • 提出了两个新的数据集Isle-Bricks和Isle-Dots,用于测试VPT技能。
  • 评估了12种不同的VLMs在VPT任务上的性能。

算法模型:

  • Isle-Bricks和Isle-Dots数据集。
  • 12种不同的VLMs,包括闭源和开源模型。

实验数据及实验效果:

  • 数据集:Isle-Bricks和Isle-Dots。
  • 实验结论:VLMs在需要视角获取的任务上性能显著下降,与物体检测任务的性能相关性弱。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数:

★★★★☆

推荐理由:

这篇文章为理解视觉语言模型在处理视觉视角获取任务上的能力提供了新的视角,并提出了新的评估方法和数据集,对于VLMs的进一步研究和应用具有重要意义。

3. TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning

Authors: Shivam Shandilya, Menglin Xia, Supriyo Ghosh, Huiqiang Jiang, Jue
Zhang, Qianhui Wu, Victor R"uhle
https://arxiv.org/abs/2409.13035

TACO-RL:任务感知提示压缩优化与强化学习
在这里插入图片描述

摘要:

随着大型语言模型(LLMs)在各种应用中的普及,所需的提示大小不断增加,导致计算效率面临挑战。本文提出了一种基于强化学习的任务感知提示压缩方法,旨在通过最小化输入标记数量来降低推理成本,而不损害任务性能。

研究背景:

LLMs在自然语言处理任务上表现出色,但随着输入提示长度的增加,推理成本和延迟要求也在增加。

技术挑战:

  • 如何在不损失任务性能的前提下,减少输入提示的长度。

创新点:

  • 提出了一种新的基于强化学习的提示压缩方法,通过任务特定的奖励信号来指导学习过程。

算法模型:

  • 基于Transformer的编码器模型。
  • 轻量级REINFORCE算法。

实验数据及实验效果:

  • 数据集:文本摘要、问答和代码摘要任务的开源基准数据集。
  • 实验结论:在这些任务上,与现有压缩技术相比,提出的方法在任务性能上提高了8% - 260%。
    在这里插入图片描述

推荐阅读指数:★★★★☆

推荐理由:

这篇文章提出了一种创新的提示压缩方法,通过强化学习来优化大型语言模型的推理效率,对于希望在保持性能的同时减少计算成本的研究者和工程师来说,具有很高的参考价值。

4. LLM Surgery: Efficient Knowledge Unlearning and Editing in Large Language Models

Authors: Akshaj Kumar Veldanda, Shi-Xiong Zhang, Anirban Das, Supriyo
Chakraborty, Stephen Rawls, Sambit Sahu, Milind Naphade
https://arxiv.org/abs/2409.13054

LLM外科手术:在大型语言模型中高效地忘却和编辑知识

摘要:

本文提出了一种名为LLM Surgery(外科手术)的框架,用于高效地修改大型语言模型(LLMs)的行为,通过优化一个包含三个部分的目标函数来实现:(1)对忘却数据集(问题和过时信息)执行反向梯度;(2)对更新数据集(新和更新的信息)执行梯度下降;(3)最小化保留数据集(一小部分未改变的文本)上的KL散度,确保预训练和修改后的模型输出之间的一致性。

研究背景:

LLMs在预训练过程中可能会嵌入过时或有问题的知识,需要一种方法来更新LLMs,使其保持相关性、准确性和合法性。

技术挑战:

  • 如何在不从头开始重新训练的情况下,有效地从LLMs中忘却特定信息并整合新知识。

创新点:

  • 提出了LLM Surgery框架,通过反向梯度和梯度下降以及KL散度最小化来实现知识的忘却和更新。

算法模型:

  • LLM Surgery框架。
    在这里插入图片描述

实验数据及实验效果:

  • 数据集:使用Llama2-7B模型进行实验。
  • 实验结论:LLM Surgery能够在忘却集上实现显著的忘却,在更新集上提高20%的准确率,并在保留集上保持性能。

推荐阅读指数:★★★★☆

推荐理由:

这篇文章提出了一种新颖的方法来更新大型语言模型中的知识,这对于确保模型的输出符合最新的数据和法律要求非常重要,对于LLMs的维护和更新具有实际应用价值。

5. Guided Profile Generation Improves Personalization with LLMs

Authors: Jiarui Zhang
https://arxiv.org/abs/2409.13093

引导式个人资料生成提高LLMs的个性化

摘要:

本文提出了一种名为Guided Profile Generation (GPG)的方法,旨在通过生成自然语言个人资料来增强大型语言模型(LLMs)在个性化任务中的表现。GPG通过引导式个人资料生成,使LLMs能够从个人上下文中提取重要且独特的特征,并将其转化为简洁、描述性的句子,从而更精确地定制生成内容以适应个体的独特习惯和偏好。

研究背景:

在个性化任务中,传统的个人资料建模技术依赖于大量数据集,这些资料往往需要额外的处理才能立即解释,并且可能限制了数据类型的多样性。

技术挑战:

  • 如何在不牺牲准确性和效率的情况下,提高LLMs对原始个人上下文的解释能力。

创新点:

  • 提出了GPG方法,通过引导式个人资料生成来增强LLMs的个性化能力。

算法模型:

  • Guided Profile Generation (GPG)。
    在这里插入图片描述
    在这里插入图片描述

实验数据及实验效果:

  • 数据集:亚马逊产品评论、LAMP-7(基于情感的推文集合)、PER-CHAT(Reddit上的开放式单轮对话数据集)。
  • 实验结论:GPG在不同的任务中提高了LLMs的个性化能力,例如在预测个人偏好方面,与直接使用原始个人上下文相比,准确率提高了37%。

推荐阅读指数:

★★★★☆

推荐理由:

这篇文章提出了一种有效的方法来提高LLMs在个性化任务中的表现,通过生成描述性的个人资料来增强模型的个性化能力,对于希望利用LLMs进行个性化服务的研究者和开发者来说,具有很高的参考价值。

6. Are Large Language Models Good Essay Graders?

Authors: Anindita Kundu and Denilson Barbosa
https://arxiv.org/abs/2409.13120
大型语言模型是好的作文评分者吗?

摘要:
本文评估了大型语言模型(LLMs)在评估作文质量方面的有效性,特别关注它们与人工评分的一致性。研究比较了ChatGPT和Llama在自动作文评分(AES)任务中的表现,并考虑了零样本和少样本学习以及不同的提示方法。研究发现,与人工评分相比,LLMs通常给出较低的分数,并且分数之间的相关性不高。

研究背景:
自动作文评分(AES)是教育中自然语言处理(NLP)的一个关键应用,它使用基于计算机的评估系统自动评分学生生成的内容。
在这里插入图片描述

技术挑战:
LLMs在处理复杂任务时,如何与人类评分者保持一致性是一个挑战。

创新点:

  • 提出了一种基于LLMs的AES方法。
  • 比较了不同LLMs在AES任务中的表现。

算法模型:

  • ChatGPT
  • Llama

实验数据及效果:

  • 使用ASAP数据集进行实验。
  • 实验结果显示LLMs给出的分数与人工评分者给出的分数之间的相关性较低。

推荐阅读指数:
★★★☆☆

推荐理由: 对于研究LLMs在教育评估中的应用,对想要在教育领域使用LLM的朋友,可以参考下。

7. Exploring Scaling Laws for Local SGD in Large Language Model Training

Authors: Qiaozhi He, Xiaomin Zhuang, Zhihua Wu
https://arxiv.org/abs/2409.13198

探索大型语言模型训练中局部SGD的扩展规律

摘要:
本文研究了局部SGD在大型语言模型(LLM)训练中的扩展规律。研究表明,在相同的模型参数、数据集和计算资源条件下,局部SGD与传统方法相比具有竞争力。
在这里插入图片描述

研究背景:
LLMs的训练需要大规模的计算资源,这导致了对计算资源需求的快速增长。
在这里插入图片描述
在这里插入图片描述

技术挑战:
如何在计算资源有限的情况下,有效地训练大型语言模型。

创新点:

  • 提出了局部SGD在LLM训练中的扩展规律。
  • 探索了在多集群设置和边缘计算环境中应用局部SGD。

算法模型:

  • 局部SGD

实验数据及效果:

  • 使用SlimPajama和C4数据集进行实验。
  • 实验结果表明局部SGD在多集群环境中是可行的。

推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何高效训练大型语言模型,这篇文章提供了重要的见解。

8. CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance

Authors: Yupu Hao, Pengfei Cao, Zhuoran Jin, Huanxuan Liao, ubo Chen, Kang Liu,
Jun Zhao
https://arxiv.org/abs/2409.13202

CITI: 在不牺牲通用性能的情况下增强大型语言模型的工具使用能力

摘要:
本文提出了一种方法,通过检查模型组件的隐藏表示变化和梯度重要性分数,来解决LLMs在工具使用准确性和泛化能力上的权衡问题。

研究背景:
LLMs在理解和生成文本方面表现出色,但在与真实世界交互方面存在局限性。
在这里插入图片描述

技术挑战:
如何在不损害模型通用性能的情况下,增强LLMs的工具使用能力。

创新点:

  • 提出了一种基于组件重要性的Tool-utilizing能力注入方法(CITI)。

算法模型:

  • Mixture-Of-LoRA (MOLoRA)

实验数据及效果:

  • 在API-Bank和ToolAlpaca数据集上进行实验。
  • 实验结果表明CITI方法在提高工具使用能力的同时,保持了模型的通用性能。

推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何增强LLMs的工具使用能力,这篇文章提供了有价值的方法。

9. Neural-Symbolic Collaborative Distillation: Advancing Small Language Models for Complex Reasoning Tasks

Authors: Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Jun Zhao
https://arxiv.org/abs/2409.13203
代码: https://github.com/Xnhyacinth/NesyCD.
神经符号协作蒸馏:推进小型语言模型在复杂推理任务中的应用

摘要:
本文提出了一种新颖的知识蒸馏方法,用于学习大型语言模型(LLMs)的复杂推理能力。

研究背景:
复杂推理任务对于小型语言模型(SLMs)来说具有挑战性,因为这些任务不仅需要一般认知能力,还需要专业知识。

技术挑战:
如何在保持模型大小不变的情况下,提高SLMs在复杂推理任务中的性能。

创新点:

  • 提出了一种结合神经网络和符号知识库的协作蒸馏方法。

算法模型:

  • 神经符号协作蒸馏(NesyCD)
    在这里插入图片描述

实验数据及效果:

  • 在多个数据集上进行实验,包括BBH、GSM8K、AGIEval和ARC。
  • 实验结果表明NesyCD显著提高了SLMs在复杂推理任务中的性能。

推荐阅读指数: ★★★★☆
推荐理由: 对于研究如何提高小型语言模型在复杂推理任务中的性能,这篇文章提供了创新的方法。

10. Large Language Model Should Understand Pinyin for Chinese ASR Error Correction

Authors: Yuang Li, Xiaosong Qiao, Xiaofeng Zhao, Huan Zhao, Wei Tang, Min
Zhang, Hao Yang
https://arxiv.org/abs/2409.13262

大型语言模型应理解拼音以纠正中文ASR错误

摘要:
本文提出了一种利用拼音增强的生成性错误纠正(PY-GEC)方法,通过多任务训练提高LLMs在中文自动语音识别(ASR)错误纠正中的性能。

研究背景:
ASR系统在处理普通话时,由于发音和书面形式之间没有直接联系,因此纠正错误具有挑战性。

技术挑战:
如何利用LLMs提高中文ASR错误纠正的准确性。

创新点:

  • 提出了一种结合拼音特征的LLMs训练方法。

算法模型:

  • PY-GEC

在这里插入图片描述

实验数据及效果:

  • 在Aishell-1和Common Voice数据集上进行实验。
  • 实验结果表明,结合拼音特征的方法在字符错误率(CER)和实体召回方面均优于仅使用文本的方法。

推荐阅读指数:
★★★☆☆

推荐理由:
对于研究如何利用LLMs改进中文ASR错误纠正,这篇文章提供了有价值的见解和方法。


如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2169337.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【通俗易懂】FFT求解全过程,各参数详细解释

在进行FFT全过程讲解之前,小编先给大家解释一下,在FFT中出现的一些参数名词解释。 (1)采样频率 Fs Fs 1 / 采样间隔 根据奈奎斯特定理:Fs ≥ 最高频率分量的两倍,这样才能避免混叠 (2&…

解决macOS安装redis以后不支持远程链接的问题

参考文档:https://blog.csdn.net/qq_37703224/article/details/142542179?spm1001.2014.3001.5501 安装的时候有个提示, 使用指定配置启动: /opt/homebrew/opt/redis/bin/redis-server /opt/homebrew/etc/redis.conf那么我们可以尝试修改这个配置文件: code /opt/homebrew/…

傅里叶级数在机器人中的应用(动力学参数辨识)

B站首发!草履虫都能看懂的【傅里叶变换】讲解,清华大学李永乐老师教你如何理解傅里叶变换,辨清美颜和变声原理,!!_哔哩哔哩_bilibiliB站首发!草履虫都能看懂的【傅里叶变换】讲解,清…

AI 智能体 | 手捏素材选题库 Coze Bot,帮你实现无限输出

做自媒体的同学经常遇到的一个痛点就是无限输出,那怎么才能有源源不断的选题呢?那就是搭建一个选题素材库。 下面就为大家介绍一下基于 Coze Bot 快速搭建素材选题库,希望能让大家才思泉涌。 一、流程拆解 日常素材库积累的过程可以描述为…

eslint-plugin-react的使用中,所出现的react版本警告

记一次使用eslint-plugin-react的警告 Warning: React version not specified in eslint-plugin-react settings. See https://github.com/jsx-eslint/eslint-plugin-react#configuration . 背景 我们在工程化项目中,常常会通过eslint来约束我们代码的一些统一格…

汽车总线之----J1939总线

instruction SAE J1939 是由美国汽车工程协会制定的一种总线通信协议标准,广泛应用于商用车,船舶,农林机械领域中,J1939协议是基于CAN的高层协议,我们来看一下两者之间的关系。在J1939 中,物理层和数据链路…

第13讲 实践:设计SLAM系统

设计一个视觉里程计,理解SLAM软件框架如何搭建,理解视觉里程计设计容易出现的问题以及解决方法。 目录 1、工程目标 2、工程框架 3、实现 附录 1、工程目标 实现一个精简版的双目视觉里程计。由一个光流追踪的前端和一个局部BA的后端组成。 2、工程…

asp.net mvc core 路由约束,数据标记DataTokens

》从0自己搭建MVC 》用 asp.net Core web 应用 空web 应用程序 需要配置 mvc服务 、mvc路由 新建 Controller 、Models、Views 》》》core 6 之前版本 vs2022 asp.net Core Web 应用(模型-视图-控制器) 不需要配置 就是mvc框架 asp.net Core web 应…

从Elasticsearch到RedisSearch:探索更快的搜索引擎解决方案

文章目录 RedisSearch 的关键功能与 ElasticSearch 对比性能对比产品对比 如何使用 Docker 安装 RedisSearch1. 获取 RedisSearch Docker 镜像2. 启动 RedisSearch 容器3. 验证安装 RedisSearch 使用示例1. 连接到 RedisSearch2. 创建索引3. 添加文档4. 执行搜索搜索所有包含 &…

【Geoserver使用】2.26.0版本发布主要内容

文章目录 前言一、GeoServer 2.26.0 版本二、主要内容1.Java17支持2.Docker更新3.搜索改进4.广泛的 MapML 改进4.重写演示请求页面5.栅格属性表扩展6.GeoCSS 改进7.地球静止卫星 AUTO 代码8.labelPoint 功能改进9.改进的矢量图块生成10.GeoPackage QGIS 兼容性改进11.新的图像马…

深度学习—神经网络基本概念

一,神经元 1.生物神经元与人工神经元 1.1神经元是人脑的基本结构和功能单位之一。人脑中有数1000亿个神经元,其功能是接受(树突),整合(细胞体),传导(轴突)和…

MySQL --用户管理

文章目录 1.用户1.1用户信息1.2创建用户1.3删除用户1.4修改用户密码 2.数据库的权限2.1给用户授权2.2回收权限 如果我们只能使用root用户,这样存在安全隐患。这时,就需要使用MySQL的用户管理。 1.用户 1.1用户信息 MySQL中的用户,都存储在系…

Spring Cloud 教程(二) | 搭建SpringCloudAlibaba

Spring Cloud 教程(二) | 搭建SpringCloudAlibaba 前言一、SpringBoot 与 SpringCloud 版本对应关系:二、SpringCloud 与 SpringCloudAlibaba版本对应关系:三、SpringCloudAlibaba版本 与 组件版本 对应关系:四、搭建S…

Django项目配置日志

需求 在Django项目中实现控制台输出到日志文件,并且设置固定的大小以及当超过指定大小后覆盖最早的信息。 系统日志 使用Django自带的配置,可以自动记录Django的系统日志。 可以使用logging模块来配置。下面是一个完整的示例代码,展示了如…

Java | Leetcode Java题解之第438题找到字符串中所有字母异位词

题目&#xff1a; 题解&#xff1a; class Solution {public List<Integer> findAnagrams(String s, String p) {int sLen s.length(), pLen p.length();if (sLen < pLen) {return new ArrayList<Integer>();}List<Integer> ans new ArrayList<Int…

163页制造业变革转型:营销/服务/研发/供应链/制造/质量/财务

制造业企业要实现变革转型&#xff0c;可以从营销、服务、研发、供应链、制造、质量、劳务以及人力资源等多个方面着手&#xff1a; 一、营销 市场调研与定位 深入了解目标市场的需求、趋势和竞争态势。通过大数据分析、消费者调研等手段&#xff0c;精准把握市场动态&#…

管家婆分销费用分摊功能使用说明!

在入库和销售业务中&#xff0c;往往会产生一些费用需要和入库单和销售单关联&#xff0c;这时候就可以使用费用分摊的功能。下面我们一起来学习在分销A\V系列软件中费用分摊的操作步骤 一、入库费用分摊 1、只有移动加权平均成本算法才有入库费用分摊单&#xff1b;入库费用分…

centos7系统安装宝塔面板

1、开始安装 适用系统 Centos/OpenCloud/Alibaba 稳定版9.0.0 urlhttps://download.bt.cn/install/install_lts.sh;if [ -f /usr/bin/curl ];then curl -sSO $url;else wget -O install_lts.sh $url;fi;bash install_lts.sh ed8484bec等待命令执行&#xff0c;安装完成&#…

【理解 Java 中的 for 循环】

理解 Java 中的 for 循环 for 循环是 Java 中用于迭代的常用控制结构&#xff0c;它可以帮助我们重复执行某段代码&#xff0c;直到满足特定条件。本文将介绍 for 循环的基本语法、执行流程、注意事项及一些练习。 基本语法 for 循环的基本语法如下&#xff1a; for (循环变…

Linux下的基本指令/命令(一)

目录 基本命令 1. Is命令/指令: 罗列当前目录下指定的文件或者目录. 2. pwd命令&#xff1a; 查看当前工作的路径 3. cd命令&#xff1a; 切换到指定路径下。 只能切换到目录中 4. tree命令: 树状显式目录 使用前要输入命令 yum install -y tree &#xff0c;用来安装一个…