计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13

news2025/1/5 8:43:25

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13


目录

文章目录

  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-13
    • 目录
    • 1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks
    • 2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents
    • 3. Agent S: An Open Agentic Framework that Uses Computers Like a Human
    • 4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines
    • 5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation
    • 后记


1. The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks

Authors: Isaac R. Galatzer-Levy, David Munday, Jed McGiffin, Xin Liu, Danny
Karmon, Ilia Labzovsky, Rivka Moroshko, Amir Zait, Daniel McDuff
https://arxiv.org/abs/2410.07391
生成式人工智能的认知能力:与人类基准的比较分析

摘要
本研究对领先的大型语言模型和视觉语言模型在韦氏成人智力量表(WAIS-IV)上的表现进行了基准测试,该量表是评估人类认知和智力能力的全面、基于人群标准化的评估工具。研究重点关注了言语理解(VCI)、工作记忆(WMI)和知觉推理(PRI)三个领域。大多数模型在存储、检索和操纵符号(如任意字母和数字序列)方面表现出色,工作记忆指数(WMI)的表现达到或超过人类99.5百分位。然而,多模态模型在知觉推理指数(PRI)上的表现普遍较差,显示出对视觉信息的解释和推理能力存在显著缺陷。

研究背景
随着生成式人工智能(GenAI)的发展,人们越来越关注其在模仿人类认知功能方面的潜力。GenAI模型通过学习大量数据集中的潜在模式和结构,生成新颖的输出,这些输出常常模仿人类的创造力。然而,人类认知包括一系列专门能力,涉及信息的处理、存储、解释和生成,这些能力在听觉和视觉通道上都有所体现。
在这里插入图片描述

算法模型
研究中使用了多种大型语言模型(LLMs)和视觉语言模型(VLMs),包括OpenAI的GPT-3.5 Turbo、Google的Gemini系列等。这些模型通过转换传统的语言和视觉刺激为基于文本的提示,并解释模型生成的文本输出作为测试项的响应。

核心创新点

  • 提出了一种新的方法,通过WAIS-IV对GenAI模型进行评估,以直接与人类能力进行比较。
  • 实现了一系列方法论适应,以适应这些模型独特的输入和输出方式。
  • 通过比较GenAI模型在不同认知领域的性能,揭示了它们在工作记忆和言语理解方面的相对优势,以及在知觉推理方面的显著弱点。

实验效果

  • 在言语理解指数(VCI)上,大多数模型表现在99.5百分位以上。
  • 在工作记忆指数(WMI)上,除了Gemini Nano外,大多数模型表现在99.5百分位以上。
  • 在知觉推理指数(PRI)上,所有多模态模型的表现都在极低水平,表明在视觉信息处理方面存在显著缺陷。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

后续潜在研究方向

  • 探索如何通过架构改进或训练方法提升GenAI模型在知觉推理方面的能力。
  • 研究如何更好地模拟人类的多模态认知能力,包括视觉和听觉信息的处理。
  • 进一步研究GenAI模型在特定领域的应用,如艺术、设计、研究和通信等。

推荐阅读指数:4.5

2. WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Authors: Siyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing
Jiang, Chengqi Zhang
https://arxiv.org/abs/2410.07484
WALL-E:通过规则学习实现世界对齐,提升基于世界模型的LLM代理

摘要
本研究提出了一种新的方法,通过规则学习来对齐大型语言模型(LLMs)与特定环境的动态,从而提高LLM代理在开放世界任务中的成功率和效率。研究者们开发了一个神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则,而无需梯度更新。这种方法通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。

研究背景
LLMs在复杂推理、生成和规划任务中表现出色,但在特定开放世界环境中作为代理部署时,其可靠性不足。主要原因是LLMs的常识推理与预训练知识与特定环境的动态之间存在差距,导致对未来状态的预测错误或违反基本规则。
在这里插入图片描述

算法模型
研究者们提出了一个名为WALL-E的神经符号世界模型,该模型结合了预训练的LLM和从与环境的交互轨迹中学习到的一组新规则。这种方法结合了LLMs的丰富先验知识和规则的硬约束和严格保证。
在这里插入图片描述
在这里插入图片描述

核心创新点

  • 提出了一种无需梯度更新的神经符号方法,通过LLMs的归纳推理和代码生成能力来学习规则。
  • 通过比较代理探索的轨迹和世界模型预测来学习新规则或更新现有规则,从而提高预测和实际轨迹之间的一致性。
  • 通过模型预测控制(MPC)框架,优化了基于精确世界模型的LLM代理的探索和学习效率。

实验效果

  • 在Minecraft和ALFWorld环境中,WALL-E在成功率、重规划时间和推理所用的令牌数量上均优于现有方法。
  • 在Minecraft中,WALL-E的成功率比基线高出15-30%,同时重规划轮数减少8-20轮,令牌使用量为60-80%。
  • 在ALFWorld中,WALL-E在6次迭代后成功率达到95%,创下新高。
    在这里插入图片描述

后续潜在研究方向

  • 探索如何将WALL-E方法应用于更广泛的环境和任务,以及如何进一步提高规则学习的效果和效率。
  • 研究如何结合更多的环境反馈和动态调整规则,以适应环境的快速变化。
  • 进一步研究如何减少规则学习过程中的人工干预,提高自动化程度。

推荐阅读指数:4

3. Agent S: An Open Agentic Framework that Uses Computers Like a Human

Authors: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric
Wang
https://arxiv.org/abs/2410.08164
代码: https://github.com/simular-ai/Agent-S.

Agent S:一个像人类一样使用计算机的开放智能框架

摘要
本文介绍了Agent S,这是一个能够通过图形用户界面(GUI)与计算机进行自主交互的开放智能框架,旨在通过自动化复杂、多步骤的任务来改变人机交互。Agent S 旨在解决在自动化计算机任务中面临的三个关键挑战:获取特定领域的知识、在长期任务规划中进行规划以及处理动态、不统一的界面。为此,Agent S 引入了经验增强的分层规划,通过外部知识搜索和内部经验检索在多个层面上进行学习,从而促进高效的任务规划和子任务执行。此外,它采用了一种特定的Agent-Computer Interface(ACI),以更好地激发基于多模态大型语言模型(MLLMs)的GUI代理的推理和控制能力。在OSWorld基准测试中的评估显示,Agent S 的成功率比基线高出9.37%(相对提高了83.6%),达到了新的最高水平。全面的分析突出了各个组成部分的有效性,并为未来的改进提供了见解。此外,Agent S 在新发布的WindowsAgentArena基准测试中展示了广泛的通用性,适用于不同的操作系统。代码可在GitHub上获得。
在这里插入图片描述

研究背景
自从鼠标被发明以来,它一直由人类控制以与计算机进行交互。但是,这种交互是否必须如此?自主图形用户界面(GUI)代理提供了解决非常具体和高度多样化的用户查询的希望——例如,为个人用户进行数据输入、调度和文档创建,以及在商业环境中简化操作——以最通用的方式:通过直接UI交互使用鼠标和键盘。此外,通过消除对持续手动交互的需求,这些代理不仅提高了效率,还提高了可访问性,使残疾人能够以新的、变革性的方式与技术进行交互。最近在多模态大型语言模型(MLLMs)方面的进展,例如GPT-4o和Claude,为开发以人为中心的交互系统(如桌面操作系统)的GUI代理奠定了基础。

算法模型
Agent S框架通过经验增强的分层规划、自我监督的持续记忆更新和精确的GUI感知和行动的Agent-Computer Interface(ACI),整合了三个主要策略来解决复杂的基于GUI的操作系统控制任务。这种分层规划方法利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。叙事记忆包含来自过去交互的高级、抽象的任务经验,为有效的任务规划提供了上下文理解。代理在每个子任务执行过程中监控任务完成进度,并检索详细的、逐步的子任务经验,以动态完善其行动并不断提高其规划能力。
在这里插入图片描述

核心创新点

  1. 经验增强的分层规划:Agent S利用在线Web知识和存储在叙事记忆中的过去经验,将复杂和长期的桌面任务分解成可管理的子任务。
  2. 叙事记忆和情景记忆:叙事记忆包含成功和失败轨迹的摘要,而情景记忆包含完整的计划,具有特定的基础行动。
  3. Agent-Computer Interface(ACI):ACI定义了一种交互范式,使用视觉输入和图像增强的可访问性树进行精确的元素定位,并使用语言基础的原语来生成环境转换。

实验效果
在OSWorld基准测试中,Agent S在成功率上比基线模型高出9.37%,相对提高了83.6%,达到了新的最高水平。在WindowsAgentArena基准测试中,Agent S在没有任何明确适应的情况下,性能从13.3%提高到18.2%,展示了对不同操作系统的广泛通用性。
在这里插入图片描述

后续潜在研究方向

  1. 考虑任务完成所需的代理步骤和墙钟时间,未来的工作可以考虑GUI控制的最短路径导航公式,并在时间和准确性的维度上评估各种代理的帕累托最优性。
  2. 将经验增强和Agent Computer Interface的思想扩展到更小的、开源的MLLMs,这些MLLMs可以被微调以弥补差距。

推荐阅读指数:4

4. Executing Arithmetic: Fine-Tuning Large Language Models as Turing Machines

Authors: Junyu Lai, Jiahe Xu, Yao Yang, Yunpeng Huang, Chun Cao, Jingwei Xu
https://arxiv.org/abs/2410.07896
执行算术:将大型语言模型微调为图灵机

摘要
本文提出了一个可组合的算术执行框架(CAEF),使大型语言模型(LLMs)能够通过模拟图灵机来学习逐步执行计算,从而真正理解计算逻辑。此外,该框架具有高度的可扩展性,允许通过组合学习到的运算符来显著降低学习复杂运算符的难度。在评估中,CAEF在七个常见的数学运算上实现了近100%的准确率,有效地支持了涉及多达100位操作数的计算,这是GPT-4o在某些设置中明显不足的。

研究背景
尽管LLMs在自然语言处理和推理任务中表现出色,但在算术领域的性能仍然不尽人意。LLMs在处理算术任务时,往往通过记忆特定的例子而不是学习底层的计算逻辑,限制了它们对新问题的泛化能力。
在这里插入图片描述

算法模型
CAEF框架包括执行器(executor)和对齐器(aligner)两个独立组件。执行器负责执行实际的计算,通过模拟相应算术图灵机的转移函数来学习底层的计算逻辑。对齐器作为接口,将原始算术表达式(例如89×2=)转换为执行器可以直接处理的格式。执行器完成后,对齐器将执行器的输出转换回最终结果。
在这里插入图片描述
在这里插入图片描述

核心创新点

  • 提出了一个三步流程,每个算术运算符都由执行器和对齐器支持。
  • 设计了一个执行器作曲器,负责复杂运算符的高级执行程序,并允许函数调用来调用其他预学习的算术运算符。
  • 实现了七个运算符:+、−、×、÷、>、<和==,以及两个辅助运算符。

实验效果

  • CAEF在所有七个运算符上都实现了高准确率,即使在操作数长达100位的情况下。
  • 与GPT-4o相比,配备CAEF的LLM在操作数长度变化时的影响最小,有效支持了长达100位的操作数计算。

后续潜在研究方向

  • 探索如何将CAEF框架应用于更复杂的数学问题和计算任务。
  • 研究如何进一步优化执行器和对齐器的性能,以提高计算效率。
  • 考虑如何将CAEF框架与其他类型的计算模型和算法相结合,以扩展其应用范围。

推荐阅读指数:4.5

5. Towards Assurance of LLM Adversarial Robustness using Ontology-Driven Argumentation

Authors: Tomas Bueno Momcilovic, Beat Buesser, Giulio Zizzo, Mark Purcell,
Tomas Bueno Momcilovic
https://arxiv.org/abs/2410.07962
使用本体驱动论证确保LLM对抗性鲁棒性

摘要
尽管大型语言模型(LLMs)在各种自然和领域特定语言任务中显示出了适应性,但在确保它们的安全性、透明度和可解释性方面仍存在挑战。鉴于LLMs对对抗性攻击的敏感性,需要通过不断演变的对抗性训练和防护措施来防御LLMs。然而,管理

隐含和异构知识以持续确保鲁棒性是困难的。我们引入了一种新的方法,基于形式化论证来确保LLMs的对抗性鲁棒性。使用本体论进行形式化,我们结构化了最先进的攻击和防御,促进了人类可读的保证案例的创建,以及机器可读的表示。我们通过英语语言和代码翻译任务中的示例展示了其应用,并针对工程师、数据科学家、用户和审计员提供了理论和实践上的影响。

研究背景
LLMs在自然和编程语言任务中展现出了预测、翻译和生成文本的能力。然而,它们对对抗性攻击的脆弱性,如通过恶意提示绕过防护措施或模型对齐以获得有害输出,使得它们的安全性和鲁棒性成为研究的重点。
在这里插入图片描述在这里插入图片描述

算法模型
文章提出了一种基于本体论驱动论证的方法,通过形式化攻击和防御的关系,以及变量(如攻击成功率、字符类型)的值,来构建人类可读的保证案例和机器可读的语义网络。

核心创新点

  • 提出了一种新的方法,使用本体论来形式化LLMs的攻击和防御知识,并构建保证案例。
  • 通过本体论模型,允许基于人类可读的保证案例进行形式化论证,从而创建共享的关于训练、防护措施和实施的理解。
  • 展示了如何在自然语言任务和代码翻译任务中应用这种方法,以及如何通过查询中心仓库中的参数值来进行持续推理。
    在这里插入图片描述
    在这里插入图片描述

实验效果
文章没有提供具体的实验数据,但通过示例展示了该方法在不同任务中的应用潜力。

后续潜在研究方向

  • 探索如何将这种方法应用于更广泛的LLM应用领域和任务。
  • 研究如何进一步优化本体论模型和保证案例的结构,以提高其可扩展性和自动化程度。
  • 考虑如何将这种方法与其他类型的AI技术和方法相结合,以提高整体系统的安全性和鲁棒性。

推荐阅读指数:3.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2212315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Postman 如何测试入参是文件类型(File)参数接口

Postman 如何测试 File 类型参数 前提背景测试步骤1、打开 Postman 选择 POST 方法输入调用地址2、参数选择 Body 下的 form-data3、KEY 选择 File 选项&#xff0c;并填写 file 前提背景 springboot 项目&#xff0c;接口的参数是 File 类型&#xff0c;需要通过 Postman 测试…

链表题, 反转链表 , 链表的中间结点 , 删除链表的倒数第 N 个结点 , 移除链表元素

文章目录 206. 反转链表203. 移除链表元素876. 链表的中间结点LCR 021. 删除链表的倒数第 N 个结点 206. 反转链表 题目链接 思路&#xff1a; 将原链表的结点&#xff0c;从头到尾一个个地拿下来头插到一个新链表中&#xff0c;这个新链表起始时为一个空链表。 class Solutio…

同三维T80001HK4 四路4K30HDMI H.264编码器

4路同时编码&#xff0c;带4路3.5外置音频 同三维T80001HK4四路4K30HDMI H.264编码器 同三维T80001HK4用于高清视频信号&#xff08;4K30Hz&#xff09;编码及网络传输的硬件设备&#xff0c;采用最新高效H.264高清数字视频压缩技术&#xff0c;具备稳定可靠、高清晰度、低码率…

408 14——42题

题目&#xff1a; 某网络中的路由器运行OSPF路由协议&#xff0c;题42表是路由器R1维护的主要链路状态信息(LSI)&#xff0c;题42图是根据题42表及R1的接口名构造出来的网络拓扑。 请回答下列问题。 1)本题中的网络可抽象为数据结构中的哪种逻辑结构? 2)针对题42表中的内容&am…

C++ 类和对象-改

在C中&#xff0c;类&#xff08;Class&#xff09;是用户自定义的数据类型&#xff0c;用来封装数据和功能的结合。而对&#xff08;Object&#xff09;是类的实例&#xff0c;通过类的定义可以创建多个对象。C是一种面向对象编程语言&#xff0c;类和对象是其核心概念。 1. …

前端开发基础NodeJS+NPM基本使用(零基础入门)

文章目录 1、Nodejs基础1.1、NodeJs简介1.2、下载安装文件1.3、安装NodeJS1.4、验证安装2、Node.js 创建第一个应用2.1、说明2.2、创建服务脚本2.3、执行运行代码2.4、测试访问3、npm 基本使用3.1、测试安装3.2、配置淘宝npm镜像3.3.1、本地安装3.3.2、全局安装3.4、查看安装信…

项目总思路

一、模型选择 高性能服务器一般用到的是 Reactor 模型&#xff0c;即事件驱动模型。 1、模型一&#xff1a;单 Reactor 单线程模型 只有一个线程会造成性能瓶颈。 适用场景&#xff1a;客户端少&#xff0c;业务处理快速。 2、模型二&#xff1a;单 Reactor 多线程模型 即…

栈——单调栈

题目描述 给定一个长度为 N 的整数数列&#xff0c;输出每个数左边第一个比它小的数&#xff0c;如果不存在则输出 −1。 输入格式 第一行包含整数 N (1≤N≤10^5)&#xff0c;表示数列长度。 第二行包含 N 个整数&#xff0c;表示整数数列。1≤ai≤10^9。 输出格式 共一…

git规范化开发

特性分支开发 以前使用git基本都是随心所欲的用&#xff0c;commit的信息比较随便&#xff0c;所以有时git分支结构有时显得混乱&#xff0c;最近标准化开发的过程中接触了特性分支开发。 何为特性分支&#xff0c;按我的理解&#xff0c;就是每一次代码的修改提交&am…

Linux操作系统学习——常见指令集合

本篇博客是对于linux系统学习的初步认识&#xff0c;了解一些常见指令以及基础知识 ls指令 ls/ls -l :只显示文件名/显示更多文件的属性&#xff0c;此时注意最后一行开头位置字母为d就代表显示的是目录的文件属性&#xff0c;还有一点就是&#xff1a;ls -l 默认查看当前目录…

解锁5 大无水印热门短视频素材库

想让你的抖音视频更出彩吗&#xff1f;想知道那些爆款视频的素材源头吗&#xff1f;快来了解以下 5 个超棒的视频素材下载平台。 蛙学网 国内的视频素材佼佼者&#xff0c;有大量 4K 高清且无水印的素材&#xff0c;自然风光、情感生活等类别任你选&#xff0c;不少还免费&…

利用 NIM 平台上的生成式 AI模型,根据描述生成图片

以下是一个使用 NIM 平台的生成式 AI模型构建的简单 demo。这个 demo 实现了文生图&#xff0c;通过解析用户需求来判断是否需要进行画图。这里使用 Python 和 FastAPI框架来搭建一个简单的 web 应用。 项目结构 work/ │ ├── images/ ├── chat.py └── chat.html 安…

PostgreSQL技术内幕14:从插件来看PG扩展性-FDW插件

文章目录 0.简介1.FDW介绍2.使用方式2.1 创建过程2.1.1 创建插件2.1.2 创建 Foreign Server2.1.3 创建 User Mapping(外部服务器映射&#xff0c;本地文件可以不需要&#xff09;2.1.4 创建外部表 2.2 查询流程 3.源码分析3.1 扩展接口分析3.2 和其他部分关联3.2.1 和计划的关联…

AI智能助理在企业内部的8大应用场景

一、概述 1.1 AI智能助理核心功能概览 1.2 AI智能助理业务应用价值 二、详解 AI智能助理在企业内部办公方向的应用可以极大地提高工作效率、优化流程&#xff0c;并为员工提供更加个性化的支持。以下是一些具体的业务场景&#xff1a; 日程管理和会议安排&#xff1a; 自动安…

现今 CSS3 最强二维布局系统 Grid 网格布局

深入学习 CSS3 目前最强大的布局系统 Grid 网格布局 Grid 网格布局的基本认识 Grid 网格布局: Grid 布局是一个基于网格的二位布局系统&#xff0c;是目前 CSS 最强的布局系统&#xff0c;它可以同时对列和行进行处理&#xff08;它将网页划分成一个个网格&#xff0c;可以任…

Java读取PDF后做知识库问答_SpringAI实现

​​​​​​​​​​​​​​ 核心思路&#xff1a; 简单来说&#xff0c;就是把PDF文件读取并向量化&#xff0c;然后放到向量存储里面&#xff0c;再通过大模型&#xff0c;来实现问答。 RAG&#xff08;检索增强生成&#xff09;介绍&#xff1a; 检索增强生成&#x…

UE5 猎户座漂浮小岛 02 模型 地形

UE5 猎户座漂浮小岛 02 模型 地形 1.模型 1.1 导入 1.2 统一模型比例 1.3 添加碰撞体 2.地形 2.1 地 2.2 山体 2.3 海洋 2.4 花草

特征提取:传统算法 vs 深度学习

特征提取&#xff1a;传统算法 vs 深度学习 特征点是图像中梯度变化较为剧烈的像素&#xff0c;比如&#xff1a;角点、边缘等。FAST&#xff08;Features from Accelerated Segment Test&#xff09;是一种高速的角点检测算法&#xff1b;而尺度不变特征变换SIFT&#xff08…

使用DataX同步hive数据到MySQL

目录 1、组件环境 2、安装datax 2.1、下载datax并解压 3、安装datax-web 3.0、下载datax-web的源码&#xff0c;进行编译 3.1、在MySQL中创建datax-web元数据 3.2、安装data-web 3.2.1执行install.sh命令解压部署 3.2.1、手动修改 datax-admin配置文件 3.2.2、手动修改…