基础模型的推理:综述

news2025/1/21 15:46:18

24年1月论文“A Survey of Reasoning with Foundation Models”,来自香港中文大学、华为、香港大学、上海AI实验室、香港科技大学、大连理工、北京大学、清华大学、合肥工大、中国人民大学、复旦大学和香港科技大学广州分校。

推理是解决复杂问题的关键能力,在谈判、医疗诊断和刑事调查等各种现实环境中发挥着关键作用。它是通用人工智能(AGI)领域的基本方法论。随着大语言模型(LLM)等基础模型的不断发展,人们越来越有兴趣探索它们在推理任务中的能力。本文介绍了提出的或适用于推理的开创性基础模型,重点介绍各种推理任务、方法和基准的最新进展。然后,深入研究基础模型中推理能力涌现背后潜在的未来方向。还讨论推理背景下多模态学习、自主智体和超对齐的相关性。

推理是人工智能的一个关键方面,其应用跨多个领域,如问题求解、定理证明、决策和机器人技术。《思考,快与慢》阐明了人类心智的双系统框架,由“系统1”(“System 1)和“系统2”(System 2)思维模式组成。“系统1”进行迅速,依赖直觉、情绪、直觉和无意识。相比之下,“系统2”进行更慢,包括有意识的推敲,如算法推理、逻辑分析和数学能力。推理作为“系统2”的关键功能之一发挥着至关重要的作用。

推理可以大致分为两种:形式语言推理 (formal language reasoning) 和自然语言推理 (natural language reasoning )。如图所示是两种语言推理的类型及其支持任务的例子:一方面,形式语言推理通常应用于软硬件系统的形式验证、定理证明和自动推理等领域 。另一方面,自然语言推理实现更直观的人机交互,支持问题回答、信息检索、文本摘要和情感分析等任务。

添加图片注释,不超过 140 字(可选)

自诞生以来,基础模型在各种领域展现出显著的效果,包括自然语言处理、计算机视觉和多模态任务。然而,对通用AI的兴趣,引发了关于基础模型是否能展现人类般的推理能力的争论。因此,对研究基础模型的推理能力的兴趣激增。

如图所示:左边:推理任务概述,即数学、逻辑、因果、视觉、多模态、常识等推理;右边:基础模型的推理技术概述,即预训练、微调、专家混合、对齐训练和上下文学习,以及自主智体。

添加图片注释,不超过 140 字(可选)

基础模型通常由数十亿个参数组成,并通过自监督学习在大规模数据集上进行(预)训练。一旦(预)训练完成,基础模型可以做特定任务的微调、线性探讨(linear probing)或提示工程进行调整,解决许多下游任务,展现出显著的泛化能力和出色的准确性。与传统transformer中使用的软注意机制相比,系统2注意(S2A)利用LLM的能力来促进语言推理。这种方法提高了长篇内容生成的事实性和客观性。将逻辑规则和原则整合到学习过程中,这些模型可以执行诸如推理和演绎等复杂任务。这使得它们能够根据明确的知识和逻辑推理进行决策,而不仅仅依赖于统计模式。作为AI领域中的快速发展领域,基础模型推理旨在开发能以更人性化的方式理解和处理复杂信息的模型。基于逻辑推理和知识表示的基础之上,这些模型使抽象概念推理和基于逻辑规则进行决策成为可能。

下表是来自 Social IQA 的常识推理问题的示例(Sap,2019)。其中正确答案以粗体显示。

添加图片注释,不超过 140 字(可选)

下表是数学应用问题 (MWP)的例子。

添加图片注释,不超过 140 字(可选)

下表是演绎推理、溯因推理和归纳推理的示意图。在这个例子中,黑色文本代表给定的知识,而红色文本代表推断的知识。术语“事实”表示具体信息,而“规则”表示一般原则或指南。

添加图片注释,不超过 140 字(可选)

如图所示:基础模型主要可分为语言、视觉和多模态的类别,每一个都是一个积极研究的领域。

添加图片注释,不超过 140 字(可选)

如图所示:基础模型推理任务的类别,给出每个类别的代表性例子:常识、数学、逻辑、因果、视觉、语音、多模态和具身推理,还有其他方面的例子。

添加图片注释,不超过 140 字(可选)

如图所示是基础模型常识推理研究的三个领域: (a) 通过理解日常知识,基础模型可以从问题中推理出隐性知识并推断出答案。 (b) 基础模型从一般物理知识推断出广泛的物理特性。 © 基础模型对一组目标的空间属性进行推理。

添加图片注释,不超过 140 字(可选)

如图所示是增强大语言模型逻辑推理能力的两种主要方法: (a) 上下文学习利用特定提示作为演示来引发逻辑推理。 (b) 微调用额外的训练样本来更新专门的模型参数。

添加图片注释,不超过 140 字(可选)

下表是命题逻辑和谓词逻辑在基本要素、复杂性、表达能力和应用方面的比较。

添加图片注释,不超过 140 字(可选)

如图所示是反映不同因果推理任务的因果图示例。 (a) 因果发现(Casual discovery)识别给定系统中变量之间的潜在因果关系。 (b) 效果推断(Effect inference)根据已知的因果关系估计系统上特定干预措施的结果(例如权重)。 © 溯源(Atribution)确定特定原因对特定结果负责的程度。 (d) 裁判(Judgement)根据因果关系的感知后果和影响做出决定。

添加图片注释,不超过 140 字(可选)

如图是通用视觉系统 G-VUE 的四个功能域(Huang,2023b)即感知、落地、推理和行动,及其相应的视觉任务。

添加图片注释,不超过 140 字(可选)

如图是SUPERB(Yang, 2021)的四个评估领域,侧重于基础模型的判别能力和相应的任务。 PR:声音识别,ASR:自动语音识别,KS:关键字识别,QbE-STD:通过口语术语检测例子进行查询,SID:说话人识别,ASV:自动的说话人验证,SD:说话人分类,IC:意图分类,SF:槽填充,ER:情感识别。

添加图片注释,不超过 140 字(可选)

如图所示,多模态推理任务可以大致分为图像文本对齐、文本到图像生成、多模态到文本生成和多模态理解。当前的多模态基础模型主要涉及三种处理推理任务的关键技术,包括多模态指令调整、多模态上下文学习和LLM辅助视觉推理。

添加图片注释,不超过 140 字(可选)

如图所示是内省推理(introspective reasoning)和外省推理(extrospective reasoning)之间的差异。内省推理不需要与环境交互,而外省推理则利用外部环境的观察和反馈来调整规划。

添加图片注释,不超过 140 字(可选)

如图所示是单智体和多智体推理的区别::争论是多智体才有的存在

添加图片注释,不超过 140 字(可选)

下表是常识推理基准的统计。 Choices:每个问题的选择数;Questions:问题的数量。

添加图片注释,不超过 140 字(可选)

下表是逻辑推理基准 (Luo 2023d)。任务分为三种类型:多项选择题回答(MCQA);自然语言推理(NLI);和事实验证(FV)。

添加图片注释,不超过 140 字(可选)

下表是声音推理任务的指标。这里是“cat”表示任务的类别,“discr”和“gen”分别代表鉴别任务和生成任务。

添加图片注释,不超过 140 字(可选)

如图所示是用于预训练基础模型的多种数据源和数据集,主要包括文本数据、图像数据和多模态数据。

添加图片注释,不超过 140 字(可选)

如图是编码器-解码器框架和只有解码器框架的示意图:

添加图片注释,不超过 140 字(可选)

如图是不同参数高效训练方法的插图。 (a)低秩适应(LoRA)保持预训练模型的原始权重不变,同时将基于秩分解的可训练矩阵集成到网络的每一层中以调整参数。 (b) 提示调整在输入层结合了可训练的提示向量,并使用提示增强输入来解决特定的下游问题。 © SSF 只需要缩放和移动由预训练网络提取的深层特征即可进行参数高效的微调。 (d) MMA 训练轻量级适配器来弥合大语言模型和视觉语言任务之间的差距,从而实现视觉和语言模型的联合优化。

添加图片注释,不超过 140 字(可选)

如图是LLM对齐训练的开发过程。首先,LLM 通常使用高质量指令数据的监督微调 (SFT) 进行优化。然后,可以通过人类偏好训练进一步调整。相关技术包括需要强化学习的在线人类偏好训练(左)和直接优化策略以最好地满足偏好的离线人类偏好训练(右)。

添加图片注释,不超过 140 字(可选)

如图是递归语言模型中的专家混合 (MoE) 层。在这种情况下,稀疏门函数选择一对专家来执行所需的计算。

添加图片注释,不超过 140 字(可选)

如图是ICL的常用方法:1)演示例子选择,包括先验知识、检索,2)CoT,包括零样本(零样本CoT和规划-再-求解的提示),少样本(CoT、最少-到-最多、复杂CoT、自动CoT、思维程序、思维树、思维图和思维骨架等),多路聚合(DIVERSE、自洽、自适应一致性、模式选择、自评估指导解码和规划的推理),3)多伦提示,包括学习的细化器(自纠错、LLM-AUGMENTER)、自细化、自调试和渐进线索提示​。

添加图片注释,不超过 140 字(可选)

如图所示是自主智体的LLM一般流程。LLM智体利用LLM作为其数字大脑,掌握多种能力并拥有高水平的智力。智体可以接收一组不同的编码数据作为输入,并相应地构建或访问知识库和技能库。有了足够的知识和提示,智体就可以半自主地执行一系列任务。

添加图片注释,不超过 140 字(可选)

挑战:幻觉、上下文长度、多模态学习、效率和成本、人类喜好和多语言支持。
研究方向:安全和隐私、理解和透明、自动语言智体、科学推理和超对齐。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1673827.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows/Mailing

Mailing Enumeration nmap 使用 nmap 扫描系统,发现对外开放了如下端口 ┌──(kali㉿kali)-[~/vegetable/HTB] └─$ nmap -sC -sV -oA nmap 10.10.11.14 Starting Nmap 7.93 ( https://nmap.org ) at 2024-05-08 01:46 EDT Nmap scan report for 10.10.11.14 H…

软件各阶段资料(需求设计,系统架构,开发文档,测试文档,运维阶段的部署维护文档,概要设计,详细设计)

一、 引言 (一) 编写目的 (二) 范围 (三) 文档约定 (四) 术语 二、 项目概要 (一) 建设背景 (二) 建设目标 (三&#xff0…

linux上用Jmter进行压测

在上一篇中安装好了Jmeter环境,在这一篇中将主要分享如何使用jmeter在linux中进行单机压测。 1.项目部署 在这里我们先简单部署一下测试环境,所用到的项目环境是个jar包,先在linux上home目录下新建app目录,然后通过rz命令将项目ja…

一些近来对内网攻防的思考

我知道我最近托更托了很久了,其实也不是小编懒啊 这小编也是一直在写,但是遇到的问题比较多(我太菜了),所以一直拖着。 但是总不能不更吧 那就讲一下进来的一些内网攻防的思考吧 1.CrossC2上线Linux到CS(成功) …

程序设计文档—软件分析报告(Word)

第3章 技术要求 3.1 软件开发要求 第4章 项目建设内容 第5章 系统安全需求 5.1 物理设计安全 5.2 系统安全设计 5.3 网络安全设计 5.4 应用安全设计 5.5 对用户安全管理 5.6 其他信息安全措施 第6章 其他非功能需求 6.1 性能设计 6.2 稳定性设计 6.3 安全性设计 6.4 兼容性设计…

DriveWorld:通过自动驾驶世界模型进行 4D 预训练场景理解

24年5月北大论文“DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving”。 近年来,以视觉为中心的自动驾驶因其较低的成本而受到广泛关注。预训练对于提取通用表示至关重要。然而,当前以视觉为中心的预训练通常依…

【Linux】进程信号(2万字)

目录 前言 一、生活角度的信号 1.1、我们来见一见信号: 1.2、模拟一下 kill 指令 二、信号的处理 三、产生信号的5种方法 3.1、kill命令 3.2、键盘可以产生信号 3.3、3种系统调用 3.4、软件条件 3.5、异常 四、比较 core 和 Term 五、键盘信号产生 六…

Docker安装、使用及常用命令

一、Docker是什么? Docker是一种开源的容器化技术,允许开发者将应用及其运行环境打包在一个轻量级、可移植的容器中。这样,不论在开发、测试还是生产环境中,应用都能在任何Docker支持的平台上无缝运行。Docker使用Dockerfile来自…

人形机器人场景应用全解析,2024睿抗 AI ROBOT创新挑战赛火热报名中!

人工智能(AI)已成为推动科技革命和产业变革的关键力量。随着大模型等AIGC技术的迅猛发展,AI正深刻改变我们的生活并重新定义生产方式。越来越多人期望将AI技术从纯粹的思维和计算扩展到与物理世界的互动中,即发展具身智能。 为了推…

网络库-libcurl介绍

1.简介 libcurl 是一个功能强大的库,支持多种协议,用于数据传输。它广泛应用于实现网络操作,如HTTP、HTTPS、FTP、FTPS、SCP、SFTP等。libcurl 提供了丰富的 API,可以在多种编程语言中使用。 libcurl 主要特点 支持多种协议&am…

812寸硅片为什么没有平边(flat)?

知识星球(星球名:芯片制造与封测社区,星球号:63559049)里的学员问:上期种说2,4,6寸硅片都有平边,那为什么8&12寸硅片只有一个notch?为什么不能像小尺寸晶…

抖店商家选品误区,看你中了几条?

我是王路飞。 作为抖店的核心,选品的重要性自然不言而喻。 你跟达人沟通的重点是产品,与厂家沟通的重点也是产品,产品不行,一切都白搭。 然而很多新手商家刚开始做抖店的时候,总是选不到比较好的品。 今天给你们总…

「51媒体」邀请媒体参会报道和媒体发稿有啥不同

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 媒体参会报道和媒体发稿是新闻报道的两种不同形式,它们的主要区别在于内容来源、报道方式和目的。 内容来源: 媒体参会报道:通常指的是记者或媒体代…

STM32:EXTI—外部中断的初始化

文章目录 1、中断1.2 中断系统1.3 中断执行流程 2、STM32中断2.2EXTI(外部中断)2.3 EXTI 的基本结构2.4 AFIO复用IO口 3、NVIC基本结构3.2 NVIC优先级分组 4、配置EXTI4.2 AFIO 库函数4.3 EXTI 库函数4.4 NVIC 库函数4.5 配置EXTI的步骤4.6 初始化EXTI 1…

工作中使用IDEA查看Stream变化

工作中使用IDEA查看stream变化 代码debug调试 代码 package com.demo;import java.util.stream.LongStream;public class LamdaDemo {public static void main(String[] args) {long[] dataResult LongStream.of(1,5,7,9).filter(data -> data > 10).map(data -> da…

答辩PPT设计太耗时?aippt工具,AI一站式服务

这些网站我愿称之为制作答辩PPT的神! 很多快要毕业的同学在做答辩PPT的时候总是感觉毫无思路,一窍不通。但这并不是你们的错,对于平时没接触过相关方面,第一次搞答辩PPT的人来说,这是很正常的一件事。一个好的答辩PPT…

无线领夹麦克风怎么挑选?无线麦克风怎么用?主流机型推荐必看

​在短视频与直播盛行的当下,一款优质的麦克风无疑是提升作品音质的得力助手,让你的创作更具质感。作为一名短视频博主,我在拍摄和直播的过程中也积累了不少使用麦克风的经验,深知哪些无线麦克风既好用又价格亲民。接下来&#xf…

【MinGW】MinGW-w64的安装及配置教程

目录 🌞1. MinGW简介 🌞2. MinGW安装详情 🌊2.1 资源包获取 🌊2.2 安装详情 🌞1. MinGW简介 MinGW (Minimalist GNU for Windows) 是一个在 Windows 平台上开发软件的开发工具集合。它提供一组用于编译 Windows 应…

Python自动化SQL注入和数据库取证工具库之sqlmap使用详解

概要 在网络安全领域,SQL注入仍然是最常见的攻击之一。sqlmap是一个开源的自动化SQL注入和数据库取证工具,它提供了广泛的功能来检测和利用SQL注入漏洞。本文将详细介绍sqlmap的安装、特性、基本与高级功能,并结合实际应用场景,展示其在网络安全测试中的应用。 安装 sqlm…

便签字号怎么改 便签字体大小调节方法

在日常工作和生活中,便签是我形影不离的助手。每当灵感闪现或是有待办事项时,我都会随手记录在便签上,它就像我生活中的记事本,帮助我安排生活和工作。 然而,每个人都有不同的视觉需求和阅读习惯,对于便签…