大模型推理最新论文及源码合集,涵盖多模态推理、逻辑推理、数学推理

news2025/2/23 20:57:20

大模型推理技术的发展帮我们解决了许多的难题,但如今的大模型在复杂推理上的表现仍然欠佳,为了突破这一瓶颈,研究者们提出了许多创新性的方法。

我整理了其中一部分个人认为很值得学习的论文来和大家分享,涵盖多模态推理、逻辑推理、数学推理三个细分方向,帮助同学们快速了解这一领域的最新研究进展。

目前共有14篇,篇幅原因只做简单介绍,需要论文及源代码的同学看文末

综述(3篇)

Reasoning with Language Model Prompting: A Survey

使用语言模型提示进行推理

简述:思维推理是复杂问题解决的基本能力,可以为各种实际应用提供支持,如医学诊断、谈判等。本文全面综述了使用语言模型提示进行推理的前沿研究,介绍了各项研究工作及其比较和总结,并提供了系统的资源帮助初学者。另外,论文还讨论了推理能力出现的潜在原因,并强调了未来的研究方向。

A Survey of Deep Learning for Mathematical Reasoning

数学推理的深度学习概述

简述:数学推理是人工智能一个关键而富有挑战性的研究方向。近年来,深度学习技术在数学推理任务上取得了长足进展,使我们更近一步地理解机器如何进行逻辑思维。本文综述了深度学习在数学推理领域的最新研究进展,包括关键的任务设置、数据集、模型方法等,并讨论了当前的挑战与未来研究方向。

Towards Reasoning in Large Language Models: A Survey

迈向大语言模型的推理:综述

简述:推理是人类智能的基本要素,在问题解决、决策制定和批判性思维等活动中发挥着关键作用。近年来,大规模语言模型在自然语言处理任务上的进步给人带来了它们可能具有推理能力的观察。但是,这些模型的推理能力到底有多强还不得而知。本文全面概述了大语言模型推理能力相关研究的当前状况,包括提高和激发这些模型推理能力的技术,评估推理能力的方法和基准,以前研究的发现和启示,以及未来研究方向的建议。

多模态推理(4篇)

Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues

基于前提的多模态推理:文本和视觉线索的条件推断

简述:最近的视觉语言跨模态推理研究,通常只给模型输入图像和文本查询,要求模型无条件地进行推理。论文认为这种做法存在局限,因为没有给出明确的前提背景。所以作者提出了一个新的基于前提的多模态推理任务,为每个图像设置一个文本前提作为推理的背景假设。论文构建了相应的多模态推理数据集,通过多阶段众包实现了高质量的标注。在这个数据集上,作者测试了各种多模态推理模型的性能。

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

科学问题回答中的思维链多模态推理

简述:最近,科学问题基准被用来诊断人工智能系统的多步推理能力和可解释性。但是,现有数据集未提供答案注释,或仅限于文本模式,规模小,领域有限。为此,,论文提出了ScienceQA,一个包含约21000个多模态多项选择科学问题及对应答案、讲解和解释注释的数据集。作者进一步设计语言模型来生成讲解和解释作为思维链,以模拟回答ScienceQA问题时的多步推理过程。

STaR: Bootstrapping Reasoning With Reasoning

通过推理引导推理

简述:论文提出一个让语言模型通过自己生成的推理链来逐步提高复杂推理能力的方法。该方法包含两个步骤:第一步是用少量样本提示语言模型生成回答问题的推理链。第二步是检查生成的推理链是否正确,如果错误,让模型根据正确答案重新生成推理链,然后用所有正确的推理链微调模型。反复上述步骤,模型就可以从自己生成的推理中学习,逐步提高复杂推理能力。

From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering

面向视频问答的证据与常识推理

简述:论文提出新的视频问答任务Causal-VidQA,包含从描述到证据推理和常识推理的四类问题,目标是推进视频理解从表示学习到深层推理。结果显示现有视频问答方法在描述很强,但推理很弱。新任务可以评估方法的推理能力,引导视频理解研究发展。

逻辑推理(3篇)

Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought

推理链的系统形式分析

简述:作者通过构建新的合成问答数据集,形式化分析了大型语言模型的推理能力。结果发现,这些模型可以正确进行个别的推理步骤,总体上具备一定的推理能力。但是当需要在多个推理路径中进行选择时,语言模型表现出推理规划上的困难。这说明目前的语言模型更依赖贪心进行局部推理,而非全局规划推理链。这一结论有助于揭示语言模型推理能力的局限,为进一步提高其复杂推理能力提供指导。

FOLIO: Natural Language Reasoning with First-Order Logic

用一阶逻辑进行自然语言推理

简述:FOLIO是一个开放域的自然语言推理数据集,包含人工标注的一阶逻辑形式。该数据集可以用来系统评估语言模型在一阶逻辑推理任务上的能力。研究结果显示,即使是目前最强大的语言模型GPT-3,其在FOLIO数据集上的零样本推理表现也仅略优于随机猜测。这说明当前的语言模型在逻辑推理方面仍存在很大局限性。

Language Models as Inductive Reasoners

语言模型作为归纳推理器

简述:最近的研究表明,预训练语言模型具有进行归纳推理的能力。论文提出了一个新的框架,使用自然语言而不是逻辑语言来表示知识,并使用预训练语言模型作为“推理器”。通过构建自然语言事实和规则的数据集,作者分析了语言模型从自然语言事实中归纳规则的能力。实验结果显示,与其他方法相比,该框架可以更好地进行自然语言归纳推理。这表明预训练语言模型是一个有效的通用归纳推理器。

数学推理(4篇)

PAL: Program-aided Language Models

PAL:程序辅助语言模型

简述:论文提出了程序辅助语言模型(PAL):一种新方法,使用LLM读取自然语言问题并生成程序作为中间推理步骤,但将解决步骤交给运行时环境如Python解释器。在PAL中,将自然语言问题分解成可运行步骤仍然是LLM的唯一学习任务,而解决则委托给解释器。该方法在13个数学、符号和算法推理任务上展示了神经LLM和符号解释器之间的协同效应。

NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks

NumGLUE:一个包含基础且富有挑战性的数学推理任务的测试集

简述:论文提出了一个名为NumGLUE的算术推理基准测试,用来评估AI在简单计算任务上的能力。该测试包含8个不同的任务,都需要对数字进行简单的推理。研究发现,目前的神经网络模型在这个基准测试上的表现远远落后于人类,显示它们在数字推理方面的能力还很脆弱。

LILA: A Unified Benchmark for Mathematical Reasoning

LILA: 数学推理任务的统一基准

简述:论文提出了LILA,一个统一的数学推理基准测试,它包含各种不同类型、难度不等的数学任务,可以全面评估AI系统在数学推理方面的能力。测试结果显示,当前最先进的AI模型在LILA基准上的表现仍远远落后于人类。这说明AI的数学推理能力还有很大提升空间。

ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering

对话式金融问答中数值推理链的探索

简述:ConvFinQA是一个针对对话式金融问答的大规模数据集,目的是研究对话中多步数值推理的能力。该数据集包含真实世界的复杂金融对话,需要模型进行长程复杂的数值推理。作者使用这一数据集,测试了神经符号方法和提示学习方法在对话式问答中的推理能力,结果表明,进行复杂实际推理仍然是一个巨大的挑战。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“推理”获取全部论文+源代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1159075.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaScript 特殊对象的排序

在项目中有需求,需要对对象进行排序,根据键值对的“键”(key)进行排序 前提是 你的 key 是用数字表示的,这样才能排序 例子一: let obj {"101": 孙悟空,"105": 猪八戒,"102&quo…

关键词搜索苏宁易购商品数据接口(标题|主图|SKU|价格|优惠价|掌柜昵称|店铺链接|店铺所在地)

关键词搜索苏宁易购商品数据接口可以帮助企业快速获取苏宁易购平台上的商品数据。通过该接口,企业可以获取到商品的详细信息,如商品名称、价格、库存量、销量等。这些信息可以用于多种业务场景,如选品决策、采购计划制定、价格监控等。 使用…

2023/11/1 JAVA学习

和上面的镜态变量,实例变量类似 可以这样送一些数据给mian方法(类方法) 将工具类的构造器私有化,这样就无法再创造对象 只能是在子类中访问,如果是一个非子的类中,创建了一个子类对象,这样是访问不了的 子类中的构造器中默认有一个super(),调用父类的无参构造器 若父类无无参构…

高压发生器

直流高压试验装置产品简介 武汉凯迪正大KDZG系列直流高压发生器是按照中国行业标准ZGF24003-90《便携式直流高压发生器通用技术条件》的要求,研究、制造的便携式直流高压发生器,适用于电力部门、厂矿企业动力部门、科研单位、铁路、化工、发电厂等对氧化…

移动设备访问本地localhost

一.正常访问 1.首先确保使用的移动设备和PC端在同一个局域网下(如连接同一个wifi) 2.查看PC端地址 命令行:ipconfig 3.移动设备访问localhost地址,把PC端前缀替换为IPv4地址 如:PC地址为 localhost:9999/xxx/yyy …

【干货速学】电商API接入电子商务数据分析:电子商务数据分析的流程

生活中的数据分析 日常工作和生活中处处都有数据分析的存在,比如消费者在购买不同商品前,经常会对儿“性价比”进行简单分析,价格表现为固定的货币数字。性能则具体体现在商品质量、客户收务等客观因素和客户对该商品的需求程度等主观因素上。…

springboot项目多环境配置

springboot项目多环境配置 企业级软件开发往往存在多种环境,比如:开发、测试、生产等。不同环境的配置文件略有差异,如何能够方便的进行环境切换,尤其是在打包编译的时候,至关重要。本文则节选出关键的核心代码。 po…

为什么前端用vue的公司越来越多?

Vue.js是一款流行的JavaScript框架,被广泛应用于Web开发中。它相比于其他框架具有一些有利的特点,所以受到许多开发人员的青睐。可以用“简单易学、响应式数据绑定、轻量高效、生态系统丰富、渐进式框架”等概括VUE的技术优势。 Vue 3.0是Vue.js于2022年…

疑难杂症-暂时不能解析域名“mirrors.tuna.tsinghua.edu.cn”

可能是太久没用Ubuntu了,总是有一些莫名其妙的问题 我的方法简单粗暴:不需要重启,打开终端,输入sudo apt-get update,解析成功 还有一些别的方法,不过我也没试过 修改/etc/resolv.conf还是修改/etc/resol…

黑客(网络安全)技术——如何高效自学

前言 前几天发布了一篇 网络安全(黑客)自学 没想到收到了许多人的私信想要学习网安黑客技术!却不知道从哪里开始学起!怎么学 今天给大家分享一下,很多人上来就说想学习黑客,但是连方向都没搞清楚就开始学习…

soul协议算法

逆向工程技术是指对软件或应用程序进行逆向分析以了解其内部机制和功能的过程。虽然我无法详细介绍"Soul App"的逆向工程技术,但以下是一些常见的逆向工程技术,可能与你的研究相关: 1. 反汇编(Disassembly)…

网络套接字编程(二)

网络套接字编程(二) 文章目录 网络套接字编程(二)简易TCP网络程序服务端创建套接字服务端绑定IP地址和端口号服务端监听服务端运行服务端网络服务服务端启动客户端创建套接字客户端的绑定和监听问题客户端建立连接并通信客户端启动程序测试单执行流服务器的弊端 多进程版TCP网络…

Spring手动获取bean对象

一&#xff0c;三种获取方式&#xff08;获取单例bean对象&#xff09; 默认情况下Spring项目启动时会把bean都创建好放在IOC容器中&#xff0c;如果想要主动获取这些bean对象 根据name获取bean Object getBean(String name) 根据类型获取bean <T> T getBean(Class<T…

易点天下受邀参与云栖大会,以AIGC重塑出海营销新范式

10月31日&#xff0c;2023云栖大会在杭州云栖小镇拉开帷幕。与往年不同&#xff0c;今年的云栖大会以“计算&#xff0c;为了无法计算的价值”为主题&#xff0c;与国际潮流科技大会组织方式接轨&#xff0c;通过云计算、人工智能、产业创新三大主题馆40000平科技展&#xff0c…

双十一电视机顶盒哪个牌子好?经销商盘点线下热销网络电视机顶盒排名

电视机顶盒的功能非常丰富&#xff0c;日常的使用频率很高&#xff0c;而我作为数码经销商&#xff0c;电视机顶盒是主营产品之一&#xff0c;双十一是每年的购物狂欢&#xff0c;很多新手们咨询我电视机顶盒哪个牌子好想在双十一价格优惠时入手&#xff0c;今天我来盘一盘目前…

视觉霸主SAM和文图霸主CLIP强强联合!苹果联合UIUC,发布统一视觉模型SAM-CLIP,或掀起多模态新浪潮

作者 | ZenMoore 相信大家对 SAM[1] 并不陌生&#xff0c;它是 Meta 此前发布的 Segment Anything Model (分割一切模型)。一经发布便火遍全网震惊世界&#xff0c;史称“视觉领域的 ChatGPT 时刻”。 大模型研究测试传送门 GPT-4传送门&#xff08;免墙&#xff0c;可直接测…

【Cargo Therapeutics】申请1亿美元纳斯达克IPO上市

来源&#xff1a;猛兽财经 作者&#xff1a;猛兽财经 猛兽财经获悉&#xff0c;美国生物制药公司【Cargo Therapeutics】近期已向美国证券交易委员会&#xff08;SEC&#xff09;提交招股书&#xff0c;申请在纳斯达克IPO上市&#xff0c;股票代码为(CRGX),Cargo Therapeutics…

大厂面试题-什么是服务网格?

概述 服务网格这个概念出来很久了&#xff0c;从2017年被提出来&#xff0c;到2018年正式爆发&#xff0c;很多云厂商和互联网企业都在纷纷向服务网格靠拢。像蚂蚁集团、美团、百度、网易等一线互联网公司&#xff0c;都有服务网格的落地应用。 服务网格是微服务架构的更进一…

借助AxProtector CTP,软件更能坚守抗盗版和逆向工程阵地

威步的软件保护机制采用了先进的混淆技术。 最新的编译时保护技术利用LLVM编译器框架&#xff0c;以实现高效的保护目标。 AxProtector CTP确保应用程序的安全性&#xff0c;同时符合特定平台的指导原则&#xff0c;无需运行时代码修改。 最近的CodeMeter保护套件更新已支持…

LeetCode----42. 接雨水

题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height = [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释:上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图,在这种情况下,可以接 6 个单位的雨水(蓝…