9.13-广读最新研究方向论文核心思路汇总

news2025/1/23 22:43:56

思路借鉴

GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions
关键词: 对象文本对齐
摘要:泛化到未见过的任务是少量样本学习者在不熟悉的任务上实现更好零散视觉表现的重要能力。然而,这种泛化到视觉语言任务(包括接地和生成任务)的探索仍然不足;现有的少量样本 VL 模型难以处理涉及对象接地和多张图片的任务,例如视觉常识推理或 NLVR2。在本文中,我们提出了 GRILL,一个新颖的 VL 模型,可以推广到包括视觉问答、图片描述和无需或很少训练样本的多种任务。具体来说,GRILL 通过利用对象文本对齐来学习对象接地和定位,这使得它可以以零散/少量样本的方式转移到接地任务中。我们在各种零散/少量样本 VL 任务上评估了我们的模型,并表明它始终优于最先进的少量样本方法。

Making Language Models Better Reasoners with Step-Aware Verifier
摘要:少样本学习是一项具有挑战性的任务,需要语言模型从有限的例子中进行泛化。大型语言模型如 GPT-3 和 PaLM 在这方面取得了令人印象深刻的进展,但它们在推理任务(如 GSM8K,一个算术问题基准)上仍然面临困难。为了提高它们的推理能力,以前的工作提出了用提示来引导语言模型,在给出最终答案之前诱发一系列推理步骤,从而在 GSM8K 问题上实现了问题解决率的重大改进,从 17.9% 提高到 58.1%。在本文中,我们提出了 DiVeRSe(Diverse Verifier on Reasoning Step),一种新颖的方法,进一步增强了语言模型的推理能力。DiVeRSe 主要有三个组件:首先,它生成多样化的提示来探索相同问题的不同推理路径;其次,它使用验证器根据加权投票方案过滤不正确的答案;第三,它逐个验证每个推理步骤,而不是整个链。我们在最新的语言模型 code-davinci-002 上评估 DiVeRSe,并显示它在八个推理基准中的六个上实现了新的最先进结果(例如,GSM8K 从 74.4% 提高到 83.2%)。
在这里插入图片描述

太有用的东西!!
【自动化调试技术】Explainable Automated Debugging via Large Language Model-driven Scientific Debugging
摘要:自动化调试技术有潜力减少开发者在调试过程中的工作量,并且已经足够成熟,可以被业界采用。然而,现有技术的一个关键问题是,尽管开发者希望得到所提供自动调试结果的合理性,但现有技术不适合提供这些,因为它们的推导过程与人类开发者的过程显著不同。**受到开发者调试代码时与代码互动的方式的启发,我们提出了自动科学调试(AutoSD)技术,该技术给定有错误的代码和一个揭示错误的测试用例,提示大型语言模型自动生成假设,使用调试器积极与错误代码交互,从而在补丁生成之前自动得出结论。通过使自动化调试的推理更紧密地与人类开发者的推理对齐,我们希望产生关于特定补丁生成的可理解解释,希望解释能引导开发人员做出更有效、更准确的决定。**我们对三个程序修复基准的实证分析表明,AutoSD 与其他程序修复基线表现相当,并且可以指示其对结果的信心。此外,我们进行了一个人类研究,包括 20 名参与者,其中 6 名是专业开发者,以评估 AutoSD 解释的有用性。能够访问解释的参与者判断补丁正确性的时间与那些不能访问的参与者大致相同,但他们在研究中的五个实际错误中的准确性有所提高:70% 的参与者回答在使用修复工具时希望得到解释,而 55% 的参与者回答他们对科学调试表示满意。

有趣的论文:

  • Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration
    摘要:人类智慧借助认知协同概念茁壮成长,在那里,不同认知过程的协作和信息整合比孤立的个体认知过程产生更好的结果。尽管大型语言模型 (LLMs) 作为通用任务解决剂表现出了可喜的性能,但是它们仍然难以处理需要密集领域知识和复杂推理的任务。\n\n在本工作中,我们提出了 Solo Performance Prompting(SPP),它通过多回合的自我协作与多个人格交互,将单个 LLM 转化为认知协同者。认知协同者是指与多个思维合作,结合各自的优势和知识,以提高复杂任务问题解决率和整体表现的智能代理。通过根据任务输入动态识别和模拟不同的人格,SPP 释放了 LLM 中认知协同的潜力。我们发现,在 LLM 中分配多个精细的人格可以比使用单个或固定数量的人格更好地引发问题解决能力。\n\n我们评估了 SPP 在三项具有挑战性的任务上:琐事创造性写作、代码名合作和逻辑网格谜题,涵盖了知识密集型和推理密集型类型。与以前的工作,如 Chain-of-Thought,仅增强 LLMs 的推理能力不同,SPP 有效地引发了内部知识获取能力、减少了幻觉,并维持了强大的推理能力。代码、数据和提示可以访问:https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git。

  • LLM2KB: Constructing Knowledge Bases using instruction tuned context aware Large Language Models
    摘要:大规模语言模型(LLM)的出现彻底改变了自然语言处理领域,使各种应用取得了显著进步。一个关键的研究领域是**利用这些强大的模型构建知识库(KB)。知识库作为结构化信息的存储库,有助于信息检索和推理任务。我们的论文提出了 LLM2KB 系统,该系统使用大规模语言模型构建知识库,重点关注 Llama 2 架构和维基百科数据集。**我们使用低秩自适应(LoRA)技术训练小型注入模型,这些模型只使用基模型的 0.05%参数。这些注入模型通过使用旨在利用通过密集段检索(DPR)算法获取的维基百科页面上下文来回答给定主题实体和关系的相关对象实体的提示进行训练。我们在 ISWC 2023 会议上进行的 LM-KBC 挑战中,我们的最佳模型在 21 个关系上平均 F1 得分为 0.6185。

  • When do you need Chain-of-Thought Prompting for ChatGPT?
    摘要:思维链(CoT)提示可以使大型语言模型(LLMs)有效地引出复杂的多步推理。例如,在 MultiArith 数据集中的每个输入查询简单地添加 CoT 指示“让我们一步一步思考”,可以将 GPT-3 的准确性从 17.7% 提高到 78.7%。然而,目前还不清楚 CoT 在更近期指令微调(IFT)的 LLMs(如 ChatGPT)上是否仍然有效。令人惊讶的是,对于某些任务(如算术推理),在 ChatGPT 上,CoT 不再有效,同时仍对其他推理任务保持有效。此外,在前者任务上,ChatGPT 通常表现最佳,并且可以在没有指示的情况下生成 CoT。因此,有理由认为 ChatGPT 已经在这些任务上训练了 CoT,并且已经记住了这个指示,因此在应用相同查询时,即使没有 CoT,它也会隐含地遵循这个指示。我们的分析反映出了在 IFT 中引入的指令过拟合/偏差的一个潜在风险,这种现象在训练 LLMs 中越来越普遍。此外,它还揭示了预训练菜谱的可能的泄漏,例如,可以验证一个数据集和指示是否被用于训练 ChatGPT。我们的实验报告了 ChatGPT 在各种推理任务上的新基线结果,并为大型语言模型的剖析、指令记忆和预训练数据泄漏提供了新的见解。
    很多论文说提示词,思维链等等有利于模型生成,但这篇刚好反着思考,指出提示词可能造成过拟合等
    【指令过拟合的潜在风险】

  • Can Programming Languages Boost Each Other via Instruction Tuning?
    -摘要:当人类程序员掌握了一种编程语言后,他们在学习新的编程语言时会更容易。在这篇报告中,我们重点探讨了在大型语言模型代码微调阶段,编程语言是否可以相互提升。我们在 StarCoder 上对 8 种流行的编程语言(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)进行了广泛的实验。结果表明,编程语言可以显著地提升彼此。例如,在 Python 上训练的 CodeM-Python 15B 能够将 Java 的 pass@1 绝对提高 17.95% on HumanEval-X。更令人惊讶的是,我们发现,在 HTML 语料库上训练的 CodeM-HTML 7B 能够将 Java 的 pass@1 绝对提高 15.24%。我们的训练数据发布在 https://github.com/NL2Code/CodeM 上。

  • Large Language Models Meet NL2Code: A Survey 【代码智能生成】
    摘要:从自然语言描述生成代码,即 NL2Code,被认为是代码智能领域的一个紧迫而重要的挑战。得益于预训练技术的快速发展,涌入了大量用于代码的大型语言模型,推动了 NL2Code 领域的进步。为了进一步促进该领域研究和应用,本文对 27 个现有的大型语言模型进行了全面调查,并审查了基准和指标。我们在 HumanEval 基准上对所有现有模型进行了直观比较。通过深入观察和分析,我们得出一些见解,并得出结论,认为大型语言模型为 NL2Code 取得成功的关键因素是“大规模、优质数据、专家调优”。此外,我们还讨论了模型与人类之间的差距所面临的挑战和机遇。我们还创建了一个网站 https://nl2code.github.io,通过众包跟踪最新的进展。据我们所知,这是第一个关于 NL2Code 的大型语言模型调查,我们相信它将促进该领域的持续发展。

一些Aminer作者收藏(方便后续找相关论文):

  • 文本生成:
    在这里插入图片描述
  • 大模型辅助自动化,代码debug等,(下面这位学者的研究方向都非常有趣和实际应用价值)
    这位学者的研究方向都非常有趣和实际应用价值

AI领域高h-idex学者收集:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1006836.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过小程序实现微信扫码授权登录,网站接入微信扫码登录功能(永久免费)

需求 网站如果想要实现微信扫码登录其实有很多种方案,常见的方案就是微信开放平台和微信公众号服务号。前者是目前大部分网站并且是微信认可的一种方式,后者是开发者发现服务号具备扫码关注后即可获取用户基本信息的能力后而开发的一种方式。 而这两者…

idea创建一个微服务项目

idea创建一个微服务项目 前提:懂得创建基于pom 的 springboot项目 1.像平时创建Maven项目一样创建一个项目 2.删掉src文件,只剩下下面的东西 3.基于这个项目创建model,model也是一个Maven项目,基于springboot mvc 都行&#xff…

openGauss学习笔记-68 openGauss 数据库管理-创建和管理普通表-向表中插入数据

文章目录 openGauss学习笔记-68 openGauss 数据库管理-创建和管理普通表-向表中插入数据68.1 背景信息68.2 操作步骤68.2.1 向表customer_t1中插入一行68.2.2 向表中插入多行68.2.3 从指定表插入数据到当前表68.2.4 删除备份表 openGauss学习笔记-68 openGauss 数据库管理-创建…

Python 图形化界面基础篇:添加复选框( Checkbutton )到 Tkinter 窗口

Python 图形化界面基础篇:添加复选框( Checkbutton )到 Tkinter 窗口 引言什么是 Tkinter 复选框( Checkbutton )?步骤1:导入 Tkinter 模块步骤2:创建 Tkinter 窗口步骤3&#xff1a…

【数据分享】2006-2021年我国城市级别的排水和污水处理相关指标(20多项指标)

《中国城市建设统计年鉴》中细致地统计了我国城市市政公用设施建设与发展情况,在之前的文章中,我们分享过基于2006-2021年《中国城市建设统计年鉴》整理的2006—2021年我国城市级别的市政设施水平相关指标、2006-2021年我国城市级别的各类建设用地面积数…

Vue3表单

文章目录 Vue3表单1. 概念2. 输入框3. 复选框4. 单选按钮5. select下拉列表5.1 下拉列表单选5.1 下拉列表多选时绑定到数组5.3 使用 v-for 循环输出选项 6. 值绑定7. 修饰符7.1 .lazy7.2 .number7.3 .trim Vue3表单 1. 概念 可以用 v-model 指令在表单 、 及 等元素上创建双向…

微信内测新功能:“微信分期”来了!

微信作为一款社交 App,早已成为了现在人们日常生活中不可缺少的一部分。 随着生态不断完善,它所涵盖的功能也是越来越多。 据镭射财经,微信近日正在测试一款名为“微信分期”的全系消费信贷产品。功能入口位于微信钱包中,资金方为…

预约微信小程序源码系统制作搭建 适用于多场景 支持万能DIY功能

分享一个预约微信小程序源码系统,适用于多种预约场景,含完整代码包前端后端详细的搭建教程,支持万能DIY功能,让你轻松开发制作一个属于自己的想要的预约小程序。 一、预约微信小程序源码系统制作搭建的基本步骤和注意事项&#xf…

【Flink实战】Flink 商品销量统计-实战Bahir Connetor实战存储 数据到Redis6.X

🚀 作者 :“大数据小禅” 🚀 文章简介 :Flink 商品销量统计-实战Bahir Connetor实战存储 数据到Redis6.X 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 目录导航 Flink怎么操作RedisFlink 商品销量统…

宿舍考勤安全系数?这个答案全国统一!

在现代教育和住宿管理中,确保学生或员工的宿舍考勤管理变得越来越重要。传统的考勤方法可能受到人为错误和滥用的威胁,同时也可能耗费大量时间和资源。 人脸识别技术已经在各个领域展现了强大的潜力。它不仅提高了安全性,还改善了考勤管理的效…

GP08|财务估值因子过滤实盘小市值

量化策略开发,高质量社群,交易思路分享等相关内容 大家好,今天我们来分享gp08策略。千呼万唤始出来,由于xxx原因(不便说,好奇的可以私聊我),我们从9月份开始,后面分享的策…

深入解析顺序表:揭开数据结构的奥秘,掌握顺序表的精髓

💓 博客主页:江池俊的博客⏩ 收录专栏:数据结构探索👉专栏推荐:✅C语言初阶之路 ✅C语言进阶之路💻代码仓库:江池俊的代码仓库🔥编译环境:Visual Studio 2022&#x1f38…

包装类、多线程的基本使用

包装类 1.基本数据类型对应的引用数据类型(包装类) 1.概述:所谓的包装类就是基本类型对应的类(引用类型),我们需要将基本类型转成包装类,从而让基本类型具有类的特性(说白了,就是将基本类型的数据转成包装类,就可以使用包装类中的方法来操作此数据)2.为啥要学包装类:a.将来有…

springboot上传文件到后台指定文件夹

第一步,在application.yml做一下配置,预设下载目录 files:upload:path: D:/SpringBootItem/springboot/files/ 其中有用到hutool工具依赖,如下在pom.xml中添加依赖,也可以选择不添加,自己修改下Controller中的代码即可…

批量采集头条号文章的工具-让我们更好地辨别信息好坏

大家好,今天我想和大家聊一聊一个在互联网时代备受瞩目的话题,那就是批量采集头条号的文章。作为一个热衷于信息获取和分享的人,我深知这一领域的挑战和机遇。 让我们来谈谈批量采集头条号的文章所面临的挑战。随着互联网的迅猛发展&#xff…

亚马逊API接口解析,实现获得AMAZON商品详情

要解析亚马逊API接口并实现获取亚马逊商品详情,你需要按照以下步骤进行操作: 了解亚马逊开发者中心:访问亚马逊开发者中心,并了解相关的API文档、开发者指南和规定。注册开发者账号:在亚马逊开发者中心上注册一个开发…

Java“牵手”京东商品详情数据,京东商品详情接口,京东API接口申请指南

京东商品详情API是京东平台提供给开发者的应用程序编程接口,通过API可以获取京东平台上商品详情信息。 京东商品详情API可以获取到商品的标题、价格、销量、评价、详情页等信息。开发者在京东开放平台注册开发者账号,并获得访问API接口的密钥后&#xf…

代码随想录算法训练营day46|139.单词拆分|多重背包基础理论| 背包总结

139.单词拆分 力扣题目链接 给定一个非空字符串 s 和一个包含非空单词的列表 wordDict,判定 s 是否可以被空格拆分为一个或多个在字典中出现的单词。 说明: 拆分时可以重复使用字典中的单词。 你可以假设字典中没有重复的单词。 示例 1&#xff1a…

关于批量安装多个apk

for %i in (apks地址/*.apk); do adb install %i https://www.cnblogs.com/lihongtaoya/p/15084378.html adb install -r apks地址/1.apk && adb install -r apks地址/2.apk install-multi-package - 暂时nok https://adbshell.com/commands 最新版本的platform-tool…

Dinky上路之旅

1、部署flink集群 1.1、flink-conf.yaml cat > flink-conf.yaml << EOF jobmanager.rpc.address: boshi-146 jobmanager.rpc.port: 6123 jobmanager.bind-host: 0.0.0.0 jobmanager.memory.process.size: 1600m taskmanager.bind-host: 0.0.0.0 # 修改为本机ip tas…