思路借鉴
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions
关键词: 对象文本对齐
摘要:泛化到未见过的任务是少量样本学习者在不熟悉的任务上实现更好零散视觉表现的重要能力。然而,这种泛化到视觉语言任务(包括接地和生成任务)的探索仍然不足;现有的少量样本 VL 模型难以处理涉及对象接地和多张图片的任务,例如视觉常识推理或 NLVR2。在本文中,我们提出了 GRILL,一个新颖的 VL 模型,可以推广到包括视觉问答、图片描述和无需或很少训练样本的多种任务。具体来说,GRILL 通过利用对象文本对齐来学习对象接地和定位,这使得它可以以零散/少量样本的方式转移到接地任务中。我们在各种零散/少量样本 VL 任务上评估了我们的模型,并表明它始终优于最先进的少量样本方法。
Making Language Models Better Reasoners with Step-Aware Verifier
摘要:少样本学习是一项具有挑战性的任务,需要语言模型从有限的例子中进行泛化。大型语言模型如 GPT-3 和 PaLM 在这方面取得了令人印象深刻的进展,但它们在推理任务(如 GSM8K,一个算术问题基准)上仍然面临困难。为了提高它们的推理能力,以前的工作提出了用提示来引导语言模型,在给出最终答案之前诱发一系列推理步骤,从而在 GSM8K 问题上实现了问题解决率的重大改进,从 17.9% 提高到 58.1%。在本文中,我们提出了 DiVeRSe(Diverse Verifier on Reasoning Step),一种新颖的方法,进一步增强了语言模型的推理能力。DiVeRSe 主要有三个组件:首先,它生成多样化的提示来探索相同问题的不同推理路径;其次,它使用验证器根据加权投票方案过滤不正确的答案;第三,它逐个验证每个推理步骤,而不是整个链。我们在最新的语言模型 code-davinci-002 上评估 DiVeRSe,并显示它在八个推理基准中的六个上实现了新的最先进结果(例如,GSM8K 从 74.4% 提高到 83.2%)。
太有用的东西!!
【自动化调试技术】Explainable Automated Debugging via Large Language Model-driven Scientific Debugging
摘要:自动化调试技术有潜力减少开发者在调试过程中的工作量,并且已经足够成熟,可以被业界采用。然而,现有技术的一个关键问题是,尽管开发者希望得到所提供自动调试结果的合理性,但现有技术不适合提供这些,因为它们的推导过程与人类开发者的过程显著不同。**受到开发者调试代码时与代码互动的方式的启发,我们提出了自动科学调试(AutoSD)技术,该技术给定有错误的代码和一个揭示错误的测试用例,提示大型语言模型自动生成假设,使用调试器积极与错误代码交互,从而在补丁生成之前自动得出结论。通过使自动化调试的推理更紧密地与人类开发者的推理对齐,我们希望产生关于特定补丁生成的可理解解释,希望解释能引导开发人员做出更有效、更准确的决定。**我们对三个程序修复基准的实证分析表明,AutoSD 与其他程序修复基线表现相当,并且可以指示其对结果的信心。此外,我们进行了一个人类研究,包括 20 名参与者,其中 6 名是专业开发者,以评估 AutoSD 解释的有用性。能够访问解释的参与者判断补丁正确性的时间与那些不能访问的参与者大致相同,但他们在研究中的五个实际错误中的准确性有所提高:70% 的参与者回答在使用修复工具时希望得到解释,而 55% 的参与者回答他们对科学调试表示满意。
有趣的论文:
-
Unleashing Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration
摘要:人类智慧借助认知协同概念茁壮成长,在那里,不同认知过程的协作和信息整合比孤立的个体认知过程产生更好的结果。尽管大型语言模型 (LLMs) 作为通用任务解决剂表现出了可喜的性能,但是它们仍然难以处理需要密集领域知识和复杂推理的任务。\n\n在本工作中,我们提出了 Solo Performance Prompting(SPP),它通过多回合的自我协作与多个人格交互,将单个 LLM 转化为认知协同者。认知协同者是指与多个思维合作,结合各自的优势和知识,以提高复杂任务问题解决率和整体表现的智能代理。通过根据任务输入动态识别和模拟不同的人格,SPP 释放了 LLM 中认知协同的潜力。我们发现,在 LLM 中分配多个精细的人格可以比使用单个或固定数量的人格更好地引发问题解决能力。\n\n我们评估了 SPP 在三项具有挑战性的任务上:琐事创造性写作、代码名合作和逻辑网格谜题,涵盖了知识密集型和推理密集型类型。与以前的工作,如 Chain-of-Thought,仅增强 LLMs 的推理能力不同,SPP 有效地引发了内部知识获取能力、减少了幻觉,并维持了强大的推理能力。代码、数据和提示可以访问:https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git。 -
LLM2KB: Constructing Knowledge Bases using instruction tuned context aware Large Language Models
摘要:大规模语言模型(LLM)的出现彻底改变了自然语言处理领域,使各种应用取得了显著进步。一个关键的研究领域是**利用这些强大的模型构建知识库(KB)。知识库作为结构化信息的存储库,有助于信息检索和推理任务。我们的论文提出了 LLM2KB 系统,该系统使用大规模语言模型构建知识库,重点关注 Llama 2 架构和维基百科数据集。**我们使用低秩自适应(LoRA)技术训练小型注入模型,这些模型只使用基模型的 0.05%参数。这些注入模型通过使用旨在利用通过密集段检索(DPR)算法获取的维基百科页面上下文来回答给定主题实体和关系的相关对象实体的提示进行训练。我们在 ISWC 2023 会议上进行的 LM-KBC 挑战中,我们的最佳模型在 21 个关系上平均 F1 得分为 0.6185。 -
When do you need Chain-of-Thought Prompting for ChatGPT?
摘要:思维链(CoT)提示可以使大型语言模型(LLMs)有效地引出复杂的多步推理。例如,在 MultiArith 数据集中的每个输入查询简单地添加 CoT 指示“让我们一步一步思考”,可以将 GPT-3 的准确性从 17.7% 提高到 78.7%。然而,目前还不清楚 CoT 在更近期指令微调(IFT)的 LLMs(如 ChatGPT)上是否仍然有效。令人惊讶的是,对于某些任务(如算术推理),在 ChatGPT 上,CoT 不再有效,同时仍对其他推理任务保持有效。此外,在前者任务上,ChatGPT 通常表现最佳,并且可以在没有指示的情况下生成 CoT。因此,有理由认为 ChatGPT 已经在这些任务上训练了 CoT,并且已经记住了这个指示,因此在应用相同查询时,即使没有 CoT,它也会隐含地遵循这个指示。我们的分析反映出了在 IFT 中引入的指令过拟合/偏差的一个潜在风险,这种现象在训练 LLMs 中越来越普遍。此外,它还揭示了预训练菜谱的可能的泄漏,例如,可以验证一个数据集和指示是否被用于训练 ChatGPT。我们的实验报告了 ChatGPT 在各种推理任务上的新基线结果,并为大型语言模型的剖析、指令记忆和预训练数据泄漏提供了新的见解。
很多论文说提示词,思维链等等有利于模型生成,但这篇刚好反着思考,指出提示词可能造成过拟合等
【指令过拟合的潜在风险】 -
Can Programming Languages Boost Each Other via Instruction Tuning?
-摘要:当人类程序员掌握了一种编程语言后,他们在学习新的编程语言时会更容易。在这篇报告中,我们重点探讨了在大型语言模型代码微调阶段,编程语言是否可以相互提升。我们在 StarCoder 上对 8 种流行的编程语言(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)进行了广泛的实验。结果表明,编程语言可以显著地提升彼此。例如,在 Python 上训练的 CodeM-Python 15B 能够将 Java 的 pass@1 绝对提高 17.95% on HumanEval-X。更令人惊讶的是,我们发现,在 HTML 语料库上训练的 CodeM-HTML 7B 能够将 Java 的 pass@1 绝对提高 15.24%。我们的训练数据发布在 https://github.com/NL2Code/CodeM 上。 -
Large Language Models Meet NL2Code: A Survey 【代码智能生成】
摘要:从自然语言描述生成代码,即 NL2Code,被认为是代码智能领域的一个紧迫而重要的挑战。得益于预训练技术的快速发展,涌入了大量用于代码的大型语言模型,推动了 NL2Code 领域的进步。为了进一步促进该领域研究和应用,本文对 27 个现有的大型语言模型进行了全面调查,并审查了基准和指标。我们在 HumanEval 基准上对所有现有模型进行了直观比较。通过深入观察和分析,我们得出一些见解,并得出结论,认为大型语言模型为 NL2Code 取得成功的关键因素是“大规模、优质数据、专家调优”。此外,我们还讨论了模型与人类之间的差距所面临的挑战和机遇。我们还创建了一个网站 https://nl2code.github.io,通过众包跟踪最新的进展。据我们所知,这是第一个关于 NL2Code 的大型语言模型调查,我们相信它将促进该领域的持续发展。
一些Aminer作者收藏(方便后续找相关论文):
- 文本生成:
- 大模型辅助自动化,代码debug等,(下面这位学者的研究方向都非常有趣和实际应用价值)
AI领域高h-idex学者收集: