【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 17 Jan 2024 (showing first 100 of 163 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability
Authors Afra Feyza Aky rek, Ekin Aky rek, Leshem Choshen, Derry Wijaya, Jacob Andreas
虽然语言模型 LM 有时可以生成事实上正确的文本并估计单个主张的真值，但这些通常不能反映全球一致的、可操纵的世界模型。因此，当前的 LM 也会生成不正确或无意义的内容，并且难以编辑和更新。我们提出了一种称为演绎闭包训练 DCT 的方法，该方法使用 LM 本身来识别它们生成的文本中的含义和矛盾，从而产生一种有效的自我监督程序来提高 LM 的真实性。给定一组种子文档，DCT 会提示 LM 生成这些文档隐含的附加文本，对生成的文本的正确性进行全局推理，最后对推断为正确的文本进行微调。给定来自可信来源的种子文档，DCT 提供了一种用于监督模型更新的工具，如果种子文档是从 LM 本身采样的，DCT 可以实现完全无监督的微调，以提高一致性和准确性。在 CREAK、MQUaKE 和 Reversal Curse 数据集中，有监督的 DCT 将 LM 事实验证和文本生成的准确性提高了 3 26，而完全无监督的 DCT 将 CREAK 的验证准确性提高了 12 。

Tuning Language Models by Proxy
Authors Alisa Liu, Xiaochuang Han, Yizhong Wang, Yulia Tsvetkov, Yejin Choi, Noah A. Smith
尽管大型预训练语言模型具有一般功能，但它们始终受益于进一步的适应，以更好地实现所需的行为。然而，调整这些模型已经变得越来越资源密集，或者当模型权重是私有的时候是不可能的。我们引入了代理调优，这是一种轻量级解码时间算法，它在黑盒 LM 之上运行，以实现直接调优模型的结果，但仅访问其对输出词汇表的预测。相反，我们的方法调整较小的 LM，然后应用小调整和未调整 LM 的预测之间的差异，将基础模型的原始预测向调整方向移动，同时保留更大规模预训练的优势。在实验中，当我们使用仅 7B 大小的代理对 Llama2 70B 进行代理调整时，在跨知识、推理和安全基准进行评估时，我们可以缩小 Llama2 70B 与其真正调整的聊天版本之间的 88 差距。有趣的是，当在 TruthfulQA 上进行测试时，代理调整模型实际上比直接调整模型更真实，可能是因为解码时间指导更好地保留了模型的事实知识。然后，我们通过将代理调优应用于代码的域适应以及问答和数学问题的任务特定微调来展示代理调优的通用性。

Spatial Entity Resolution between Restaurant Locations and Transportation Destinations in Southeast Asia
Authors Emily Gao, Dominic Widdows
作为一家科技公司，Grab 已从交通扩展到食品配送，旨在通过超本地化的应用程序为东南亚提供服务。只要能够解决这些数据集之间的空间实体解析问题，有关作为交通目的地的地点的信息就可以帮助提高我们对作为餐馆的地点的认识。

The Gaps between Pre-train and Downstream Settings in Bias Evaluation and Debiasing
Authors Masahiro Kaneko, Danushka Bollegala, Timothy Baldwin
由于模型参数的更新，预训练语言模型 PLM 在 Fine Tuning FT 前后的输出趋势存在明显变化。这些产出倾向的差异导致 PLM 的社会偏见存在差距。例如，在基于 FT 的去偏差方法下，PLM 的内在偏差分数与其外在偏差分数之间存在较低的相关性。此外，将基于 FT 的去偏方法应用于 PLM 会导致下游任务的性能下降。另一方面，在大型数据集上训练的 PLM 可以通过使用提示的上下文学习 ICL 进行学习，而无需进行参数更新。与基于 FT 的去偏方法相比，ICL 对 PLM 造成的变化更小。因此，我们假设在预训练模型和 FT 模型中观察到的差距对于使用 ICL 的去偏方法并不成立。在这项研究中，我们证明，与基于 FT 的方法相比，基于 ICL 的去偏方法显示出内在和外在偏差分数之间更高的相关性。

EmoLLMs: A Series of Emotional Large Language Models and Annotation Tools for Comprehensive Affective Analysis
Authors Zhiwei Liu, Kailai Yang, Tianlin Zhang, Qianqian Xie, Zeping Yu, Sophia Ananiadou
情感分析和情感检测是自然语言处理 NLP 中的重要研究课题，并使许多下游任务受益。随着LLM的广泛应用，研究人员开始探索基于指令调优的LLM在情感分析领域的应用。然而，这些模型仅关注情感分类任务的单个方面，例如情感极性或分类情感，并忽略回归任务，例如情绪强度或情绪强度，导致下游任务表现不佳。主要原因是缺乏全面的情感指令调优数据集和评估基准，涵盖各种情感分类和回归任务。此外，尽管情感信息对于下游任务有用，但现有的下游数据集缺乏高质量和全面的情感注释。在本文中，我们提出了EmoLLM，这是继LLM之后的第一个开源指令系列，用于基于指令数据微调各种LLM的全面情感分析，第一个基于各种分类和回归的具有234K数据样本的多任务情感分析指令数据集AAID支持LLM指令调优的任务，以及综合情感评估基准AEB，其中包含来自不同来源和领域的14个任务，以测试LLM的泛化能力。我们通过使用AAID微调LLM来提出一系列EmoLLM来解决各种情感指导任务。我们将我们的模型与 AEB 上的各种 LLM 进行比较，我们的模型优于所有其他开源 LLM，并且在大多数任务中超过 ChatGPT 和 GPT 4，这表明该系列 EmoLLM 在 AEB 上达到了 ChatGPT 级别和 GPT 4 级别的泛化能力

The Effect of Group Status on the Variability of Group Representations in LLM-generated Text
Authors Messi H.J. Lee, Jacob M. Montgomery, Calvin K. Lai
大型语言模型法学硕士已经在日常生活中变得普遍，但其内部运作仍然不透明。虽然学术努力已经证明法学硕士倾向于在其培训数据中重现偏见，但他们主要关注社会群体与刻板属性的关联。在本文中，我们扩展了这一调查路线，以调查类似于社会心理现象的偏见，即社会主导群体被认为不如社会从属群体同质，因为它是由法学硕士重现的。我们拥有 ChatGPT，一种最先进的法学硕士，生成有关交叉群体身份的多样性文本并比较文本同质性。我们一致发现，法学硕士将非洲裔、亚洲裔和西班牙裔美国人描绘得比美国白人更加同质。他们还认为女性比男性更加同质，但这些差异很小。最后，我们发现性别的影响因种族群体而异，因此性别的影响在非洲裔和西班牙裔美国人中是一致的，但在亚裔和白人美国人中却不一致。

Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models
Authors Tassilo Klein, Moin Nabi
大型语言模型生成不良且事实上不正确的内容构成了重大挑战，并且在很大程度上仍然是一个未解决的问题。本文研究了对比学习目标的集成，用于微调法学硕士，以实现隐式知识编辑和受控文本生成。优化训练目标需要以对比方式调整文本困惑。为了促进以自我监督的方式训练模型，我们利用现成的法学硕士来生成训练数据。我们展示了在排毒领域的适用性。在此，所提出的方法可显着减少有毒内容的产生，同时保留常识推理和阅读理解等下游任务的一般实用性。

CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models
Authors Yaojia Lv, Haojie Pan, Ruiji Fu, Ming Liu, Zhongyuan Wang, Bing Qin
认知动力学对于促进人类对世界的理解至关重要。大型语言模型法学硕士的最新进展揭示了它们在认知模拟方面的潜力。然而，这些基于法学硕士的认知研究主要关注静态建模，忽视了认知的动态本质。为了弥合这一差距，我们提出了法学硕士认知动态的概念，并在纵向研究的启发下提出了相应的任务。为了完成这项任务，我们开发了 CogBench，这是一种新颖的基准，用于评估法学硕士的认知动态并通过参与者调查对其进行验证。我们还为CogBench设计了两个评估指标，包括真实性和合理性。认识到法学硕士固有的静态性质，我们为该任务引入了 CogGPT，其特点是创新的迭代认知机制，旨在增强终身认知动态。

Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions
Authors Nooshin Pourkamali, Shler Ebrahim Sharifi

Ask the experts: sourcing high-quality datasets for nutritional counselling through Human-AI collaboration
Authors Simone Balloccu, Ehud Reiter, Vivek Kumar, Diego Reforgiato Recupero, Daniele Riboni
大型语言模型法学硕士凭借其灵活的生成能力，可以成为可用语料库很少或没有的领域中强大的数据源。然而，幻觉和偏见等问题限制了此类应用。在本案例研究中，我们选择了营养咨询这一缺乏公共资源的领域，并表明可以通过法学硕士、众包工作者和营养专家的结合来收集高质量的数据集。我们首先众包并聚类饮食相关问题的新颖数据集，然后与专家合作促使 ChatGPT 生成相关的支持文本。最后，我们让专家评估生成文本的安全性。我们发布了 HAI coaching，这是第一个专家注释的营养咨询数据集，其中包含来自人群工作者的 2.4K 饮食挣扎，以及 ChatGPT 生成的 97K 相关支持文本。

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation
Authors Haoran Xu, Amr Sharaf, Yunmo Chen, Weiting Tan, Lingfeng Shen, Benjamin Van Durme, Kenton Murray, Young Jin Kim
具有 7B 或 13B 参数的中等规模大型语言模型 LLM 表现出有前途的机器翻译 MT 性能。然而，即使是性能最佳的基于 13B LLM 的翻译模型（如 ALMA），也无法与最先进的传统编码器解码器翻译模型或更大规模的 LLM（如 GPT 4）的性能相匹配。在本研究中，我们弥补了这一性能差距。我们首先评估了 MT 任务中法学硕士的监督微调的缺点，强调参考数据中存在的质量问题，尽管是人类生成的。然后，与模仿参考翻译的 SFT 相比，我们引入了对比偏好优化 CPO，这是一种训练模型以避免生成足够但不完美翻译的新颖方法。将 CPO 应用于仅具有 22K 并行句子和 12M 参数的 ALMA 模型会产生显着的改进。

RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture
Authors Aman Gupta, Anup Shirgaonkar, Angels de Luis Balaguer, Bruno Silva, Daniel Holstein, Dawei Li, Jennifer Marsman, Leonardo O. Nunes, Mahsa Rouzbahman, Morris Sharp, Nick Mecklenburg, Rafael Padilha, Ranveer Chandra, Renato Luiz de Freitas Cunha, Roberto de M. Estev o Filho, Ryan Tsang, Sara Malvar, Swati Sharma, Todd Hendry, Vijay Aski, Vijetha Vijayendran, Vinamra Benara
在构建大型语言模型 LLM 检索增强生成 RAG 和微调应用程序时，开发人员可以通过两种常见方式合并专有数据和特定领域数据。 RAG 使用外部数据增强提示，而微调则将额外的知识合并到模型本身中。然而，这两种方法的优缺点尚不清楚。在本文中，我们提出了一个用于微调和 RAG 的管道，并针对多种流行的 LLM 提出了两者的权衡，包括 Llama2 13B、GPT 3.5 和 GPT 4。我们的管道由多个阶段组成，包括从 PDF 中提取信息、生成问题和答案，使用它们进行微调，并利用 GPT 4 评估结果。我们提出了评估 RAG 和微调管道不同阶段性能的指标。我们对农业数据集进行了深入研究。农业作为一个行业，人工智能的渗透率还没有太大，我们研究了一个潜在的颠覆性应用，如果我们能够为农民提供特定位置的见解，我们的结果表明，我们的数据集生成管道在捕获地理特定知识以及定量和分析方面的有效性。 RAG 和微调的质量优势。我们发现准确率提高了 6 个百分点以上。当微调模型时，这是通过 RAG 累积的，这将精度提高了 5 个百分点。更远。在一项特定实验中，我们还证明了微调模型利用来自不同地理位置的信息来回答特定问题，将答案相似度从 47 增加到 72 。

Cross-lingual neural fuzzy matching for exploiting target-language monolingual corpora in computer-aided translation
Authors Miquel Espl Gomis, V ctor M. S nchez Cartagena, Juan Antonio P rez Ortiz, Felipe S nchez Mart nez
基于翻译记忆库MT的计算机辅助翻译CAT工具在专业翻译人员的翻译工作流程中发挥着重要作用。然而，与领域内单语语料库相比，领域内翻译记忆库的可用性较低，限制了其在许多翻译任务中的采用。在本文中，我们介绍了一种新颖的神经方法，旨在克服这一限制，不仅利用 TM，而且利用领域目标语言 TL 单语语料库，并且仍然实现与传统基于 TM 的 CAT 工具提供的功能类似的功能。我们的方法依靠跨语言句子嵌入从 TL 单语语料库中检索翻译建议，并依靠神经模型来估计他们的后期编辑工作。本文对四种语言对上的这些技术进行了自动评估，表明我们的方法可以在基于 TM 的 CAT 环境中成功地利用单语文本，增加有用的翻译建议的数量，并且我们用于估计后期编辑工作的神经模型使得以通常方式从单语语料库和 TM 获得的翻译建议的组合。

Morphology and Syntax of the Tamil Language
Authors Kengatharaiyer Sarveswaran
本文概述了泰米尔语的形态和句法，重点关注其当代用法。本文还强调了泰米尔语在形态和句法特征方面的复杂性和丰富性，这将有助于语言学家分析语言和进行比较研究。此外，本文对于那些开发泰米尔语计算资源的人也很有用。它被证明是一个基于规则的形态分析器和生成器，并且已经基于本文开发了泰米尔语计算语法。

Hallucination Detection and Hallucination Mitigation: An Investigation
Authors Junliang Luo, Tianyu Li, Di Wu, Michael Jenkin, Steve Liu, Gregory Dudek
大型语言模型 LLM，包括 ChatGPT、Bard 和 Llama，在过去两年中在一系列不同的应用中取得了显着的成功。尽管取得了这些成功，但仍存在限制法学硕士广泛应用的问题。一个关键问题是幻觉问题。幻觉是指除了正确的反应之外，法学硕士还可以产生看似正确但实际上不正确的反应。本报告旨在对当前有关幻觉检测和幻觉缓解的文献进行全面回顾。

Salute the Classic: Revisiting Challenges of Machine Translation in the Age of Large Language Models
Authors Jianhui Pang, Fanghua Ye, Longyue Wang, Dian Yu, Derek F. Wong, Shuming Shi, Zhaopeng Tu
神经机器翻译 NMT 的发展受到 Koehn 和 Knowles 2017 年提出的六大核心挑战的显着影响，这些挑战已成为该领域进展的基准。这项研究重新审视了这些挑战，深入探讨了它们在高级大语言模型法学硕士领域不匹配、并行数据量、稀有词预测、长句子翻译、注意力模型作为单词对齐和次优波束搜索的背景下的持续相关性。我们的实证研究结果表明，法学硕士有效地减少了预训练阶段对主要语言并行数据的依赖。此外，基于法学硕士的翻译系统显着增强了包含约 80 个单词的长句子的翻译，并显示出翻译最多 512 个单词的文档的能力。然而，尽管有这些重大改进，域不匹配和稀有词预测的挑战仍然存在。虽然与 NMT 相关的词对齐和束搜索的挑战可能不适用于法学硕士，但我们确定了法学硕士在翻译任务推理效率、预训练阶段低资源语言的翻译以及人工对齐评估方面面临的三个新挑战。

RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning
Authors Junjie Ye, Yilong Wu, Songyang Gao, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang
工具学习作为大型语言模型法学硕士与物理世界之间互动的重要手段，引起了广泛的兴趣。目前的研究主要强调法学硕士在结构良好的环境中使用工具的能力，而忽视了它们在面对现实世界不可避免的噪音时的稳定性。为了弥补这一差距，我们引入了 RoTBench，这是一个用于评估法学硕士在工具学习中稳健性的多级基准。具体来说，我们建立了五个外部环境，每个环境都具有不同的噪声级别，即 Clean、Slight、Medium、Heavy 和 Union，从而对模型在工具选择、参数识别和内容填充三个关键阶段的弹性进行深入分析。涉及六个广泛使用的模型的实验强调了增强法学硕士在工具学习方面的稳健性的迫切必要性。例如，在手动精度没有实质性变化的情况下，GPT 4 的性能甚至从 80.00 大幅下降到 58.10。更令人惊讶的是，GPT 系列固有的噪声校正能力反而阻碍了其面对轻微噪声的适应性。根据这些发现，我们提出了 RoTTuning，这是一种丰富培训环境多样性的策略，以增强法学硕士在工具学习方面的稳健性。

Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening
Authors Chengguang Gan, Qinghao Zhang, Tatsunori Mori
简历筛选的自动化是组织招聘流程的一个重要方面。自动简历筛选系统通常包含一系列自然语言处理 NLP 任务。大型语言模型法学硕士的出现显着增强了这些系统的效率，展示了它们在不同语言相关任务中强大的泛化能力。伴随这些发展的是基于法学硕士的各种代理，这有助于它们在实际场景中的应用。本文介绍了一种基于法学硕士的新型简历筛选代理框架，旨在提高招聘过程中的效率和时间管理。我们的框架的独特之处在于它能够从大型数据集中有效地总结和评分每份简历。此外，它还利用法学硕士代理人进行决策，确定哪些候选人获得工作机会，或者邀请哪些候选人参加面试。为了评估我们的框架，我们根据实际简历构建了一个数据集，并进行了模拟简历筛选过程。随后，对模拟实验的结果进行了比较和详细分析。结果表明，我们的自动化简历筛选框架比传统手动方法快 11 倍。此外，通过微调 LLM，我们观察到在简历句子分类阶段 F1 分数显着提高，达到 87.73。在简历总结和评分阶段，我们的微调模型超越了 GPT 3.5 模型的基线性能。

Anchor function: a type of benchmark functions for studying language models
Authors Zhongwang Zhang, Zhiwei Wang, Junjie Yao, Zhangchen Zhou, Xiaolong Li, Weinan E, Zhi Qin John Xu
理解基于 Transformer 的语言模型变得越来越重要，特别是因为它们在推进通用人工智能方面发挥着关键作用。然而，语言模型研究面临着巨大的挑战，特别是对于资源有限的学术研究团体而言。这些挑战包括复杂的数据结构、未知的目标函数、高计算成本和内存需求以及推理过程中缺乏可解释性等。与科学研究中简单模型的使用相似，我们提出了锚点的概念功能。这是一种基准函数，旨在研究遵循锚定键模式的学习任务中的语言模型。利用锚函数的概念，我们可以构造一系列函数来模拟各种语言任务。锚定功能在糖尿病研究中起到类似于小鼠的作用，特别适合学术研究。我们通过一个例子展示了锚函数的实用性，揭示了语言模型中注意力结构的两种基本操作：转移标记以及将一个标记从一个位置广播到多个位置。这些操作在大型语言模型中也很常见。

DAPT: A Dual Attention Framework for Parameter-Efficient Continual Learning of Large Language Models
Authors Weixiang Zhao, Shilong Wang, Yulin Hu, Yanyan Zhao, Bing Qin, Xuanyu Zhang, Qing Yang, Dongliang Xu, Wanxiang Che
持续学习 CL 能力对于在动态世界中部署大型语言模型法学硕士至关重要。基于参数有效调整 PET ，现有方法设计了学习模块和选择模块来应对 CL 中灾难性遗忘 CF 和知识转移 KT 的挑战。学习模块为每个不断出现的任务分配单独的 PET 块，选择模块的功能是在测试时为输入选择正确的块。然而，他们的两个模块的设计都存在局限性，并且他们忽略了对齐两个模块以同时寻址 CF 和 KT 的潜力。为此，我们提出了一种新颖的双重注意框架，通过双重注意学习选择模块来协调 PET 学习和选择。在两个 CL 基准上的大量实验证明了 DAPT 在抵抗 CF 和同时促进 KT 方面的优越性。

Inferflow: an Efficient and Highly Configurable Inference Engine for Large Language Models
Authors Shuming Shi, Enbo Zhao, Deng Cai, Leyang Cui, Xinting Huang, Huayang Li
我们推出了 Inferflow，这是一种适用于大型语言模型法学硕士的高效且高度可配置的推理引擎。使用Inferflow，用户只需修改相应配置文件中的一些行即可服务于大多数常见的Transformer模型，而无需编写一行源代码。与大多数现有推理引擎相比，Inferflow 有一些关键特性。首先，通过实现原子构建块和技术的模块化框架，Inferflow 在组合上可推广到新模型。其次，Inferflow 中引入了 3.5 位量化，作为 3 位和 4 位量化之间的折衷。

Large Language Models are Null-Shot Learners
Authors Pittawat Taveekitworachai, Febri Abdullah, Ruck Thawonmas
本文提出了空射击提示。空镜头提示通过指导法学硕士利用示例部分中从未存在于所提供上下文中的信息来执行任务，从而利用大型语言模型法学硕士中的幻觉。虽然减少幻觉对于法学硕士的日常和关键用途至关重要且不可忽视，但我们建议，在目前这些法学硕士仍然产生幻觉的情况下，事实上，与标准零相比，利用幻觉来提高执行任务的表现是可能的射击提示。六个法学硕士的实验表明，八个数据集的大部分性能都有所提高，包括阅读理解、算术推理和闭卷问答。观察到的法学硕士相对表现提高的不一致也可能表明每个模型中存在不同程度的固有幻觉。这些差异表明，可以利用空射击提示作为使用现有基准数据集检测法学硕士幻觉程度的方法。

A Generative Adversarial Attack for Multilingual Text Classifiers
Authors Tom Roth, Inigo Jauregi Unanue, Alsharif Abuadbba, Massimo Piccardi
当前的对抗性攻击算法（即对手更改文本来欺骗受害者模型）已被反复证明可以有效对抗文本分类器。然而，这些攻击通常假设受害者模型是单语言的，并且不能用于针对多语言受害者模型，考虑到这些模型的使用增加，这是一个重大限制。因此，在这项工作中，我们提出了一种方法来微调具有对抗性目标的多语言释义模型，以便它能够针对多语言分类器生成有效的对抗性示例。训练目标包含一组预先训练的模型，以确保生成文本的文本质量和语言一致性。此外，所有模型都通过词汇映射矩阵适当地连接到生成器，从而允许整个训练管道的完全端到端可区分性。对两个多语言数据集和五种语言的实验验证表明，与现有基线相比，所提出的方法是有效的，特别是在查询效率方面。

MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline
Authors Minpeng Liao, Wei Luo, Chengxi Li, Jing Wu, Kai Fan
大型语言模型法学硕士在自然语言理解任务方面取得了相当大的进步，但在实现真正的通用人工智能之前仍然存在差距，特别是在数学推理能力方面的缺陷。我们假设 LLM 训练的本质是预测下一个代币的概率，这在有效建模数学推理方面提出了挑战，无论是从数据驱动的角度还是从理论的角度来看，都需要精确的计算。在本文中，我们通过丰富数据景观并引入新颖的数学数据集来应对这一挑战，并通过利用 Python 代码解释器的功能进行增强。该数据集源自 GSM8K 和 MATH，并通过 GPT 4 注释、人工审查和自我训练过程的结合进一步完善，其中原始 GSM8K 训练集中的错误已得到修复。此外，我们提出了一种试验性的、易于复制的协议，用于微调数学特定的 LLM，这使得 7B 参数 LLM 在 GSM8K 和 MATH 数据集上的性能得到显着提高。我们致力于推进法学硕士数学推理领域的发展，为此，我们制定了模型检查点并将公开数据集。

A Study on Training and Developing Large Language Models for Behavior Tree Generation
Authors Fu Li, Xueying Wang, Bin Li, Yunlong Wu, Yanzhen Wang, Xiaodong Yi
本文对大型语言模型 LLM 的应用潜力进行了创新探索，以解决为复杂任务自动生成行为树 BT 的挑战性任务。传统的手动 BT 生成方法效率低下，并且严重依赖领域专业知识。另一方面，现有的BT自动生成技术遇到了任务复杂性、模型适应性和可靠性等瓶颈。为了克服这些挑战，我们提出了一种利用法学硕士强大的表征和推理能力的新颖方法。本文的核心贡献在于设计了一个基于LLM的BT生成框架，涵盖了从数据合成、模型训练到应用开发和数据验证的整个过程。引入合成数据来训练BT生成模型BTGen模型，增强其对各种复杂任务的理解和适应能力，从而显着提高其整体性能。为了保证生成的BT的有效性和可执行性，我们强调数据验证的重要性，并引入多级验证策略。此外，我们还探索了一系列以法学硕士为核心要素的代理设计和开发方案。

Enhancing Document-level Translation of Large Language Model via Translation Mixed-instructions
Authors Yachao Li, Junhui Li, Jing Jiang, Min Zhang
现有的用于机器翻译的大型语言模型法学硕士通常在句子级翻译指令上进行微调，并在句子级获得令人满意的性能。然而，当应用于文档级翻译时，这些模型面临着重大挑战，特别是在处理包含超过 512 个标记的文档时。这一挑战源于句子级别覆盖的问题，其中文档中的后续句子仍未翻译。因此，法学硕士在句子级翻译指令上进行微调的文档级翻译能力受到极大限制。我们推测法学硕士文档级翻译性能较差的主要原因是缺乏文档到文档的映射能力。为了解决这个问题，我们提出了一种方法，结合不同长度的句子级和文档级翻译指令来微调法学硕士。我们提出的翻译混合指令使 Llama 2 7B 和 13B 能够保持从句子级别到包含多达 2048 个标记的文档的一致翻译性能。大量实验结果表明，该方法显着增强了法学硕士在10个语言对上的文档级翻译能力，有效缓解了文档级翻译中的句子级覆盖问题。

Incremental Extractive Opinion Summarization Using Cover Trees
Authors Somnath Basu Roy Chowdhury, Nicholas Monath, Avinava Dubey, Manzil Zaheer, Andrew McCallum, Amr Ahmed, Snigdha Chaturvedi
提取意见摘要涉及通过提取捕获评论集中普遍意见的代表性句子来自动生成有关实体（例如产品评论）的文本摘要。通常，在在线市场中，用户评论会随着时间的推移而累积，并且意见摘要需要定期更新，以便为客户提供最新信息。在这项工作中，我们研究了在增量环境中提取意见总结的任务，其中基础评论集随着时间的推移而演变。许多最先进的提取意见摘要方法都是基于中心性的，例如 CentroidRank。 CentroidRank 通过选择表示空间中最接近质心的评论句子子集作为摘要来执行提取摘要。然而，这些方法无法在增量设置中有效运行，在增量设置中，评论一次到达一个。在本文中，我们提出了一种有效的算法，用于在增量设置中准确计算 CentroidRank 摘要。我们的方法 CoverSumm 依赖于在封面树中索引评论表示并维护候选摘要评论句子的库。 CoverSumm 的功效得到了运行时间的理论和实证分析的支持。根据经验，通过真实和综合创建的各种数据集合来说明扩展考虑因素，我们证明了 CoverSumm 比基线方法快 25 倍，并且能够适应数据分布的细微变化。

Calpric: Inclusive and Fine-grain Labeling of Privacy Policies with Crowdsourcing and Active Learning
Authors Wenjun Qiu, David Lie, Lisa Austin
在隐私政策上训练准确的深度学习模型的一个重大挑战是获取大量且全面的训练数据集的成本和难度。为了应对这些挑战，我们提出了 Calpric，它结合了自动文本选择和分割、主动学习以及众包注释器的使用，以低成本生成大型、平衡的隐私政策训练集。自动文本选择和分割简化了标记任务，使来自亚马逊 Mechanical Turk 等众包平台的未经训练的注释者能够与经过培训的注释者（例如法律学生）竞争，并且还减少了注释者之间的协议，从而降低了标记成本。拥有可靠的训练标签可以使用主动学习，它使用更少的训练样本来有效覆盖输入空间，进一步降低成本并改善数据集中的类和数据类别平衡。这些技术的结合使 Calpric 能够生成在更广泛的数据类别上准确的模型，并提供比以前的工作更详细、更细粒度的标签。我们的众包流程使 Calpric 能够以每个标记文本段大约 0.92 1.71 的成本获得可靠的标记数据。

JustiLM: Few-shot Justification Generation for Explainable Fact-Checking of Real-world Claims
Authors Fengzhu Zeng, Wei Gao
理由是在事实核查中支持分配给主张的准确性的解释。然而，理由生成的任务以前被过度简化为事实检查者撰写的事实检查文章的摘要。因此，我们提出了一种现实的方法来根据检索到的证据生成理由。我们提出了一个名为 ExClaim 的新基准数据集，用于对现实世界中的下划线声明进行可解释的事实检查，并介绍了 JustiLM，一种新颖的少数镜头下划线正义生成，基于检索增强的下划线语言下划线模型，使用事实检查文章作为辅助仅在培训期间提供资源。

Leveraging External Knowledge Resources to Enable Domain-Specific Comprehension
Authors Saptarshi Sengupta, Connor Heaton, Prasenjit Mitra, Soumalya Sarkar
机器阅读理解 MRC 一直是 NLP 中长期存在的问题，随着最近推出的基于 Transformer 的 BERT 系列语言模型，该问题的解决已经取得了长足的进步。然而不幸的是，当在一般文本语料库上训练的 BERT 变体应用于特定领域文本时，由于领域转移，即训练和下游应用数据之间的流派主题差异，它们的性能不可避免地会下降。知识图充当开放或封闭域信息的存储库，先前的研究表明它们可用于提高特定领域应用中通用变压器的性能。在现有工作的基础上，我们引入了一种使用多层感知器 MLP 的方法，将从知识图谱中提取的嵌入与预先训练的语言模型 LM 的嵌入空间进行对齐和集成。我们将对齐的嵌入与开放域 LM BERT 和 RoBERTa 融合，并针对两个 MRC 任务（即跨度检测 COVID QA 和多项选择问题 PubMedQA）对其进行微调。在 COVID QA 数据集上，我们看到我们的方法使这些模型的表现与其特定领域的对应模型 Bio Sci BERT 类似，正如精确匹配 EM 指标所证明的那样。

A Study on Large Language Models' Limitations in Multiple-Choice Question Answering
Authors Aisha Khatun, Daniel G. Brown
大型语言模型法学硕士的广泛采用已经变得司空见惯，特别是随着开源模型的出现。更重要的是，较小的模型非常适合集成到消费设备中，并且经常用作独立解决方案或各种人工智能任务中的子例程。尽管它们的使用无处不在，但还没有对其具体功能和局限性进行系统分析。在这项研究中，我们解决了回答多项选择题 MCQ 的最广泛使用的任务之一。我们分析了 26 个小型开源模型，发现其中 65 个模型不理解任务，只有 4 个模型从给定的选项中正确选择了答案，并且其中只有 5 个模型与选择顺序无关。鉴于这些模型广泛使用 MCQ 测试，这些结果相当令人震惊。

SciGLM: Training Scientific Language Models with Self-Reflective Instruction Annotation and Tuning
Authors Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang
label sec 摘要大语言模型法学硕士在协助科学发现方面表现出了希望。然而，此类应用目前因法学硕士在理解复杂的科学概念、推导符号方程和解决高级数值计算方面的缺陷而受到限制。为了弥补这些差距，我们引入了 SciGLM，这是一套能够进行大学水平科学推理的科学语言模型。我们方法的核心是一种新颖的自我反思指令注释框架，以解决科学领域的数据稀缺挑战。该框架利用现有的法学硕士对未标记的科学问题进行逐步推理，然后是自我反思批评和修改的过程。应用这个框架，我们策划了 SciInstruct，这是一个涵盖数学、物理、化学和形式证明的多样化且高质量的数据集。我们使用 SciInstruct 对 ChatGLM 系列语言模型进行了微调，增强了它们的科学和数学推理能力。值得注意的是，SciGLM 持续改进了基础模型 ChatGLM3 6B Base 以及更大规模的模型 12B 和 32B ，而不牺牲基础模型的语言理解能力。这使得 SciGLM 成为促进各种科学发现任务的合适基础模型。

SemEval-2017 Task 4: Sentiment Analysis in Twitter using BERT
Authors Rupak Kumar Das, Dr. Ted Pedersen
本文使用 BERT 模型（一种基于 Transformer 的架构）来解决 SemEval2017 的 Twitter 任务 4A、英语语言、情感分析。 BERT 是一种非常强大的大型语言模型，用于训练数据量较小时的分类任务。在本实验中，我们使用了 BERT textsubscript tiny BASE 模型，该模型有 12 个隐藏层。该模型比朴素贝叶斯基线模型提供更好的准确度、精确度、召回率和 f1 分数。它在二元分类子任务中比在多类分类子任务中表现更好。在这个实验中我们还考虑了各种伦理问题，因为 Twitter 数据包含个人和敏感信息。

A Lexicon for Studying Radicalization in Incel Communities
Authors Emily Klein, Jennifer Golbeck
Incels 是一个由男性组成的极端主义在线社区，他们相信一种根植于厌女症、种族主义、美化暴力和非人化的意识形态。在他们的在线论坛中，他们使用广泛的、不断发展的密码语言，这是一组在群体内有意义的术语，反映了意识形态，展示了社区的成员身份，并且外人很难理解。本文提供了一个词典，其中包含常见 incel 根词、前缀和词缀的术语和定义。该词典基于文本，用于自动分析，是通过对 2016 年至 2023 年五个最活跃的 incel 社区中最常见的 incel 单词、其结构及其含义进行定性内容分析而得出的。该词典将支持未来的工作

Can Large Language Models Explain Themselves?
Authors Andreas Madsen, Sarath Chandar, Siva Reddy
指令调整的大型语言模型法学硕士在许多任务上表现出色，甚至会为其行为提供解释。由于这些模型可以直接向公众开放，因此存在令人信服和错误的解释可能导致对法学硕士的信心不受支持的风险。因此，自我解释的可解释性和忠实性是人工智能安全的重要考虑因素。评估这些解释（称为自我解释）的可解释性忠实度具有挑战性，因为模型太复杂，人类无法注释什么是正确的解释。为了解决这个问题，我们建议采用自我一致性检查作为忠诚度的衡量标准。例如，如果法学硕士说一组单词对于做出预测很重要，那么如果没有这些单词，它应该无法做出相同的预测。虽然自我一致性检查是一种常见的诚实方法，但它们之前并未应用于法学硕士的自我解释。我们将自我一致性检查应用于三种类型的自我解释反事实、重要性度量和修订。我们的工作表明，忠实度既依赖于任务又依赖于模型，例如，对于情感分类，Llama2 的反事实解释更加忠实，Mistral 的重要性度量以及 Falcon 40B 的修订更加忠实。

Word Boundary Information Isn't Useful for Encoder Language Models
Authors Edward Gow Smith, Dylan Phelps, Harish Tayyar Madabushi, Carolina Scarton, Aline Villavicencio
所有现有的基于变压器的 NLP 方法都使用子字标记化算法，通过使用特殊的空间符号（例如标记或形成标记的一部分）来编码空白词边界信息。这些符号已被证明会导致标记化的形态有效性降低，并且会产生大量的词汇冗余。因此，删除这些符号已被证明对预训练微调范例中变压器编码器处理形态复杂的单词具有有益的影响。在这项工作中，我们探讨了单词边界信息对于此类模型是否有用。特别是，我们在四种不同的训练尺度上训练 Transformer 编码器，并研究了几种替代方法来包含单词边界信息，评估跨不同领域的一系列任务和问题设置 GLUE 用于句子级别分类，NER 用于标记级别分类，以及两个涉及复杂词 Superbizarre 和 FLOTA 的分类数据集。

The Pitfalls of Defining Hallucination
Authors Kees van Deemter
尽管自然语言生成 NLG 和大型语言模型法学硕士取得了令人瞩目的进展，但研究人员仍然不清楚 NLG 评估的重要方面。为了证实这一说法，我检查了数据文本 NLG 中幻觉和遗漏的当前分类，并提出了这些分类的基于逻辑的综合。

EMBRE: Entity-aware Masking for Biomedical Relation Extraction
Authors Mingjie Li, Karin Verspoor
信息提取技术，包括命名实体识别 NER 和关系提取 RE，在许多领域中至关重要，可通过识别和连接相关信息来支持理解大量非结构化文本数据。此类技术可以帮助研究人员提取有价值的见解。在本文中，我们介绍了用于生物医学关系提取的实体感知屏蔽 EMBRE 方法，用于生物医学关系提取，该方法应用于 BioRED 挑战任务 1，其中提供人类注释实体作为输入。具体来说，我们通过使用实体屏蔽目标对骨干模型进行预训练，将实体知识集成到深度神经网络中。我们为每个实例随机屏蔽命名实体，并让模型识别屏蔽实体及其类型。通过这种方式，模型能够学习更具体的知识和更鲁棒的表示。然后，我们利用预先训练的模型作为主干来编码语言表示，并将这些表示输入两个多层感知器 MLP 中，以分别预测关系和新颖性的逻辑。

The What, Why, and How of Context Length Extension Techniques in Large Language Models -- A Detailed Survey
Authors Saurav Pawar, S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Vinija Jain, Aman Chadha, Amitava Das
大型语言模型法学硕士的出现代表了自然语言处理 NLP 领域的显着突破，为文本理解和生成方面的重大进步做出了贡献。然而，在这些进步中，值得注意的是法学硕士经常面临上下文长度外推方面的限制。理解和扩展法学硕士的上下文长度对于提高其在各种 NLP 应用程序中的性能至关重要。在这篇调查论文中，我们深入探讨了其重要性的多方面问题，以及先进技术可能给 NLP 应用带来的潜在转变。我们研究了与延长上下文长度相关的固有挑战，并对研究人员采用的现有策略进行了有组织的概述。此外，我们还讨论了评估上下文扩展技术的复杂性，并强调了研究人员在该领域面临的开放挑战。此外，我们探讨研究界是否就评估标准达成共识，并确定需要进一步达成一致的领域。

JumpCoder: Go Beyond Autoregressive Coder via Online Modification
Authors Mouxiang Chen, Hao Tian, Zhongxin Liu, Xiaoxue Ren, Jianling Sun
虽然现有的代码大型语言模型代码法学硕士在代码生成方面表现出令人印象深刻的能力，但它们的自回归顺序生成本质上缺乏可逆性。这种限制阻碍了他们像人类一样在编码过程中及时纠正以前丢失的语句，通常会导致错误传播和性能不佳。我们引入了 JumpCoder，这是一种新颖的与模型无关的框架，可以实现在线修改和非顺序生成来增强代码 LLM。 JumpCoder背后的关键思想是在生成过程中必要时将新代码插入到当前生成的代码中，这是通过与代码LLM协同工作的辅助填充模型来实现的。由于事先确定最佳填充位置比较困难，因此我们采用先填充，后判断的策略，该策略在每行生成后的 k 个最关键位置进行实验，并使用抽象语法树 AST 解析器和生成模型评分有效判断每个潜在填充的有效性。使用六个最先进的代码法学硕士在多个基准上进行的广泛实验一致表明，相对于所有基准都有显着改进。值得注意的是，JumpCoder 帮助代码法学硕士在多语言 HumanEval 基准测试中，Python 的第 1 关提高了 3.6，Java 提高了 6.3，C 提高了 3.7。

Authorship Obfuscation in Multilingual Machine-Generated Text Detection
Authors Dominik Macko, Robert Moro, Adaku Uchendu, Ivan Srba, Jason Samuel Lucas, Michiharu Yamashita, Nafis Irtiza Tripto, Dongwon Lee, Jakub Simko, Maria Bielikova
最新大型语言模型法学硕士的高质量文本生成能力引起了人们对其滥用的担忧，例如在虚假信息的大规模传播中。机器生成的文本 MGT 检测对于应对此类威胁非常重要。然而，它很容易受到作者混淆 AO 方法的影响，例如释义，这可能导致 MGT 逃避检测。到目前为止，仅在单语环境中对此进行了评估。因此，最近提出的多语言检测器的敏感性仍然未知。我们通过对 10 种知名 AO 方法的性能进行全面基准测试，对 11 种语言的 37 种 MGT 检测方法（即 10 乘以 37 乘以 11 4,070 种组合）进行攻击来填补这一空白。我们还使用模糊文本评估数据增强对对抗鲁棒性的影响。

Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
Authors Heming Xia, Zhe Yang, Qingxiu Dong, Peiyi Wang, Yongqi Li, Tao Ge, Tianyu Liu, Wenjie Li, Zhifang Sui
为了减轻大型语言模型 LLM 中自回归解码带来的高推理延迟，推测解码已成为 LLM 推理的一种新颖的解码范例。在每个解码步骤中，该方法首先有效地起草几个未来的令牌，然后并行验证它们。与自回归解码不同，推测解码有助于每步同时解码多个标记，从而加速推理。本文对这种有前途的解码范式进行了全面的概述和分析。我们首先提供推测解码的正式定义和表述。然后，我们对其关键方面进行深入讨论，包括该领域当前的领先技术、面临的挑战以及未来潜在的方向。

Milestones in Bengali Sentiment Analysis leveraging Transformer-models: Fundamentals, Challenges and Future Directions
Authors Saptarshi Sengupta, Shreya Ghosh, Prasenjit Mitra, Tarikul Islam Tamiti
情感分析 SA 是指将视图极性（通常是积极的、消极的或中性的，甚至是细粒度的，例如轻微愤怒、悲伤等）与给定文本关联起来的任务，本质上将其分解为受监督的，因为我们有视图标签先验分类任务。尽管由于 Transformer 架构的到来，人们对英语等资源丰富的语言进行了大量研究，从而使 SOTA 突飞猛进，但对于孟加拉语 BN 等资源匮乏的语言来说，情况却并非如此。对于大约 3 亿人使用的语言来说，能够让他们用自己喜欢的语言进行试验的技术严重缺乏。在本文中，我们分析了孟加拉语 SA 的 SOTA，特别是基于 Transformer 的模型。

Question Translation Training for Better Multilingual Reasoning
Authors Wenhao Zhu, Shujian Huang, Fei Yuan, Shuaijie She, Jiajun Chen, Alexandra Birch
大型语言模型在推理任务上表现出引人注目的性能，但它们在英语以外的语言中往往表现得更差。鉴于他们的训练数据主要由英文文本和指令组成，这并不奇怪。典型的解决方案是将指令数据翻译成所有感兴趣的语言，然后对生成的多语言数据进行训练，这称为翻译训练。这种方法不仅成本高昂，而且由于思维链和数学推理指令的格式不标准，导致数据翻译质量不佳。在本文中，我们探讨了问题对齐的好处，通过对 X 英语问题数据进行微调来训练模型将推理问题翻译成英语。通过这种方式，我们进行有针对性的领域语言对齐，充分利用英语教学数据来解锁法学硕士的多语言推理能力。

Wikidata as a seed for Web Extraction
Authors Kunpeng Guo, Dennis Diefenbach, Antoine Gourru, Christophe Gravier
维基数据已经发展成为一个规模惊人的知识图谱。迄今为止，它包含超过 170 亿个三元组，收集有关人物、地点、电影、明星、出版物、蛋白质等的信息。另一方面，网络上的大多数信息并不是在像 Wikidata 这样的高度结构化数据存储库中发布，而是作为非结构化和半结构化内容发布，更具体地说，在包含文本和表格的 HTML 页面中发布。在知识图中查找、监控和组织这些数据需要人类编辑做大量的工作。数据的数量和复杂性使得这项任务变得困难且耗时。在这项工作中，我们提出了一个框架，能够识别和提取在多个 Web 域下发布的新事实，以便维基数据编辑可以建议它们进行验证。该框架依赖于问答技术。我们从用于从文本集合中提取事实的想法中汲取灵感，并对其进行调整以从网页中提取事实。为了实现这一目标，我们证明语言模型不仅可以从文本集合中提取事实，还可以从网页中提取事实。通过利用维基数据中已包含的信息，可以对所提出的框架进行训练，而无需任何额外的学习信号，并且可以提取各种属性和领域的新事实。沿着这条路径，维基数据可以用作提取网络上事实的种子。我们的实验表明，我们可以在 F1 分数上实现 84.07 的平均性能。此外，我们的估计表明，我们有可能提取数百万个事实，供人类验证。

Consolidating Strategies for Countering Hate Speech Using Persuasive Dialogues
Authors Sougata Saha, Rohini Srihari
社交媒体平台上仇恨言论盛行。尽管自动检测、标记和阻止此类虚假、攻击性和有害在线内容的工具最近已经成熟，但在肇事者持续存在的情况下，这种被动和暴力的方法只能提供短期和肤浅的补救措施。随着大型语言模型的公开可用，这些模型可以大规模生成清晰的合成和引人入胜的内容，人们担心此类恶意内容在网络上传播的快速增长。现在需要关注更深入、长期的解决方案，包括与内容来源背后的肇事者进行接触，以改变他们的观点，或者至少使用有说服力的手段来平息言论。为此，我们建议定义和试验可控策略，以针对在线对话中的仇恨评论产生反驳论据。我们尝试使用以下特征来控制响应生成： i 论证结构和基于沃尔顿论证方案的推理； ii 反论证言语行为； iii 基于人类特征的品质，例如大 5 人格特征和人类价值观。通过自动和人工评估，我们确定最佳的特征组合，从而生成流畅、有争议性且逻辑合理的论据来对抗仇恨。

Flexibly Scaling Large Language Models Contexts Through Extensible Tokenization
Authors Ninglu Shao, Shitao Xiao, Zheng Liu, Peitian Zhang
大型语言模型法学硕士需要足够的上下文来处理许多关键应用，例如检索增强生成和少量学习。然而，由于窗口大小的限制，法学硕士只能在有限的背景下访问信息。虽然上下文窗口的大小可以通过微调来扩展，但这将导致训练和推理阶段的大量成本。在本文中，我们提出了可扩展标记化作为实现 LLM 上下文灵活扩展的替代方法。可扩展标记化是标记化上下文和 LLM 之间的中间件，它将原始标记嵌入转换为可扩展嵌入。这种嵌入为长上下文提供了更紧凑的表示，在此基础上，LLM 能够使用相同的上下文窗口感知更多信息。可扩展标记化还具有灵活性，可以在可行范围内灵活确定缩放因子，从而在推理时扩展任意上下文长度。此外，可扩展标记化作为一个简单的组件引入，它不仅可以无缝插入LLM本身，还可以无缝插入其微调的衍生产品，引入扩展的上下文信息，同时完全保留LLM的现有功能。我们对长上下文语言建模和理解任务进行了全面的实验，验证了可扩展标记化是一种有效、高效、灵活和兼容的方法来扩展 LLM 的上下文。

Quantum Transfer Learning for Acceptability Judgements
Authors Giuseppe Buonaiuto, Raffaele Guarasci, Aniello Minutolo, Giuseppe De Pietro, Massimo Esposito
混合量子经典分类器有望对自然语言处理任务的关键方面产生积极影响，特别是与分类相关的任务。

On the importance of Data Scale in Pretraining Arabic Language Models
Authors Abbas Ghaddar, Philippe Langlais, Mehdi Rezagholizadeh, Boxing Chen
事实证明，预训练单语语言模型对于阿拉伯语自然语言处理 NLP 任务的性能至关重要。在本文中，我们对数据在阿拉伯语预训练语言模型 PLM 中的作用进行了全面研究。更准确地说，我们通过对大规模、高质量的阿拉伯语语料库进行再培训，重新评估了一套最先进的阿拉伯语 PLM 的性能。我们显着提高了 ALUE 和 ORCA 排行榜上领先的阿拉伯语编码器 BERT 基础模型和编码器解码器 T5 基础模型的性能，从而报告了各自模型类别中的最先进结果。此外，我们的分析强烈表明，到目前为止，预训练数据是性能的主要贡献者，超过了其他因素。

Prompting open-source and commercial language models for grammatical error correction of English learner text
Authors Christopher Davis, Andrew Caines, istein Andersen, Shiva Taslimipoor, Helen Yannakoudakis, Zheng Yuan, Christopher Bryant, Marek Rei, Paula Buttery
由于生成式人工智能的最新进展，我们能够促使大型语言模型法学硕士生成流畅且符合语法的文本。此外，研究表明，当提示不符合语法的输入句子时，我们可以从法学硕士中引发语法错误纠正 GEC 的尝试。我们通过衡量法学硕士在已建立的基准数据集上的表现来评估他们在 GEC 的表现。我们超越了以前的研究，通过在四个已建立的 GEC 基准上评估七个开源和三个商业 LLM，仅在精选的英语 GEC 数据集上检查 GPT 模型。我们调查模型性能并针对各个错误类型报告结果。我们的结果表明，法学硕士并不总是优于受监督的英语 GEC 模型，除非在特定情况下，即商业法学硕士在基准上进行了流畅性修正而不是最少的编辑。

Assisted Knowledge Graph Authoring: Human-Supervised Knowledge Graph Construction from Natural Language
Authors Marcel Gohsen, Benno Stein
百科全书式的知识图谱，例如维基数据，拥有包含数百万条知识语句的广泛存储库。然而，历史、物理或医学等领域的特定领域知识在这些图中的代表性明显不足。尽管很少有特定领域的知识图谱存在，例如医学领域的 Pubmed，但为许多领域开发专门的检索应用程序仍然需要从头开始构建知识图谱。

MAPLE: Multilingual Evaluation of Parameter Efficient Finetuning of Large Language Models
Authors Divyanshu Aggarwal, Ashutosh Sathe, Sunayana Sitaram
参数高效微调已成为一种无需大量资源和计算即可提高大型语言模型性能的可行解决方案。先前的多语言评估工作表明，法学硕士在英语和其他语言方面的表现存在很大差距。此外，较小的开源模型和较大的法学硕士之间的性能也存在很大差距。微调可以是弥合这一差距并使语言模型更加公平的有效方法。在这项工作中，我们根据合成多语言指令调整数据对 LLaMA 7B 和 Mistral 7B 模型进行微调，以确定其对总共涵盖 23 种语言的 5 个下游任务的模型性能的影响。此外，我们还尝试了各种参数，例如低等级适应的等级和量化值，以确定它们对下游性能的影响，并发现较高的等级和较高的量化值有利于低资源语言。我们发现，对较小的开源模型进行参数有效微调有时会缩小这些模型与较大模型的性能之间的差距，但是，英语性能可能会受到影响。

Cascaded Cross-Modal Transformer for Audio-Textual Classification
Authors Nicolae Catalin Ristea, Andrei Anghel, Radu Tudor Ionescu
语音分类任务通常需要强大的语言理解模型来掌握有用的特征，当可用的训练数据有限时，这就会成为问题。为了获得卓越的分类性能，我们建议通过使用自动语音识别 ASR 模型转录语音并通过预训练的翻译模型将转录文本翻译成不同的语言，从而利用多模态表示的固有价值。因此，我们获得每个数据样本的音频文本多模态表示。随后，我们通过新颖的级联跨模态转换器 CCMT 将 Transformers BERT 的语言特定双向编码器表示与 Wav2Vec2.0 音频功能相结合。我们的模型基于两个级联变压器块。第一个结合了来自不同语言的文本特定特征，而第二个结合了声学特征和第一个转换器块先前学习的多语言特征。我们在 ACM 多媒体 2023 计算副语言学挑战赛的请求子挑战赛中使用了我们的系统。 CCMT 被宣布为获胜解决方案，投诉和请求检测的未加权平均召回 UAR 分别为 65.41 和 85.87。此外，我们将我们的框架应用于 Speech Commands v2 和 HarperValleyBank 对话数据集，超越了之前报告这些基准测试结果的研究。

See the Unseen: Better Context-Consistent Knowledge-Editing by Noises
Authors Youcheng Huang, Wenqiang Lei, Zheng Zhang, Jiancheng Lv, Shuicheng Yan
知识编辑更新了大语言模型法学硕士的知识，有助于法学硕士的可解释性和应用。然而，知识应用是上下文一致的，法学硕士可以在不同的上下文中回忆起相同的知识。现有作品忽略了这一特性，编辑缺乏概括性。在本文中，我们凭经验发现不同背景对法学硕士回忆相同知识的影响遵循类高斯分布。然后，我们对高斯噪声进行采样，以模拟更新 LLM 时不同上下文的影响。通过这样，我们可以让法学硕士看到编辑知识将被应用的看不见的上下文，从而提高编辑泛化能力。

Editing Arbitrary Propositions in LLMs without Subject Labels
Authors Itai Feigenbaum, Devansh Arpit, Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Weiran Yao, Caiming Xiong, Silvio Savarese
大语言模型法学硕士编辑修改了法学硕士中的事实信息。定位和编辑 L E 方法通过查找相关信息存储在神经网络中的位置并编辑该位置的权重来实现此目的。编辑的目标是独立于措辞修改法学硕士对命题的响应，同时不修改其对其他相关命题的响应。现有的方法仅限于二元命题，它表示主语和客体之间直接的二元关系。此外，现有的方法依赖于语义主题标签，而这些标签在实践中可能不可用，甚至没有被很好地定义。在本文中，我们证明了可以通过一种简单而快速的定位方法（称为梯度追踪 GT）有效地解决这两个问题。这种本地化方法允许编辑任意命题而不仅仅是二进制命题，并且不需要主题标签。由于命题总是具有真值，我们的实验提示 LLM 作为布尔分类器，并编辑其 T F 对命题的响应。我们的方法应用 GT 进行位置跟踪，然后使用 Rank One Model Editing ROME 的温和变体在该位置编辑模型。在从 CounterFact 数据集派生的二元命题数据集上，我们表明，我们的方法无需访问主题标签，其性能接近可访问主题标签的最先进的 L E 方法。然后，我们引入一个新的数据集，事实准确性分类测试 FACT ，它包括非二元命题，并且主题标签通常不适用，因此超出了现有 LE 方法的范围。

TAROT: A Hierarchical Framework with Multitask Co-Pretraining on Semi-Structured Data towards Effective Person-Job Fit
Authors Yihan Cao, Xu Chen, Lun Du, Hao Chen, Qiang Fu, Shi Han, Yushu Du, Yanbin Kang, Guangming Lu, Zi Li
人岗匹配是在线招聘平台的重要组成部分，服务于求职、候选人推荐等各种下游应用。最近，除了用户行为特征和工作元数据之外，预训练的大语言模型还利用用户配置文件和工作描述中更丰富的文本信息，进一步提高了有效性。然而，一般的面向领域的设计很难捕获用户配置文件和工作描述中的独特结构信息，从而导致潜在语义相关性的丢失。我们提出了 TAROT，一种分层多任务协同预训练框架，以更好地利用结构和语义信息进行信息文本嵌入。 TAROT针对的是个人资料和工作中的半结构化文本，并与多粒度的预训练任务共同约束所获取的每个级别的语义信息。

Survey of Natural Language Processing for Education: Taxonomy, Systematic Review, and Future Trends
Authors Yunshi Lan, Xinyuan Li, Hanyue Du, Xuesong Lu, Ming Gao, Weining Qian, Aoying Zhou
自然语言处理 NLP 旨在通过计算机科学领域的技术来分析文本。它服务于医疗保健、商业和教育领域的应用程序。特别是，NLP已应用于教育领域，以帮助教学和学习。在本次调查中，我们回顾了 NLP 的最新进展，重点关注解决与教育领域相关的问题。具体来说，我们首先介绍一下相关背景。然后，我们提出了 NLP 在教育领域的分类。接下来，我们根据上述分类法说明任务定义、挑战和相应技术。

Developing ChatGPT for Biology and Medicine: A Complete Review of Biomedical Question Answering
Authors Qing Li, Lei Li, Yu Li
ChatGPT 探索了问答 QA 提供医疗诊断、治疗建议和其他医疗保健支持的战略蓝图。这是通过自然语言处理 NLP 和多模式范式越来越多地整合医学领域数据来实现的。通过将文本、图像、视频和其他模态的分布从一般领域转移到医学领域，这些技术加快了医学领域问答MDQA的进展。它们弥合了人类自然语言与复杂的医学领域知识或专家手动注释之间的差距，处理医学环境中的大规模、多样化、不平衡甚至未标记的数据分析场景。我们的重点是利用语言模型和多模态范式进行医学问答，旨在指导研究界为其特定的医学研究需求选择适当的机制。单模态相关问答、阅读理解、推理、诊断、关系提取、概率建模等专业任务，以及视觉问答、图像标题、跨模态检索、报告摘要和生成等多模态相关任务详细讨论了。每个部分都深入研究了所考虑的相应方法的复杂细节。本文重点介绍了医学领域探索相对于通用领域方法的结构和进展，强调了它们在不同任务和数据集上的应用。

GWPT: A Green Word-Embedding-based POS Tagger
Authors Chengwei Wei, Runqi Pang, C. C. Jay Kuo
作为自然语言处理 NLP 的基本工具，词性词性标注器为句子中的每个单词分配词性标签。本文提出了一种基于词嵌入的新型轻量级词性标注器，并将其命名为基于 GWPT green 词嵌入的词性标注器。遵循绿色学习GL方法，GWPT包含级联三个模块：1表示学习、2特征学习和3决策学习模块。 GWPT 的主要新颖之处在于表示学习。它使用非上下文或上下文词嵌入，将嵌入维度索引划分为低、中、高频集合，并用不同的 N 克表示它们。

Utilizing deep learning models for the identification of enhancers and super-enhancers based on genomic and epigenomic features
Authors Zahra Ahani, Moein Shahiki Tash, Yoel Ledo Mezquita, Jason Angel
本文对大量英文推文数据集进行了广泛的检查，重点关注九种广泛认可的加密货币，特别是卡尔达诺、币安、比特币、狗狗币、以太坊、Fantom、Matic、Shiba 和 Ripple。我们的主要目标是对与这些加密货币相关的社交媒体内容进行心理语言学和情感分析。使调查人员能够做出更明智的决定。该研究涉及比较不同数字货币的语言特征，揭示每种货币社区中出现的独特语言模式。为了实现这一目标，我们利用了先进的文本分析技术。此外，我们的工作揭示了对加密货币社区中这些数字资产之间相互作用的有趣理解。通过检查数据集中最常一起提及的货币对，我们建立了不同加密货币之间的相关性。为了确保我们研究结果的可靠性，我们最初从 Twitter 收集了总共 832,559 条推文。这些推文经过严格的预处理阶段，产生了包含 115,899 条推文的精细数据集，用于我们的分析。

Only Send What You Need: Learning to Communicate Efficiently in Federated Multilingual Machine Translation
Authors Yun Wei Chu, Dong Jun Han, Christopher G. Brinton
联邦学习 FL 是解决多语言任务的一种有前途的方法，有可能使客户能够利用自己的语言特定数据协作构建高质量的神经机器翻译 NMT 模型。然而，实际网络系统中的通信限制给 FL 各方之间交换大规模 NMT 引擎带来了挑战。在本文中，我们提出了一种基于元学习的自适应参数选择方法 MetaSend，该方法提高了基于 FL 的多语言 NMT 训练期间客户端模型传输的通信效率。我们的方法根据不同 FL 轮之间客户端的张量偏差，在不影响 NMT 模型质量的情况下，学习在传输之前过滤参数的动态阈值。

Model Editing at Scale leads to Gradual and Catastrophic Forgetting
Authors Akshat Gupta, Anurag Rao, Gopala Anumanchipalli
在大型语言模型中编辑知识是一项很有吸引力的功能，它使我们能够在预训练期间纠正错误学习的事实，并使用不断增长的新事实列表来更新模型。虽然现有的模型编辑技术已显示出希望，但通常使用一次或几次编辑的可靠性、特异性和泛化性指标来评估它们。我们认为，为了使模型编辑具有实用性，我们必须能够对同一模型进行多次编辑。考虑到这一点，我们大规模评估当前的模型编辑方法，重点关注两种最先进的方法 ROME 和 MEMIT。我们发现，当模型按顺序编辑多个事实时，它会不断忘记先前编辑的事实以及执行下游任务的能力。这种遗忘分两个阶段发生：最初是渐进但渐进的遗忘阶段，随后是突然或灾难性的遗忘阶段。渐进性遗忘和灾难性遗忘都限制了模型编辑方法的大规模使用，前者使模型编辑效率降低，因为对模型进行了多次编辑，而后者则限制了此类模型编辑方法的可扩展性。我们的分析还强调了 ROME 和 MEMIT 在规模上的其他主要局限性。

Taec: a Manually annotated text dataset for trait and phenotype extraction and entity linking in wheat breeding literature
Authors Claire N dellec, Clara Sauvion, Robert Bossy, Mariya Borovikova, Louise Del ger
小麦品种表现出多种性状和表型。将它们与遗传变异联系起来对于更短、更高效的小麦育种计划至关重要。新的理想小麦品种性状包括减少农药使用的抗病性、适应气候变化、耐热和干旱胁迫或谷物的低麸质含量。大量科学文献和在田间和受控条件下获得的观测数据记录了小麦育种实验。交叉引用文献和观察数据的补充信息对于研究基因型表型关系和改进小麦选择至关重要。关于遗传标记辅助选择的科学文献描述了许多有关基因型表型关系的信息。然而，科学文章中用于指代性状和表型值的各种表达方式阻碍了信息的查找和交叉引用。当通过带注释的示例进行充分训练时，最近的文本挖掘方法在科学领域的命名实体识别和链接方面表现出色。虽然一些语料库包含人类和动物表型的注释，但目前还没有语料库可用于训练和评估植物表型文献中的命名实体识别和实体链接方法。普通小麦性状语料库是小麦性状和表型的新金标准。它由 540 篇 PubMed 参考文献组成，使用小麦性状和表型本体论以及国家生物技术信息中心的物种分类法对性状、表型和物种命名实体进行了完整注释。

Stability Analysis of ChatGPT-based Sentiment Analysis in AI Quality Assurance
Authors Tinghui Ouyang, AprilPyone MaungMaung, Koichi Konishi, Yoshiki Seo, Isao Echizen
在大型人工智能模型时代，复杂的架构和庞大的参数给有效的人工智能质量管理AIQM带来了巨大的挑战。大语言模型法学硕士。本文重点研究基于 LLM 的特定 AI 产品和基于 ChatGPT 的情感分析系统的质量保证。该研究深入探讨了与 ChatGPT 所基于的扩展人工智能模型的运行和鲁棒性相关的稳定性问题。使用用于情感分析的基准数据集进行实验分析。结果表明，所构建的基于 ChatGPT 的情感分析系统表现出不确定性，这归因于各种操作因素。

Leveraging the power of transformers for guilt detection in text
Authors Abdul Gafar Manuel Meque, Jason Angel, Grigori Sidorov, Alexander Gelbukh
近年来，语言模型和深度学习技术彻底改变了自然语言处理任务，包括情绪检测。然而，内疚这一特定情绪在该领域受到的关注有限。在这项研究中，我们探讨了三种基于 Transformer 的语言模型在检测文本中的内疚感方面的适用性，并比较了它们在一般情绪检测和内疚检测方面的性能。我们提出的模型分别比 BERT 和 RoBERTa 模型高出 2 分和 1 分。

DRLC: Reinforcement Learning with Dense Rewards from LLM Critic
Authors Meng Cao, Lei Shu, Lei Yu, Yun Zhu, Nevan Wichers, Yinxiao Liu, Lei Meng
强化学习 RL 可以将语言模型与不可微分的奖励信号（例如人类偏好）结合起来。然而，一个主要的挑战来自于这些奖励信号的稀疏性，通常整个一代只有一个奖励。这种奖励的稀疏性会导致学习效率低下且不稳定。在本文中，我们介绍了一种新颖的框架，利用法学硕士的批判能力在整个学习过程中产生密集的奖励。我们的方法将批评语言模型与政策模型结合起来。该批评家以任务描述、问题、策略模型的输出和环境的奖励信号作为输入进行提示，并提供反映输出每个部分质量的令牌或跨度级别的密集奖励。我们评估了我们在三个文本生成任务情感控制、语言模型解毒和摘要方面的方法。实验结果表明，在训练中加入人工密集奖励可以在整体奖励的基础上产生比 PPO 基线一致的性能增益。

Active Learning for NLP with Large Language Models
Authors Xuesong Wang
训练样本的人工注释既昂贵又费力，有时甚至具有挑战性，特别是对于自然语言处理 NLP 任务。为了降低标记成本并提高样本效率，可以使用主动学习AL技术来标记尽可能少的样本，以达到合理或相似的结果。为了降低更多成本，并且随着大型语言模型法学硕士的显着进步，法学硕士可以成为注释样本的良好候选者。这项工作研究了使用 LLM GPT 3.5 和 GPT 4 在 3 个不同数据集上标记样本的准确性和成本。提出了一种基于一致性的策略来选择可能被错误标记的样本，以便在 AL 设置中对这些样本使用人工注释，我们称之为混合注释策略。然后我们在两种不同的设置下测试 AL 的性能 1 仅使用人工注释 2 使用所提出的混合注释策略。 3 种 AL 查询策略下的 AL 模型的准确性在 3 个文本分类数据集（即 AG s News、TREC 6 和烂番茄）上报告。在AG新闻和烂番茄上，使用混合标注策略训练的模型与人类标注相比取得了相似或更好的结果。

PersonalityChat: Conversation Distillation for Personalized Dialog Modeling with Facts and Traits
Authors Ehsan Lotfi, Maxime De Bruyn, Jeska Buhmann, Walter Daelemans
新一波的大型语言模型法学硕士提供了一种有效的工具来管理大量的会话数据集。迄今为止的研究主要集中在面向任务或通用开放域对话，并没有充分探索法学硕士遵循复杂提示的能力。在这项工作中，我们专注于个性化，并聘请法学硕士来策划一个数据集，这对于众包来说是困难且昂贵的。 PersonalityChat 是一个基于流行的 PersonaChat 数据集的合成对话数据集，但以人物角色和大 5 个性特征为条件。评估在该数据集上微调的模型，我们表明人格特质标签可用于生成对话模型的基于特质的个性化。

Promptformer: Prompted Conformer Transducer for ASR
Authors Sergio Duarte Torres, Arunasish Sen, Aman Rana, Lukas Drude, Alejandro Gomez Alanis, Andreas Schwarz, Leif R del, Volker Leutnant
上下文线索携带的信息可以改善自动语音识别 ASR 系统中的多轮交互。在本文中，我们介绍了一种受超级提示启发的新颖机制，将文本上下文与注意力机制中的声学表征融合在一起。多回合交互测试集的结果表明，我们的方法在强基线上实现了 5.9 的相对单词错误率 rWERR 降低。我们表明，即使模型在没有上下文的情况下进行训练，我们的方法在没有上下文的情况下也不会退化，并且会带来改进。

The Afterlives of Shakespeare and Company in Online Social Readership
Authors Maria Antoniak, David Mimno, Rosamond Thalken, Melanie Walsh, Matthew Wilkens, Gregory Yauney
Goodreads 和 LibraryThing 等社交阅读平台的发展使我们能够大规模且详细地分析阅读活动。但二十一世纪的体系只给我们提供了当代读者的视角。与此同时，莎士比亚书店借阅图书馆记录的数字化为了解两次世界大战期间巴黎早期较小社区的阅读活动提供了一个窗口。在本文中，我们探讨了莎士比亚与公司和 Goodreads 社区之间可以进行比较的程度。通过量化相似性和差异，我们可以识别这些数据集中作品受欢迎程度上升或下降的模式。我们还可以通过测量共同阅读模式的相似性和差异来测量作品接受方式的差异。

ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering
Authors Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Xie Chen
基于声学和语言提示的语言模型LM方法，例如VALL E，在零样本音频生成领域取得了显着的进展。然而，现有方法仍然存在一些局限性 1 由于音频和音素标记之间的对齐约束有限，输出合成语音中存在重复、换位和遗漏 2 使用自回归 AR 语言模型对合成语音进行细粒度控制的挑战 3 由于无限静音生成基于 AR 解码的本质，特别是在贪婪策略下。为了缓解这些问题，我们提出了 ELLA V，这是一种简单但高效的基于 LM 的零镜头文本到语音 TTS 框架，它可以在音素级别对合成音频进行细粒度控制。 ELLA V 的关键是声音标记和音素标记的交错序列，其中音素标记出现在相应的声音标记之前。实验结果表明，我们的模型在准确性方面优于 VALL E，并且使用贪婪和基于采样的解码策略提供更稳定的结果。 ELLA V的代码将在清理后开源。

Harnessing Large Language Models Over Transformer Models for Detecting Bengali Depressive Social Media Text: A Comprehensive Study
Authors Ahmadul Karim Chowdhury, Md. Saidur Rahman Sujon, Md. Shirajus Salekin Shafi, Tasin Ahmmad, Sifat Ahmed, Khan Md Hasib, Faisal Muhammad Shah
在全球范围内普遍存在与未确诊抑郁症的无声斗争的时代，我们的研究深入探讨了心理健康与社交媒体之间的关键联系。这项工作的重点是抑郁症的早期检测，特别是在外向的社交媒体用户中，使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT 等 LLM，以及先进的深度学习模型 LSTM、Bi LSTM、GRU、BiGRU和 Transformer 模型 BERT、BanglaBERT、SahajBERT、BanglaBERT Base 。该研究将 Reddit 和 X 数据集分为抑郁和非抑郁部分，由具有心理健康专业知识的母语人士翻译成孟加拉语，从而创建了孟加拉社交媒体抑郁数据集 BSMDD。我们的工作提供了每个模型的完整架构细节，以及使用零样本和少样本学习技术评估其在孟加拉抑郁文本分类中的性能的系统方法。我们的工作证明了 SahajBERT 和 Bi LSTM 在各自领域中具有 FastText 嵌入的优越性，还解决了 Transformer 模型的可解释性问题，并强调了 LLM（尤其是 DepGPT）的有效性，在一系列学习环境中展示了灵活性和能力。根据实验结果，所提出的模型 DepGPT 不仅在零镜头和少镜头场景下优于 Alpaca Lora 7B，而且优于其他所有模型，实现了 0.9796 的近乎完美的准确率和 0.9804 的 F1 分数、高召回率和优异的性能。精确。虽然具有竞争力，但 GPT 3.5 Turbo 和 Alpaca Lora 7B 在零射和少射情况下的表现相对较差。

Small Language Model Can Self-correct
Authors Haixia Han, Jiaqing Liang, Jie Shi, Qianyu He, Yanghua Xiao
ChatGPT 等生成语言模型 LM 在各种下游任务中表现出了卓越的性能。然而，它们最突出的缺点之一是以自信的语气生成不准确或虚假的信息。之前的研究已经设计了复杂的管道和提示来诱导大型语言模型展现出自我校正的能力。然而，大型 LM 会被明确提示单独验证和修改其答案，而不是像人类一样自发完成所有步骤。此外，这些复杂的提示对于小型 LM 来说极具挑战性。在本文中，我们在生成语言模型中引入了 underline Intrinsic underline Self underline C orrection ISC，旨在以自触发的方式纠正 LM 的初始输出，即使对于那些具有 60 亿个参数的小型 LM 也是如此。具体来说，我们设计了一个构建自校正数据的管道，并提出了 Partial Answer Masking PAM ，旨在通过微调赋予模型内在的自校正能力。我们使用参数大小从 60 亿到 130 亿不等的 LM 在常识推理和事实知识推理两个任务中进行实验。我们的实验表明，使用 ISC 生成的输出优于没有自我校正生成的输出。

CANDLE: Iterative Conceptualization and Instantiation Distillation from Large Language Models for Commonsense Reasoning
Authors Weiqi Wang, Tianqing Fang, Chunyang Li, Haochen Shi, Wenxuan Ding, Baixuan Xu, Zhaowei Wang, Jiaxin Bai, Xin Liu, Jiayang Cheng, Chunkit Chan, Yangqiu Song
概念化和实例化的顺序过程对于可概括的常识推理至关重要，因为它允许将现有知识应用于不熟悉的场景。然而，现有的工作往往低估实例化的步骤，严重依赖预先构建的概念分类和人工注释来收集这两类知识，导致缺乏实例化的知识来完成推理、成本高昂且可扩展性有限。为了应对这些挑战，我们引入了 CANDLE，这是一个蒸馏框架，通过指示大型语言模型通过批评者过滤生成两种类型的知识，迭代地对常识知识库执行上下文化概念化和实例化。通过将 CANDLE 应用于 ATOMIC，我们构建了一个包含 600 万个概念化和实例化常识知识三元组的综合知识库。两种类型的知识都牢固地植根于原始的 ATOMIC 数据集，内在评估证明了它们卓越的质量和多样性。实证结果表明，在学生模型上提取 CANDLE 可以为四个下游任务带来好处。

Improving Domain Adaptation through Extended-Text Reading Comprehension
Authors Ting Jiang, Shaohan Huang, Shengyue Luo, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
为了增强大型语言模型的领域特定能力，对特定领域语料库进行持续预训练是一种普遍的方法。最近的工作表明，使用基于正则表达式的模式格式化的阅读理解数据来调整模型可以显着提高特定领域任务的性能。然而，基于正则表达式的模式无法使用特定领域的知识来解析原始语料库。此外，问题和答案对以预定义格式直接从语料库中提取，提供了有限的上下文。为了解决这个限制，我们通过法学硕士和聚类来提高阅读理解能力。 LLM侧重于利用语料库内的领域知识来完善理解阶段，而聚类则通过扩展上下文来丰富阅读阶段来提供相关知识。此外，我们的方法结合了参数有效的微调来提高域适应的效率。与 AdaptLLM 相比，我们的方法在特定领域任务中实现了超过 5 的改进。

Distilling Event Sequence Knowledge From Large Language Models
Authors Somin Wadhwa, Oktie Hassanzadeh, Debarun Bhattacharjya, Ken Barker, Jian Ni
人们发现事件序列模型在事件分析和预测方面非常有效。构建此类模型需要丰富的高质量事件序列数据。然而，在某些应用中，干净的结构化事件序列不可用，并且自动序列提取会导致数据噪声太大且不完整。在这项工作中，我们探索使用大型语言模型法学硕士来生成可有效用于概率事件模型构建的事件序列。这可以被视为从法学硕士中提取事件序列知识的机制。我们的方法依赖于具有部分因果关系的事件概念的知识图谱来指导因果事件序列生成的生成语言模型。我们证明我们的方法可以生成高质量的事件序列，填补输入 KG 中的知识空白。此外，我们探索如何利用生成的序列从模式挖掘和概率事件模型中发现有用且更复杂的结构化知识。

Inroads to a Structured Data Natural Language Bijection and the role of LLM annotation
Authors Blake Vente
这项工作发现有限的证据支持这一理论，即使用序列到序列转换器语言模型的多个任务可以提高某些指标的性能。特别是，多任务通才 t5small 的表现优于专家 t5small，F 1 从 0.692 上升到 0.771，这可能表明潜在的跨任务知识泛化。这进一步表明，即使使用相同的网络，以不同的方式重新使用相同的数据也可能会在某些指标上带来更高的性能。然而，单独的逆任务可能只是一种优化策略，因为它不会对本工作中探索的模型大小产生显着的总体改进。此外，与没有合成数据的相同 t5 小模型相比，添加大约 4500 个 LLM 带注释的记录与 12800 个 WebNLG 训练记录交错并不会显着改变自动度量性能。这可能是由于模型大小造成的学习能力瓶颈，并且观察到的下降可能是由于语料库的分布差异造成的。

EHRAgent: Code Empowers Large Language Models for Complex Tabular Reasoning on Electronic Health Records
Authors Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Jieyu Zhang, Hang Wu, Yuanda Zhu, Joyce Ho, Carl Yang, May D. Wang
大型语言模型法学硕士在作为自主代理的规划和工具利用方面表现出了卓越的能力，但很少有人为解决医疗问题而开发。我们提出 EHRAgent1，这是一种具有代码接口的法学硕士代理，可以为电子健康记录 EHR 中的复杂临床任务自动生成和执行代码。首先，我们将 EHR 问答任务制定为工具使用规划流程，有效地将复杂的任务分解为一系列可管理的操作。通过集成交互式编码和执行反馈，EHRAgent 从错误消息中学习并通过迭代改进最初生成的代码。此外，我们通过结合长期记忆来增强 LLM 代理，这使得 EHRAgent 能够有效地从过去的经验中选择和建立最相关的成功案例。对两个现实世界 EHR 数据集的实验表明，EHRAgent 的性能分别比最强的 LLM 代理基线高出 36.48 和 12.41。

Graph Language Models
Authors Moritz Plenz, Anette Frank
虽然语言模型已成为 NLP 的主力，但它们与文本知识图 KG 的一般或领域知识结构化记忆的相互作用正在被积极研究。目前此类图的嵌入方法通常要么使用顺序语言模型 LM 对图进行线性化以嵌入它们，但这种方法未充分利用结构信息，要么使用图神经网络 GNN 来保留图结构，而 GNN 无法表示文本特征以及预训练的 LM可以。在这项工作中，我们引入了一种新颖的语言模型，即图语言模型 GLM，它集成了两种方法的优点，同时减轻了它们的缺点。 GLM 参数是从预训练的 LM 初始化的，以促进对各个概念和三元组的细致理解。同时，其架构设计融入了图偏差，从而促进了图内知识的有效分配。

Leveraging Large Language Models for NLG Evaluation: A Survey
Authors Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia Chen Gu, Chongyang Tao
在快速发展的自然语言生成 NLG 评估领域，引入大型语言模型法学硕士为评估生成的内容质量（例如连贯性、创造力和上下文相关性）开辟了新途径。本调查旨在全面概述如何利用法学硕士进行 NLG 评估，这是一个缺乏系统分析的新兴领域。我们提出了一个连贯的分类法来组织现有的基于法学硕士的评估指标，提供一个结构化的框架来理解和比较这些方法。我们的详细探索包括批判性地评估各种基于法学硕士的方法，以及比较它们在评估 NLG 输出方面的优势和局限性。

A Novel Multi-Stage Prompting Approach for Language Agnostic MCQ Generation using GPT
Authors Subhankar Maity, Aniket Deroy, Sudeshna Sarkar
我们引入了多阶段提示方法 MSP，用于生成多项选择题 MCQ，利用文本 davinci 003 和 GPT 4 等 GPT 模型的功能，这些模型因其在各种 NLP 任务中的卓越表现而闻名。我们的方法融合了思想提示链的创新概念，这是一种渐进技术，其中 GPT 模型提供了一系列相互关联的线索来指导 MCQ 生成过程。自动评估一致证明了我们提出的 MSP 方法相对于传统单阶段提示 SSP 基线的优越性，从而产生了高质量的干扰物。此外，一次性 MSP 技术增强了自动评估结果，有助于改进多种语言（包括英语、德语、孟加拉语和印地语）的干扰项生成。

PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities
Authors Settaluri Lakshmi Sravanthi, Meet Doshi, Tankala Pavan Kalyan, Rudra Murthy, Pushpak Bhattacharyya, Raj Dabre
法学硕士在理解语义方面表现出了卓越的能力，但他们常常在理解语用方面遇到困难。为了证明这一事实，我们发布了一个语用理解基准 PUB 数据集，其中包含四种语用现象的 14 个任务，即蕴涵、预设、指称和指示语。我们为每项任务策划了高质量的测试集，其中包括多项选择题答案 MCQA。 PUB 总共包含 28k 个数据点，其中 6.1k 个是我们创建的，其余的都是根据现有数据集改编的。我们评估了参数数量和训练类型不同的九个模型。我们的研究表明，对指令跟随和聊天的微调可以显着增强较小语言模型的语用能力。然而，对于较大的模型，基本版本的性能与聊天适应版本相当。此外，人类能力和模型能力之间存在明显的性能差距。此外，与人类在各种任务中的一致表现不同，这些模型表现出其熟练程度的可变性，由于不同的提示和同一数据集中任务的复杂性，表现水平会发生波动。

Joint Extraction of Uyghur Medicine Knowledge with Edge Computing
Authors Fan Lu, Quan Qi, Huaibin Qin
基于边缘计算的医学知识提取方法在边缘设备上部署深度学习模型，实现局部实体和关系提取。这种方法避免了将大量敏感数据传输到云数据中心，有效保护了医疗服务的隐私。然而，现有的关系提取方法主要采用顺序管道方法，其在实体识别后对确定的实体之间的关系进行分类。这种模式面临着任务之间的错误传播、对两个子任务之间的依赖关系考虑不足、忽略句子内不同关系之间的相互关系等挑战。为了解决这些挑战，提出了一种边缘计算中具有参数共享的联合提取模型，名为 CoEx Bert。该模型利用两个模型之间的共享参数化来联合提取实体和关系。具体来说，CoEx Bert 采用两个模型，每个模型分别共享隐藏层参数，并将这两个损失函数组合起来进行联合反向传播，以优化模型参数。此外，它通过考虑上下文关系，有效解决了从非结构化维吾尔医学文本中提取知识时的实体重叠问题。最后，将该模型部署在边缘设备上，用于维吾尔医学知识的实时提取和推理。实验结果表明，CoEx Bert 优于现有的最先进方法，在维吾尔族传统医学文献数据集中实现了准确率、召回率和 F1 分数分别为 90.65、92.45 和 91.54。

Extending LLMs' Context Window with 100 Samples
Authors Yikai Zhang, Junlong Li, Pengfei Liu
众所周知，大型语言模型法学硕士在其预先训练的上下文窗口之外的外推能力有限，限制了它们在具有冗长输入的下游任务中的应用。最近的研究试图通过修改旋转位置嵌入 RoPE 来扩展 LLM 上下文窗口，RoPE 是 LLaMA、PaLM 和 GPT NeoX 等著名 LLM 所采用的流行位置编码方法。然而，像Position Interpolation PI和YaRN这样的先前工作是资源密集型的，并且缺乏比较实验来评估它们的适用性。在这项工作中，我们确定了 LLM 注意力熵的内在需求，即注意力分数的信息熵以保持稳定性，并引入了 RoPE 的新颖扩展，它结合了调整 RoPE 的基频和缩放注意力 logits，以帮助 LLM 有效地适应更大的环境。上下文窗口。我们验证了我们的方法在各种上下文要求较高的任务中跨不同上下文窗口大小的微调性能和鲁棒性方面的优越性。值得注意的是，我们的方法仅用 100 个样本和 6 个训练步骤就将 LLaMA 2 7B Chat 的上下文窗口扩展到 16,384，展示了非凡的效率。最后，我们还探讨了数据组成和培训课程如何影响特定下游任务的上下文窗口扩展，建议以冗长的对话作为微调法学硕士的良好起点。

Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization
Authors A F M Saif, Xiaodong Cui, Han Shen, Songtao Lu, Brian Kingsbury, Tianyi Chen
在本文中，我们提出了一种新颖的基于双层优化的训练方法来训练自动语音识别 ASR 任务的声学模型，我们将其称为双层联合无监督和监督训练 BL JUST 。 BL JUST 采用分别具有无监督损失和监督损失的下层和上层优化，利用基于惩罚的双层优化的最新进展，以可承受的复杂性和严格的收敛保证来解决这一具有挑战性的 ASR 问题。为了评估 BL JUST，我们在 LibriSpeech 和 TED LIUM v2 数据集上进行了广泛的实验。

CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs' Mathematical Reasoning Capabilities
Authors Yujun Mao, Yoon Kim, Yilun Zhou
最近的大型语言模型法学硕士已经显示出数学推理能力。然而，目前尚不清楚他们将如何应对更具挑战性的竞争级别问题。虽然中间推理步骤的自我生成的语言表达（即思维链提示）已被证明是有帮助的，但法学硕士是否可以利用有用的辅助信息（例如特定问题的提示）之前尚未被调查过。在本文中，我们提出了一个具有挑战性的基准数据集来实现此类分析。概念和提示注释数学问题 CHAMP 由高中数学竞赛问题组成，注释有概念或一般数学事实以及提示或问题特定技巧。这些注释使我们能够探索附加信息的影响，例如相关提示、误导性概念或相关问题。这个基准测试很困难，最好的模型在标准设置下只得分 58.1。通过概念和提示，性能有时会提高，这表明某些模型可以利用此类辅助信息。我们进一步注释模型生成的解决方案的正确性。使用这个语料库，我们发现模型经常通过错误的推理步骤得出正确的最终答案。此外，我们测试模型是否能够验证这些解决方案，发现大多数模型都遇到困难。

Bridging the Preference Gap between Retrievers and LLMs
Authors Zixuan Ke, Weize Kong, Cheng Li, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky
大型语言模型法学硕士在广泛的任务中表现出了卓越的结果，而检索长期以来一直被认为是人类获取任务相关信息的有效手段。检索增强一代 RAG 以其在知识密集型任务中的有效性而闻名，它通过定位相关信息并将其放置在法学硕士的上下文窗口中。然而，猎犬和法学硕士之间的关系仍在研究中。大多数现有工作将检索器和 LLM 视为独立的组件，并在检索人类友好的信息和组装 LLM 友好的上下文之间留下了差距。在这项工作中，我们研究了一种新颖的桥梁模型，验证了 RAG 背景下检索器的排名和选择假设，并提出了一个将监督学习和强化学习链接在一起以学习桥梁模型的训练框架。

E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
Authors Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng
通常，训练具有长上下文大小的法学硕士的计算成本很高，需要大量的训练时间和 GPU 资源。现有的长上下文扩展方法通常需要额外的训练过程来支持相应的长上下文窗口，其中需要长上下文训练数据，例如32k，并且假设GPU训练成本很高。为了解决上述问题，我们提出了一种用于大型语言模型的高效且极端的长度扩展方法，称为 E 2 LLM，只需一个训练过程并大大降低了计算成本，这也消除了收集长上下文数据的需要。具体来说，首先，我们的 E 2 LLM 的训练数据只需要较短的长度，例如 4k ，这大大降低了调整成本。其次，短训练上下文窗口上的训练过程仅执行一次，并且我们可以在推理时支持不同的评估上下文窗口。第三，在E 2 LLM中，基于RoPE位置嵌入，我们针对训练中的不同样本引入了两种不同的尺度和位置索引参数增强方法。其目的是使模型在推理时直接插值任意上下文长度时对不同的相对差异更加鲁棒。

Parameter-Efficient Detoxification with Contrastive Decoding
Authors Tong Niu, Caiming Xiong, Semih Yavuz, Yingbo Zhou
近年来，自然语言生成领域取得了重大进步，包括可控文本生成技术的发展。然而，控制生成文本的属性仍然是一个挑战，特别是在旨在避免不良行为（例如毒性）时。在这项工作中，我们引入了 Detoxification Generator DETOXIGEN ，这是一种推理时间算法，可以引导生成远离不需要的样式。 DETOXIGEN 是预先训练的语言模型生成器和解毒器的集合。解毒器有意识地根据代表不良属性的有毒数据进行训练，鼓励它专门生成该风格的文本。在实际生成过程中，我们使用经过训练的解毒器来生成不需要的标记，以便生成器在每个解码步骤中进行对比。这种方法直接通知生成器避免生成解毒器认为很有可能的令牌。我们使用各种语言模型作为生成器，在常用的 REALTOXICITYPROMPTS 基准 Gehman et al., 2020 上评估 DETOXIGEN。我们发现它在解毒指标方面显着优于以前的方法，同时又不影响发电质量。此外，解毒器是通过使用与生成器相同的主干语言模型进行软提示调整而获得的。

Knowledge-Centric Templatic Views of Documents
Authors Isabel Cachola, Silviu Cucerzan, Allen Herring, Vuksan Mijovic, Erik Oveson, Sujay Kumar Jauhar
寻求与更广泛受众交流的作者通常会在不同的文档和格式中撰写关于相同基础知识的想法，例如幻灯片、时事通讯、报告、小册子等。文档生成方面的先前工作通常考虑了每种单独格式的创建不同的任务，开发独立的生成和评估方法。从研究和应用的角度来看，这种方法对于人工智能支持的内容创作的发展并不是最理想的，因为它会导致学习过程碎片化、模型和方法冗余以及评估脱节。因此，在我们的工作中，我们将这些文档中的每一个视为相同基础知识的模板视图，并且我们的目标是统一这些文档模板视图的生成和评估。我们首先介绍一种 LLM 支持的方法，从输入文档中提取最重要的信息，并以结构化格式表示该信息。我们证明，这种统一的表示可用于在没有监督和很少指导的情况下生成多个模板视图，从而在强基线上进行改进。我们还引入了一种与模板无关的统一评估方法，可以适用于为异构下游应用程序构建文档生成器。最后，我们进行了人类评估，结果表明人类更喜欢使用我们的方法生成的 82 个下游文档。

MiTTenS: A Dataset for Evaluating Misgendering in Translation
Authors Kevin Robinson, Sneha Kudugunta, Romina Stella, Sunipa Dev, Jasmijn Bastings
性别歧视是指以不反映某人性别身份的方式提及某人的行为。翻译系统，包括能够翻译的基础模型，可能会产生错误，从而导致性别错误的伤害。为了衡量英语翻译时潜在危害的程度，我们引入了一个数据集 MiTTenS，涵盖来自各种语系和脚本的 26 种语言，包括传统上在数字资源中代表性不足的几种语言。该数据集是用针对已知故障模式的手工制作的段落、较长的综合生成的段落以及来自多个领域的自然段落构建的。

PizzaCommonSense: Learning to Model Commonsense Reasoning about Intermediate Steps in Cooking Recipes
Authors Aissatou Diallo, Antonis Bikakis, Luke Dickens, Anthony Hunter, Rob Miller
解码程序文本的核心（以烹饪食谱为例）对于智能推理和指令自动化至关重要。程序文本可以全面定义为使用资源完成任务的一系列顺序步骤。从烹饪的角度来看，这些说明可以解释为对食物准备的一系列修改，食物准备最初包含一组成分。这些变化涉及食物资源的转变。对于有效推理烹饪食谱的模型，它必须准确识别和理解食谱中中间步骤的输入和输出。为了解决这个问题，我们提出了一个新的烹饪食谱语料库，其中丰富了食谱中间步骤的描述，解释了每个步骤的输入和输出。我们讨论数据收集过程，调查并提供基于 T5 和 GPT 3.5 的基线模型。

Comparing GPT-4 and Open-Source Language Models in Misinformation Mitigation
Authors Tyler Vergho, Jean Francois Godbout, Reihaneh Rabbany, Kellin Pelrine
最近的大型语言模型 LLM 已被证明对于错误信息检测是有效的。然而，实验法学硕士的选择差异很大，导致结论不确定。特别是，GPT 4 众所周知在该领域很强大，但它是闭源的，可能很昂贵，并且可能会在不同版本之间表现出不稳定。与此同时，替代法学硕士的结果好坏参半。在这项工作中，我们展示了 Zephyr 7b 提供了一种始终可行的替代方案，克服了 Llama 2 和 GPT 3.5 等常用方法的关键限制。这为研究社区提供了可靠的开源选项，并表明开源模型正在逐渐赶上这项任务。然后，我们重点介绍 GPT 3.5 如何表现出不稳定的性能，以至于这种广泛使用的模型可能会在错误信息检测中提供误导性结果。

DocFinQA: A Long-Context Financial Reasoning Dataset
Authors Varshini Reddy, Rik Koncel Kedziorski, Viet Dac Lai, Chris Tanner
金融领域的定量推理研究确实需要使用现实的任务和数据，这主要是因为商业和金融决策的重大影响。金融专业人士经常与数百页长的文档进行交互，但大多数研究数据集大大缩短了上下文长度。为了解决这个问题，我们引入了一个长文档的财务质量保证任务。我们用完整的文档上下文扩充了现有 FinQA 数据集中的 7,621 个问题，将每个问题的平均上下文长度从 FinQA 中的 700 个单词以下扩展到 DocFinQA 中的 123k 个单词。我们在增强数据上进行了基于检索的 QA 管道和长上下文语言模型的广泛实验。

Promptly Predicting Structures: The Return of Inference
Authors Maitrey Mehta, Valentina Pyatkin, Vivek Srikumar
基于提示的方法已在 NLP 中广泛使用，以构建零和少数镜头标签预测器。许多 NLP 任务都是自然结构化的，即它们的输出由多个相互约束的标签组成。为此类任务注释数据可能很麻烦。基于提示的范式的承诺可以扩展到这种结构化输出吗？在本文中，我们提出了一个构建零和少镜头语言结构预测器的框架。我们的主要见解是，我们可以使用结构约束和从中得出的组合推理来过滤掉大型语言模型预测的不一致结构。我们在两个结构化预测任务和五个数据集上实例化了该框架。

Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data
Authors Yubin Kim, Xuhai Xu, Daniel McDuff, Cynthia Breazeal, Hae Won Park
大型语言模型法学硕士能够完成许多自然语言任务，但它们还远非完美。在健康应用中，基础和解释特定领域的非语言数据非常重要。本文研究了法学硕士根据上下文信息（例如，健康状况）提供多模式健康预测的能力。用户人口统计、健康知识和生理数据，例如静息心率、睡眠分钟数。我们对六个公共卫生数据集 PM Data、LifeSnaps、GLOBEM、AW FB、MIT BIH MIMIC III 上具有不同提示和微调技术的八个最先进的法学硕士进行了全面评估。我们的实验涵盖心理健康、活动、代谢、睡眠和心脏评估等十三个消费者健康预测任务。我们经过微调的模型 Health Alpaca 表现出与较大模型 GPT 3.5 和 GPT 4 相当的性能，在 13 项任务中的 5 项中实现了最佳性能。消融研究强调了上下文增强策略的有效性，以及跨训练数据集和训练样本大小的微调模型的泛化能力。值得注意的是，我们观察到上下文增强可以使性能提高高达 23.8 倍。

Fine-grained Hallucination Detection and Editing for Language Models
Authors Abhika Mishra, Akari Asai, Vidhisha Balachandran, Yizhong Wang, Graham Neubig, Yulia Tsvetkov, Hannaneh Hajishirzi
大型语言模型 LM 很容易生成各种事实上不正确的陈述，这些陈述被广泛称为幻觉。当前的方法主要集中于粗粒度的自动幻觉检测或编辑，忽略了细微的错误级别。在本文中，我们提出了一种自动细粒度幻觉检测的新任务，并提出了包含六种分层定义的幻觉类型的综合分类法。为了便于评估，我们引入了一个新的基准，其中包括对跨不同领域的两个 LM 输出的细粒度人类判断。我们的分析表明，ChatGPT 和 Llama 2 Chat 分别在 60 和 75 个输出中表现出幻觉，其中大多数幻觉属于尚未充分探索的类别。作为解决这个问题的第一步，我们通过仔细设计合成数据生成来训练 FAVA，这是一种检索增强型 LM，用于检测和纠正细粒度幻觉。在我们的基准测试中，我们的自动和人工评估表明，FAVA 在细粒度幻觉检测方面明显优于 ChatGPT，尽管未来仍然存在很大的改进空间。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com