【AI视野·今日NLP 自然语言处理论文速览第六十一期】Tue, 24 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 24 Oct 2023 (showing first 100 of 207 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers
Authors Theo X. Olausson, Alex Gu, Benjamin Lipkin, Cedegao E. Zhang, Armando Solar Lezama, Joshua B. Tenenbaum, Roger Levy
逻辑推理，即从一组前提演绎地推断出结论的真值，是人工智能的一项重要任务，对科学、数学和社会具有广泛的潜在影响。尽管已经提出了许多基于提示的策略来使大型语言模型法学硕士能够更有效地进行此类推理，但它们仍然显得不令人满意，常常以微妙且不可预测的方式失败。在这项工作中，我们研究了重新表述模块化神经符号编程等任务的有效性，我们将其称为通过神经符号计算进行的 LINC 逻辑推理。在 LINC 中，法学硕士充当语义解析器，将前提和结论从自然语言转换为一阶逻辑的表达式。然后，这些表达式被卸载到外部定理证明器，该定理证明器象征性地执行演绎推理。利用这种方法，我们在我们评估的几乎所有实验条件下观察到三种不同模型的 FOLIO 和 ProofWriter 平衡子集的性能显着提升。在 ProofWriter 上，使用 LINC 增强相对较小的开源 StarCoder 15.5B 参数甚至比使用 Chain of Thought CoT 提示的 GPT 3.5 和 GPT 4 分别高出绝对值 38 和 10。与 GPT 4 一起使用时，LINC 在 ProofWriter 上的得分比 CoT 高 26，而在 FOLIO 上的表现则相对较高。进一步的分析表明，尽管两种方法在此数据集上的成功率平均大致相同，但它们表现出不同且互补的故障模式。因此，我们为如何通过联合利用法学硕士和符号证明者来解决自然语言的逻辑推理提供了有希望的证据。

Verb Conjugation in Transformers Is Determined by Linear Encodings of Subject Number
Authors Sophie Hao, Tal Linzen
像 Transformer 这样的深层架构有时会因为具有无法解释的黑盒表示而受到批评。我们使用因果干预分析来表明，事实上，一些语言特征是以线性的、可解释的格式表示的。具体来说，我们表明 BERT 动词共轭的能力依赖于主语编号的线性编码，可以通过对动词共轭准确性的可预测影响进行操作。

S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models
Authors Fangyu Lei, Qian Liu, Yiming Huang, Shizhu He, Jun Zhao, Kang Liu
大型语言模型法学硕士的快速发展导致推理和长上下文理解等模型能力取得了巨大进步。然而，由于法学硕士能够处理更长的上下文，评估他们是否获得了某些能力变得更具挑战性，因为他们可以处理的文本长度（例如，100K 个标记）远远超出了人类在合理持续时间内可以可靠评估的长度。在本文中，我们建议使用复杂的综合任务作为代理评估方法，并提出 S3Eval，一个用于法学硕士评估的综合、可扩展、系统的评估套件。作为综合基准，S3Eval 可以创建理论上法学硕士不可见的任意数量的评估示例，从而减轻测试集污染问题。 S3Eval 的综合性质使用户能够完全控制数据集，使他们能够通过缩放文本长度和跨不同场景改变任务难度来系统地探索 LLM 功能。 S3Eval 性能与 Big Bench Hard BBH 等现实世界基准分数之间的强相关性证明了使用 S3Eval 评估法学硕士的合理性。

Quantifying the Dialect Gap and its Correlates Across Languages
Authors Anjali Kantharuban, Ivan Vuli , Anna Korhonen
从历史上看，研究人员和消费者注意到，当将 NLP 工具应用于少数语言变体（即波多黎各西班牙语或瑞士德语）时，质量会下降，但探索这一问题的研究仅限于少数几种语言。此外，过去的研究主要是在单语背景下进行的，因此尚未确定跨语言趋势并将其与外部因素联系起来。在这项工作中，我们对机器翻译和自动语音识别这两个高使用应用程序中最有影响力、最先进的大型语言模型法学硕士进行了全面评估，以评估它们在几种高资源和低资源语言的地方方言上的功能。此外，我们还分析了地区方言差异与经济、社会和语言因素的关系。训练数据的影响，包括数据集大小及其构建过程等相关因素，被证明是显着的，但在不同模型或语言之间并不一致，这意味着不能采取一刀切的方法来解决方言差距。

Location-Aware Visual Question Generation with Lightweight Models
Authors Nicholas Collin Suwono, Justin Chih Yao Chen, Tun Min Hung, Ting Hao Kenneth Huang, I Bin Liao, Yung Hui Li, Lun Wei Ku, Shao Hua Sun
这项工作引入了一项新颖的任务，即位置感知视觉问题生成 LocaVQG，其目的是从与特定地理位置相关的数据生成引人入胜的问题。具体来说，我们用周围图像和 GPS 坐标来表示此类位置感知信息。为了解决此任务，我们提出了一个数据集生成管道，利用 GPT 4 来生成多样化且复杂的问题。然后，我们的目标是学习一个轻量级模型，该模型可以解决 LocaVQG 任务并适合边缘设备（例如手机）。为此，我们提出了一种可以从位置感知信息可靠地生成引人入胜的问题的方法。我们提出的方法优于人类评估的基线，例如参与度、基础性、一致性和自动评估指标，例如 BERTScore、ROUGE 2 。

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation
Authors Swarnadeep Saha, Omer Levy, Asli Celikyilmaz, Mohit Bansal, Jason Weston, Xian Li
大型语言模型法学硕士经常用于多方面的语言生成和评估任务，这些任务涉及满足复杂的用户约束或考虑多个方面和标准。然而，由于模型缺乏连贯性并且无法规划和分解问题，它们的性能可能会达不到要求。我们提出了 Branch Solve Merge BSM，这是一个大型语言模型程序 Schlag et al., 2023，用于解决此类具有挑战性的自然语言任务。它由分支、求解和合并模块组成，这些模块通过基础 LLM 的特定提示进行参数化。这三个模块计划将任务分解为多个并行的子任务，独立地解决它们，并将解决方案融合到子任务中。我们将我们的方法应用于 LLM 响应评估和约束文本生成的任务，并使用多个 LLM 评估其有效性，包括 Vicuna、LLaMA 2 chat 和 GPT 4。BSM 通过增强人类 LLM 协议来提高每个 LLM 评估的正确性和一致性：最多 26 ，将长度和成对位置偏差减少最多 50 ，并允许 LLaMA 2 聊天在大多数域上匹配或优于 GPT 4。

How To Build Competitive Multi-gender Speech Translation Models For Controlling Speaker Gender Translation
Authors Marco Gaido, Dennis Fucci, Matteo Negri, Luisa Bentivogli
当从概念性别语言（例如英语）翻译成语法性别语言（例如意大利语）时，生成的翻译需要对各种单词进行明确的性别分配，包括那些指代说话者的单词。当源句子没有传达说话者的性别时，语音翻译 ST 模型要么依赖说话者可能误导性的声音特征，要么默认使用现有训练语料库中最常见的男性性别。为了避免这种有偏见和不包容的行为，说话者相关表达的性别分配应该以外部提供的关于说话者性别的元数据为指导。虽然之前的工作表明最有效的解决方案是由单独的、专用的性别特定模型来表示，但本文的目标是通过将说话者的性别元数据集成到单个多性别神经 ST 模型中来实现相同的结果，更易于维护。

Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into the Morphological Capabilities of a Large Language Model
Authors Leonie Weissweiler, Valentin Hofmann, Anjali Kantharuban, Anna Cai, Ritam Dutt, Amey Hengle, Anubha Kabra, Atharva Kulkarni, Abhishek Vijayakumar, Haofei Yu, Hinrich Sch tze, Kemal Oflazer, David R. Mortensen
大型语言模型法学硕士最近达到了令人印象深刻的语言能力水平，促使人们与人类语言技能进行比较。然而，对最新一代法学硕士的语言能力的系统研究相对较少，而那些确实存在的研究忽略了人类卓越的概括能力，只关注英语，而研究语法或语义而忽视了人类语言核心的其他功能，例如形态学。在这里，我们通过对 ChatGPT 在四种类型不同的语言（特别是英语、德语、泰米尔语和土耳其语）中的形态功能进行首次严格分析来缩小这些差距。我们将 Berko 1958 年 wug 测试的一个版本应用于 ChatGPT，对四种检查的语言使用新颖的、未受污染的数据集。我们发现 ChatGPT 的性能远远低于专门构建的系统，尤其是在英语方面。

GRENADE: Graph-Centric Language Model for Self-Supervised Representation Learning on Text-Attributed Graphs
Authors Yichuan Li, Kaize Ding, Kyumin Lee
文本属性图上的自监督表示学习旨在为各种下游任务创建表达性和可概括性的表示，最近受到越来越多的研究关注。然而，现有的方法要么难以捕获结构上下文信息的全部范围，要么依赖于特定于任务的训练标签，这在很大程度上阻碍了它们在实践中的有效性和普遍性。为了解决文本属性图上的自监督表示学习问题，我们开发了一种新颖的以图为中心的语言模型 GRNADE。具体来说，GRNADE 通过使用两种专门的自监督学习算法（以图为中心的对比学习和以图为中心的知识对齐）进行优化，利用了预训练语言模型和图神经网络的协同效应。所提出的以图为中心的自监督学习算法有效地帮助 GRNADE 捕获信息丰富的文本语义以及文本属性图上的结构上下文信息。通过大量的实验，GRENADE 显示了其相对于最先进方法的优越性。

LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis
Authors Shih Chieh Dai, Aiping Xiong, Lun Wei Ku
主题分析TA已广泛应用于许多学科和领域的定性数据分析。为了确保可靠的分析，同一份数据通常会分配给至少两名编码员。此外，为了产生有意义和有用的分析，人类编码人员通过多次迭代来开发和深化他们的数据解释和编码，这使得 TA 劳动密集且耗时。最近，新兴的大语言模型领域的法学硕士研究表明，法学硕士在各种任务中具有复制类人行为的潜力，特别是，法学硕士在文本注释任务上优于人群工作者，这表明法学硕士有机会在助教上利用法学硕士。我们提出了一个人类 LLM 协作框架，即 LLM 在循环中通过上下文学习 ICL 进行 TA。该框架提供了与 LLM 进行讨论的提示，例如 GPT 3.5，以生成 TA 的最终密码本。我们使用有关音乐聆听体验和密码管理器使用方面的调查数据集来演示该框架的实用性。

Affective and Dynamic Beam Search for Story Generation
Authors Tenghao Huang, Ehsan Qasemi, Bangzheng Li, He Wang, Faeze Brahman, Muhao Chen, Snigdha Chaturvedi
讲故事的迷人潜力使其成为一个令人着迷的研究领域，对娱乐、教育、治疗和认知研究都有影响。在本文中，我们提出情感故事生成器 AffGen 来生成有趣的叙述。 AffGen 通过采用动态波束大小调整和情感重新排序这两种新颖的技术，在叙事中引入了有趣的转折。动态 Beam Sizing 使用上下文多臂老虎机模型鼓励难以预测、更具吸引力的单词选择。情感重新排序根据情感强度对候选句子进行优先级排序。我们的自动和人工实证评估表明，AffGen 在生成充满情感和有趣的叙述方面优于现有基线。

'Don't Get Too Technical with Me': A Discourse Structure-Based Framework for Science Journalism
Authors Ronald Cardenas, Bingsheng Yao, Dakuo Wang, Yufang Hou
科学新闻是指将科学论文的技术发现作为技术性较低的新闻文章向公众报道的任务。我们的目标是设计一个自动化系统来支持这个现实世界的任务，即自动科学新闻，通过引入一个新构建的现实世界数据集 SciTechNews ，其中包含公开的科学论文、其相应的新闻文章和专家撰写的简短摘要的元组片段 2 提出了一种新颖的技术框架，该框架将论文的话语结构与其元数据相结合以指导生成，并且 3 通过广泛的自动和人类实验证明我们的框架优于其他基线方法，例如

TableQAKit: A Comprehensive and Practical Toolkit for Table-based Question Answering
Authors Fangyu Lei, Tongxu Luo, Pengqi Yang, Weihao Liu, Hanwen Liu, Jiahe Lei, Yiming Huang, Yifan Wei, Shizhu He, Jun Zhao, Kang Liu
基于表格的问答 TableQA 是自然语言处理中的一项重要任务，它需要理解表格并采用各种推理方式来回答问题。本文介绍了TableQAKit，这是第一个专为TableQA 设计的综合工具包。该工具包设计了一个统一的平台，其中包括大量的 TableQA 数据集，并集成了该任务的流行方法以及大型语言模型 LLM。用户可以根据友好的界面添加自己的数据集和方法。此外，令人惊喜的是，使用此工具包中的模块在某些数据集上实现了新的 SOTA。最后，tableqakit 还提供了一个基于 LLM 的 TableQA Benchmark，用于评估 LLM 在 TableQA 中的作用。

The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained Multimodal Models
Authors Xinyi Chen, Raquel Fern ndez, Sandro Pezzelle
尽管预先训练的语言和视觉模型在下游任务中取得了令人印象深刻的性能，但这是否反映了对图像文本交互的正确理解仍然是一个悬而未决的问题。在这项工作中，我们探讨了他们在多大程度上处理基本语言结构主动被动语态、协调和关系从句，即使是学龄前儿童通常也能掌握这些语言结构。我们提出了 BLA，这是一种新颖的、自动构建的基准，用于评估这些基本语言能力的多模态模型。我们表明，不同类型的基于 Transformer 的系统，例如 CLIP、ViLBERT 和 BLIP2，通常在零样本设置下与 BLA 作斗争，这与之前的发现一致。我们的实验特别表明，大多数测试模型在微调或使用特定构建样本提示时只会略微受益。然而，生成式 BLIP2 显示出有希望的趋势，尤其是在情境学习环境中。

Towards Conceptualization of "Fair Explanation": Disparate Impacts of anti-Asian Hate Speech Explanations on Content Moderators
Authors Tin Nguyen, Jiannan Xu, Aayushi Roy, Hal Daum III, Marine Carpuat
最近关于人工智能可解释性和公平性交叉点的研究主要集中在解释如何提高通过公平性衡量标准评估的人类和人工智能任务绩效。我们建议描述什么构成了本身公平的解释，即不会对特定人群产生不利影响的解释。我们制定了一种新颖的公平解释评估方法，不仅使用准确性和标签时间，还使用解释对不同用户组的心理影响，包括心理不适、刻板印象激活和感知工作量等许多指标。我们在潜在仇恨言论的内容审核及其对亚洲与非亚洲代理审核者的不同影响的背景下应用了这种方法，通过解释方法显着性图和反事实解释。

SLOG: A Structural Generalization Benchmark for Semantic Parsing
Authors Bingzhi Li, Lucia Donatelli, Alexander Koller, Tal Linzen, Yuekun Yao, Najoung Kim
组合泛化基准的目标是评估模型泛化到新的复杂语言表达的效果。现有的基准通常侧重于词汇泛化，对训练结构泛化任务中熟悉的句法结构中的新词汇项的解释，其中模型需要解释本身在训练中不熟悉的句法结构，通常代表性不足，导致对如何进行过于乐观的看法好的模型可以概括。我们引入了 SLOG，这是一个语义解析数据集，它通过 17 个结构泛化案例扩展了 COGS Kim 和 Linzen，2020。在我们的实验中，Transformer 模型（包括预训练模型）的泛化精度仅达到 40.6 ，而结构感知解析器仅达到 70.8 。

Efficient Data Learning for Open Information Extraction with Pre-trained Language Models
Authors Zhiyuan Fan, Shizhu He
开放信息提取 OpenIE 是自然语言处理中的一项基本但具有挑战性的任务，它涉及从给定句子中提取所有三元组主语、谓语、宾语。虽然基于标签的方法有其优点，但基于生成的技术提供了独特的优势，例如生成原始句子中不存在的标记的能力。然而，这些基于生成的方法通常需要大量的训练数据来学习 OpenIE 的任务形式，并需要大量的训练时间来克服由于阶数惩罚而导致的模型收敛缓慢。在本文中，我们介绍了一种新颖的框架OK IE，它巧妙地将OpenIE的任务形式转换为T5模型的预训练任务形式，从而减少了对大量训练数据的需求。此外，我们引入了Anchor的创新概念来控制模型输出的顺序，有效消除了阶数惩罚对模型收敛的影响，并显着减少了训练时间。

Statistical Depth for Ranking and Characterizing Transformer-Based Text Embeddings
Authors Parker Seegmiller, Sarah Masud Preum
基于变压器的文本嵌入的流行需要更好的统计工具来测量此类嵌入的分布。一种这样的工具是一种按中心性对语料库中的文本进行排名的方法，即为每个文本分配一个数字，表示该文本在整个语料库中的代表性。然而，高维文本表示的内在中心向外排序并不是微不足道的。统计深度是通过测量相对于某些观察到的 k 维分布的中心性来对 k 维对象进行排序的函数。我们采用统计深度来测量基于 Transformer 的文本嵌入的分布、基于 Transformer 的文本嵌入 TTE 深度，并介绍该深度在 NLP 管道中建模和分布推理的实际用途。我们首先定义 TTE 深度和相关的秩和测试，以确定两个语料库在嵌入空间中是否存在显着差异。然后，我们使用 TTE 深度来执行上下文学习提示选择的任务，表明该方法在六个文本分类任务中比统计基线方法可靠地提高了性能。

Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models
Authors Matthieu Meeus, Shubham Jain, Marek Rei, Yves Alexandre de Montjoye
随着大型语言模型法学硕士准备融入我们的日常生活，人们开始对他们学习的数据集提出疑问。这些问题的范围从法学硕士可能从其培训数据中保留的潜在偏见或错误信息到版权问题和人类生成文本的合理使用问题。然而，尽管这些问题出现了，但最近最先进的法学硕士的开发人员却越来越不愿意透露其培训语料库的细节。我们在这里介绍现实世界法学硕士的文档级成员资格推断任务，即推断法学硕士在训练期间是否看过给定的文档。首先，我们提出了一个通过利用常用数据源进行培训和模型发布日期来开发和评估法学硕士文档级成员资格推断的程序。然后，我们提出了一种实用的黑盒方法来预测文档级成员资格，并在 OpenLLaMA 7B 上用书籍和学术论文实例化它。我们展示了我们的方法表现非常好，书籍的 AUC 达到了 0.856，论文的 AUC 达到了 0.678。然后，我们展示了我们的方法，该方法优于隐私文献中用于文档级成员资格任务的句子级成员资格推理攻击。我们最终评估较小的模型是否对文档级推理不太敏感，并表明 OpenLLaMA 3B 对我们的方法大约与 OpenLLaMA 7B 一样敏感。

When Language Models Fall in Love: Animacy Processing in Transformer Language Models
Authors Michael Hanna, Yonatan Belinkov, Sandro Pezzelle
实体是否具有生命力和感知能力是认知处理的基础，影响记忆、视觉和语言等领域。然而，英语中的生命力并不总是直接用语言表达，它常常以动词和形容词的选择限制的形式间接表现出来。这给 Transformer 语言模型 LM 带来了一个潜在问题，它们通常只在文本上进行训练，因此无法获得人类从中了解生命力的语言外信息。我们询问这对 LM 的动画处理有何影响，它们的行为是否仍然像人类一样？我们使用开源 LM 来回答这个问题。与之前的研究一样，我们发现当遇到具有典型生命力的实体时，LM 的行为与人类非常相似。然而，我们还表明，即使当呈现关于非典型有生命实体的故事时，例如恋爱中的花生，LM 也会适应，他们将这些实体视为有生命的，尽管它们的适应能力不如人类。即使表明非典型生命力的上下文非常短，LM 也会发现微妙的线索并改变他们的行为。

Simple Hardware-Efficient PCFGs with Independent Left and Right Productions
Authors Wei Liu, Songlin Yang, Yoon Kim, Kewei Tu
通过规则概率张量的低秩参数化将密集 PCFG 扩展到数千个非终结符已被证明有利于无监督解析。然而，以这种方式缩放的 PCFG 作为语言模型仍然表现不佳，甚至低于类似大小的 HMM。这项工作介绍了 emph SimplePCFG ，一种具有独立左右产生式的简单 PCFG 形式。尽管强加了比低秩方法更强的独立性假设，但我们发现这种形式主义作为语言模型和无监督解析器都可以更有效地扩展。作为无监督解析器，我们的简单 PCFG 在英语 PTB 上获得了 65.1 的平均 F1，作为语言模型，它获得了 119.0 的困惑度，优于类似大小的低等级 PCFG。

LLM-Based Agent Society Investigation: Collaboration and Confrontation in Avalon Gameplay
Authors Yihuai Lan, Zhiqiang Hu, Lei Wang, Yang Wang, Deheng Ye, Peilin Zhao, Ee Peng Lim, Hui Xiong, Hao Wang
本文旨在调查揭示基于法学硕士的代理人的社会行为的开放研究问题。为了实现这一目标，我们采用具有代表性的交流游戏Avalon作为环境，并使用系统提示来引导LLM代理玩游戏。虽然之前的研究已经对 LLM 代理的游戏玩法进行了初步调查，但缺乏对其社交行为的研究。在本文中，我们提出了一个新颖的框架，旨在无缝适应 Avalon 游戏玩法。我们提出的框架的核心是一个多代理系统，它可以实现代理之间的有效通信和交互。我们根据赢得比赛和分析 LLM 代理的社交行为两个角度的指标来评估我们框架的性能。我们的结果证明了我们的框架在生成自适应智能代理方面的有效性，并强调了基于法学硕士的代理在解决与动态社会环境交互相关的挑战方面的潜力。

Fidelity-Enriched Contrastive Search: Reconciling the Faithfulness-Diversity Trade-Off in Text Generation
Authors Wei Lin Chen, Cheng Kuang Wu, Hsin Hsi Chen, Chung Chi Chen
在本文中，我们解决了自然语言生成任务中常见的幻觉问题。语言模型通常会生成流畅且令人信服的内容，但可能与所提供的来源缺乏一致性，从而导致潜在的不准确。我们提出了一种称为 Fidelity Enriched Contrastive Search FECS 的新解码方法，它通过上下文感知正则化项增强了对比搜索框架。 FECS 提倡在语义上与所提供的源相似的标记，同时惩罚生成文本中的重复性。我们证明了它在容易产生幻觉的抽象总结和对话生成这两项任务中的有效性。

ACTOR: Active Learning with Annotator-specific Classification Heads to Embrace Human Label Variation
Authors Xinpeng Wang, Barbara Plank
标签聚合（例如多数投票）通常用于解决数据集创建中注释者的分歧。然而，这可能会忽视少数人的价值观和意见。最近的研究表明，从单个注释中学习优于从聚合标签中学习，尽管它们需要大量注释。主动学习作为一种注释成本节省策略，在从分歧中学习的背景下尚未得到充分探索。我们表明，在主动学习环境中，多头模型在不确定性估计方面的表现明显优于单头模型。通过在两个数据集上使用注释器特定头设计和评估采集函数，我们表明组级熵在两个数据集上通常效果良好。

Penalty Decoding: Well Suppress the Self-Reinforcement Effect in Open-Ended Text Generation
Authors Wenhong Zhu, Hongkun Hao, Rui Wang
解码算法对于开放式文本生成、将潜在表示转换为连贯且有意义的输出至关重要。本文研究了文本生成中的自我强化效应以及重复惩罚减轻这种效应的有效性。然而，确定最佳重复惩罚值具有挑战性。为了解决这个问题，我们提出了一种遗忘机制，忽略远处的标记，从而减轻惩罚选择的负担。此外，我们引入了长度惩罚，以解决惩罚过大导致的句子过短的问题。我们的惩罚解码方法结合了三种策略，有助于解决采样方法偏离事实信息的问题。

Towards LLM-driven Dialogue State Tracking
Authors Yujie Feng, Zexin Lu, Bo Liu, Liming Zhan, Xiao Ming Wu
对话状态跟踪 DST 对于确保在面向任务的对话系统中准确跟踪用户目标和系统操作至关重要。 GPT3 和 ChatGPT 等大型语言模型 LLM 的出现引发了人们对评估其在不同应用程序中的有效性的极大兴趣。在本研究中，我们对 ChatGPT 在 DST 方面的功能进行了初步检查。我们的评估揭示了 ChatGPT 在这项任务中的卓越表现，为研究人员提供了有关其功能的宝贵见解，并为设计和增强对话系统提供了有用的指导。尽管其性能令人印象深刻，但 ChatGPT 仍存在重大局限性，包括其闭源性质、请求限制、引发数据隐私问题以及缺乏本地部署功能。为了解决这些问题，我们提出了 LDST，这是一个基于较小的开源基础模型的法学硕士驱动的 DST 框架。通过利用新颖的域槽指令调整方法，LDST 实现了与 ChatGPT 相当的性能。通过对三种不同实验设置的综合评估，我们发现与之前的 SOTA 方法相比，LDST 在零射击和少射击设置方面都表现出了显着的性能改进。

System Combination via Quality Estimation for Grammatical Error Correction
Authors Muhammad Reza Qorib, Hwee Tou Ng
我们开发了质量估计模型，用于在参考或黄金标准修正不可用时评估语法错误修正 GEC 模型所做的修正。通过从 GEC 基础系统提出的所有编辑的联合中选择最佳的编辑子集，可以利用理想的质量估计器来组合多个 GEC 系统的输出。然而，我们发现现有的 GEC 质量估计模型在区分好校正和坏校正方面不够好，导致用于系统组合时 F0.5 分数较低。在本文中，我们提出了 GRECO，这是一种新的最先进的质量估计模型，可以更好地估计更正句子的质量，如与更正句子的 F0.5 分数具有更高的相关性所示。其结果是组合的 GEC 系统具有更高的 F0.5 分数。我们还提出了三种利用 GEC 质量估计模型进行系统组合的方法，其中包括不同的通用性模型不可知论、具有投票偏差的模型不可知论和模型相关方法。

Unveiling A Core Linguistic Region in Large Language Models
Authors Jun Zhao, Zhihao Zhang, Yide Ma, Qi Zhang, Tao Gui, Luhui Gao, Xuanjing Huang
大脑定位描述了大脑特定区域与其相应功能之间的关联，作为一个客观事实在认知科学领域被广泛接受。当今的大型语言模型法学硕士拥有人类水平的语言能力，可以执行需要抽象知识和推理的复杂任务。为了深入理解法学硕士智力涌现的内在机制，本文以大脑定位为原型进行类比研究。我们发现了法学硕士中与语言能力相对应的核心区域，约占模型总参数的 1。该核心区域表现出显着的维度依赖性，即使特定维度上的单个参数的扰动也可能导致语言能力的丧失。此外，我们观察到语言能力的提高并不一定伴随着模型知识水平的提升，这可能意味着存在与语言区域分离的领域知识区域。总的来说，探索法学硕士的职能领域可以深入了解他们的智力基础。

PartialFormer: Modeling Part Instead of Whole
Authors Tong Zheng, Bei Li, Huiwen Bao, Weiqiao Shan, Tong Xiao, Jingbo Zhu
Transformer 前馈神经网络的设计选择导致了巨大的计算和参数开销。在这项工作中，我们强调隐藏维度在设计轻量级 FFN 中的重要性，这是以前架构中经常被忽视的一个因素。在这一原则的指导下，我们引入了 PartialFormer，这是一种参数高效的 Transformer 架构，利用多个较小的 FFN 来减少参数和计算，同时保持基本的隐藏维度。这些较小的 FFN 被集成到多头注意力系统中，以实现有效的协作。我们还提出了定制的头部缩放策略来增强 PartialFormer 的功能。此外，我们提出了类似残差的注意力计算，以改善 PartialFormer 中的深度缩放。对 9 个翻译任务和 1 个抽象摘要任务的广泛实验验证了我们的 PartialFormer 方法的有效性。

Linking Surface Facts to Large-Scale Knowledge Graphs
Authors Gorjan Radevski, Kiril Gashteovski, Chia Chien Hung, Carolin Lawrence, Goran Glava
开放信息提取 OIE 方法以主语关系客体三元组的形式从自然语言文本中提取事实。然而，这些事实仅仅是表面形式，其模糊性阻碍了它们的下游使用，例如，表面短语“迈克尔·乔丹”可能指的是前篮球运动员或大学教授。另一方面，知识图谱知识图谱包含规范的事实，即明确的形式，但它们的覆盖范围受到静态模式的限制，即一组固定的实体和谓词。为了弥补这一差距，我们需要两全其美：自由文本 OIE 的高覆盖率，以及语义精确性，即 KG 的单一性。为了实现这一目标，我们提出了一个具有新颖评估协议的新基准，例如，可以测量粒度三槽级别上的事实链接性能，同时还测量系统是否有能力识别表面形式没有匹配现有的KG。我们对多个基线的广泛评估表明，检测知识图谱之外的实体和谓词比准确链接到现有的实体和谓词更困难，因此需要对这项艰巨的任务进行更多的研究工作。

Air-Decoding: Attribute Distribution Reconstruction for Decoding-Time Controllable Text Generation
Authors Tianqi Zhong, Quan Wang, Jingxuan Han, Yongdong Zhang, Zhendong Mao
可控文本生成 CTG 旨在生成具有所需属性的文本，基于解码时间的方法在该任务上表现出了良好的性能。然而，在本文中，我们首次识别了属性崩溃的现象。当控制强度超过临界值时，会导致生成文本的流畅度迅速下降，导致文本完全无法使用。这种限制阻碍了解码方法在实现高水平可控性方面的有效性。为了解决这个问题，我们提出了一种新颖的轻量级解码框架，名为 Air Decoding。其主要思想是重构属性分布，平衡属性词和非属性词之间的权重，生成更流畅的文本。具体来说，我们通过前缀调整来训练前缀以获得属性分布。然后，我们设计了一种新颖的属性分布重构方法来平衡所获得的分布，并使用重构的分布来指导语言模型的生成，有效地避免了属性崩溃的问题。

Non-autoregressive Streaming Transformer for Simultaneous Translation
Authors Zhengrui Ma, Shaolei Zhang, Shoutao Guo, Chenze Shao, Min Zhang, Yang Feng
同步机器翻译 SiMT 模型经过训练，可在延迟和翻译质量之间取得平衡。然而，训练这些模型以实现高质量同时保持低延迟通常会导致激进预期的趋势。我们认为，此类问题源于大多数现有 SiMT 模型所构建的自回归架构。为了解决这些问题，我们提出了非自回归流 Transformer NAST，它包括单向编码器和具有块内并行性的非自回归解码器。我们使 NAST 能够生成空白令牌或重复令牌来灵活调整其读写策略，并训练它以最大化非单调潜在对齐和基于对齐的延迟损失。

Can ChatGPT Perform Reasoning Using the IRAC Method in Analyzing Legal Scenarios Like a Lawyer?
Authors Xiaoxi Kang, Lizhen Qu, Lay Ki Soon, Adnan Trakic, Terry Yue Zhuo, Patrick Charles Emerton, Genevieve Grant
大型语言模型法学硕士（例如 ChatGPT）由于其处理各种法律任务的新兴能力，最近在法律领域引起了广泛关注。然而，法学硕士是否能够像律师一样分析法律案件并进行推理仍然是未知数。因此，我们构建了一个新的语料库，其中包含与《马来西亚合同法》和《澳大利亚受抚养儿童社会法》相关的场景。 ChatGPT采用IRAC方法对语料库进行分析，IRAC方法是法律专业人士广泛使用的组织法律分析的框架。语料库中的每个场景都以半结构化格式用完整的 IRAC 分析进行注释，以便机器和法律专业人员都能够解释和理解这些注释。此外，我们针对 IRAC 分析对 ChatGPT 进行了首次实证评估，以了解其与法律专业人士分析的吻合程度。

We are Who We Cite: Bridges of Influence Between Natural Language Processing and Other Academic Fields
Authors Jan Philip Wahle, Terry Ruas, Mohamed Abdalla, Bela Gipp, Saif M. Mohammad
自然语言处理 NLP 有望对世界产生重大影响。然而，重大进展也伴随着巨大的风险。解决这些问题需要广泛参与各个研究领域。然而，很少有实证研究研究过去或当前这种参与的状态。在本文中，我们量化了 23 个研究领域与 NLP 之间相互影响的程度。我们分析了 7.7 万篇 NLP 论文、NLP 论文对其他论文的 310 万次引用以及其他论文对 NLP 论文的 180 万次引用。我们发现，与大多数领域不同，NLP 的跨领域参与度（通过我们提出的引文领域多样性指数 CFDI 来衡量）已从 1980 年的 0.58 下降到 2022 年的 0.31，创下历史新低。此外，我们发现 NLP 变得更加孤立，引用的 NLP 论文越来越多，而充当领域之间桥梁的论文却越来越少。 NLP 引用以计算机科学为主，语言学领域的 NLP 引用不足 8 篇，数学和心理学领域的 NLP 引用不足 3 篇。

Assessing Step-by-Step Reasoning against Lexical Negation: A Case Study on Syllogism
Authors Mengyu Ye, Tatsuki Kuribayashi, Jun Suzuki, Goro Kobayashi, Hiroaki Funayama
大型语言模型法学硕士利用逐步推理指令，例如思想链 CoT 提示。在此基础上，从探索的角度来看，他们稳健地执行 CoT 风格推理的能力是令人感兴趣的。在本研究中，我们以否定这一难以处理的核心语言现象为重点，逐步考察法学硕士的推理能力。特别是，我们引入了几种受控设置，例如，在虚构实体的情况下进行推理，以评估模型的逻辑推理能力。

Paraphrase Types for Generation and Detection
Authors Jan Philip Wahle, Bela Gipp, Terry Ruas
当前释义生成和检测的方法严重依赖于单一的一般相似性分数，忽略了语言复杂的语言特性。本文引入了两个新任务，通过考虑特定文本位置的释义类型特定语言扰动来解决这一缺点。我们将这些任务命名为释义类型生成和释义类型检测。我们的结果表明，虽然当前技术在二元分类场景（即释义与否）中表现良好，但细粒度释义类型的包含构成了重大挑战。虽然大多数方法擅长生成和检测一般语义相似内容，但它们无法理解它们操纵的内在语言变量。经过生成和识别释义类型训练的模型也显示出在没有释义类型的情况下任务的改进。此外，扩展这些模型进一步提高了它们理解释义类型的能力。

Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing
Authors Sai Koneru, Miriam Exel, Matthias Huck, Jan Niehues
大型语言模型法学硕士在各种自然语言处理任务中取得了相当大的成功，但他们尚未在神经机器翻译 NMT 方面达到最先进的性能。尽管如此，它们在需要广泛理解和上下文处理的任务中的出色表现显示了它们的翻译潜力。为了利用这些能力，我们研究了使用 LLM 进行 MT 并探索最新的参数高效微调技术。令人惊讶的是，我们最初的实验发现，出于翻译目的的微调甚至会导致性能下降。为了克服这个问题，我们提出了一种替代方法，将 LLM 改编为自动帖子编辑器 APE，而不是直接翻译器。基于法学硕士处理和生成冗长序列的卓越能力，我们还建议将我们的方法扩展到文档级翻译。我们表明，利用 Low Rank Adapter 对 APE 进行微调可以在句子和文档级别指标上产生显着改进，同时推广到域外数据。最值得注意的是，我们在 ContraPro 测试集上达到了 89 的最先进准确率，该测试集专门评估模型在从英语翻译为德语时解决代词歧义的能力。最后，我们研究了一个涉及文档级翻译的手动后期编辑的实际场景，其中提供了参考上下文。

Adaptive Policy with Wait-$k$ Model for Simultaneous Translation
Authors Libo Zhao, Kai Fan, Wei Luo, Jing Wu, Shushu Wang, Ziqian Zeng, Zhongqiang Huang
同步机器翻译 SiMT 需要强大的读写策略以及高质量的翻译模型。传统方法依赖于固定的等待 k 策略与独立的等待 k 转换模型相结合，或者依赖于与转换模型联合训练的自适应策略。在本研究中，我们通过将自适应策略模型与翻译模型解耦，提出了一种更灵活的方法。我们的动机源于这样的观察：独立的多路径等待 k 模型的性能与最先进的 SiMT 方法中使用的自适应策略具有竞争力。具体来说，我们引入了 DaP，一种基于分歧的自适应策略，它根据未来信息导致的翻译分布中的潜在分歧为任何翻译模型做出读写决策。 DaP 使用轻量级参数扩展了冻结等待 k 模型，并且内存和计算效率都很高。

Universal Domain Adaptation for Robust Handling of Distributional Shifts in NLP
Authors Hyuhng Joon Kim, Hyunsoo Cho, Sang Woo Lee, Junyeob Kim, Choonghyun Park, Sang goo Lee, Kang Min Yoo, Taeuk Kim
当将机器学习系统部署到野外时，他们非常希望能够有效地利用陌生领域的先验知识，同时对异常输入发出警报。为了满足这些要求，通用域适应 UniDA 已成为计算机视觉中的一个新颖的研究领域，重点是实现适应能力和鲁棒性，即检测分布样本的能力。虽然 UniDA 在计算机视觉领域取得了重大进展，但其在语言输入方面的应用尽管具有可行性，但仍需要探索。在本文中，我们提出了一个全面的自然语言基准，为模型的通用性和鲁棒性提供了全面的观点。我们的基准包含具有不同难度级别和特征的多个数据集，包括时间变化和不同的领域。在我们的测试平台之上，我们验证了来自计算机视觉的现有 UniDA 方法和来自 NLP 文献的最先进的领域适应技术，产生了有价值的发现我们观察到最初为图像输入设计的 UniDA 方法可以有效地转移到自然语言领域，同时也

Transparency at the Source: Evaluating and Interpreting Language Models With Access to the True Distribution
Authors Jaap Jumelet, Willem Zuidema
我们提出了一种用于训练、评估和解释神经语言模型的设置，该模型使用人工的语言类数据。数据是使用基于状态分割 PCFG 的大规模概率语法生成的，该语法本身源自大型自然语言语料库，但也为我们提供了对生成过程的完全控制。我们描述并发布语法和语料库，并测试生成数据的自然性。这种方法允许我们定义封闭形式表达式，以使用因果语言模型和屏蔽语言模型有效地计算可获得的困惑度的精确下限。我们的结果表明，神经语言建模架构和训练目标之间在逼近困惑度下限的程度方面存在显着差异。我们的方法还允许我们直接将学习到的表示与底层源中的符号规则进行比较。我们尝试了各种技术来解释模型行为和学习动态。

Characterizing how 'distributional' NLP corpora distance metrics are
Authors Samuel Ackerman, George Kour, Eitan Farchi
矢量嵌入文本文档的语料库具有一定的经验分布。给定两个语料库，我们想要计算它们之间的单个距离度量，例如 Mauve、Frechet Inception。我们描述了此类指标的抽象质量，称为分布性。非分布度量倾向于使用非常局部的测量，或者以不完全反映分布真实距离的方式使用全局测量。例如，如果个体成对最近邻距离较低，则它可能会判断两个语料库具有较低距离，即使它们的两个分布实际上彼此相距很远。相反，更具分布性的度量将更好地捕获总体距离的分布。我们通过从两个释义语料库构建已知相似性语料库集并计算配对语料库之间的距离来量化这种质量。随着集合元素分离增加的距离趋势形状应该量化度量的分布性。

ALCUNA: Large Language Models Meet New Knowledge
Authors Xunjian Yin, Baizhou Huang, Xiaojun Wan
随着 NLP 的快速发展，大规模语言模型法学硕士现在在跨多个领域的各种任务中表现出色。然而，现有的基准可能无法充分衡量这些模型的功能，特别是在面对新知识时。在本文中，我们解决了缺乏评估法学硕士处理新知识的能力的基准问题，这是快速发展的世界中一个重要且具有挑战性的方面。我们提出了一种称为 KnowGen 的方法，它通过改变现有实体属性和关系来生成新知识，从而产生与现实世界实体不同的人造实体。通过 KnowGen，我们引入了名为 ALCUNA 的基准来评估法学硕士在知识理解、区分和关联方面的能力。我们对几位法学硕士进行了基准测试，发现他们在面对新知识时的表现并不令人满意，特别是在新知识和内部知识之间的推理方面。我们还探讨了实体相似性对模型对实体知识的理解的影响以及上下文实体的影响。

Analyzing Multilingual Competency of LLMs in Multi-Turn Instruction Following: A Case Study of Arabic
Authors Sabri Boughorbel, Majd Hawasly
虽然在跨各种任务对大型语言模型法学硕士进行基准测试方面取得了重大进展，但缺乏对其响应阿拉伯语等不常测试的语言的多轮指令的能力的全面评估。我们的论文详细检查了开放式法学硕士在这种情况下用阿拉伯语的熟练程度。利用 MT Bench 基准套件的定制阿拉伯语翻译，我们采用 GPT 4 作为英语和阿拉伯语查询的统一评估器，以评估和比较法学硕士在各种开放式任务上的表现。我们的研究结果揭示了当用英语或阿拉伯语指导时，模型对不同任务类别（例如逻辑与读写能力）的反应存在差异。我们发现，使用多语言和多回合数据集进行微调的基础模型可能比在多语言数据上从头开始训练的模型更具竞争力。

Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation
Authors Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Naoyuki Kanda, Jinyu Li, Yashesh Gaur
全球交流和跨语言互动的增加推动了对即时口语转录和翻译的需求不断增长。这使得提供多种语言的翻译对于用户应用程序至关重要。传统的自动语音识别 ASR 和语音翻译 ST 方法通常依赖于单独的系统，导致计算资源效率低下，并增加了实时同步的复杂性。在本文中，我们提出了一种流式 Transformer Transducer T T 模型，能够使用单个解码器联合生成多对一和一对多转录和翻译。我们引入了一种基于时间戳信息的联合令牌级序列化输出训练的新颖方法，以在流设置中有效地产生 ASR 和 ST 输出。

Cross-Modal Conceptualization in Bottleneck Models
Authors Danis Alukaev, Semen Kiselev, Ilya Pershin, Bulat Ibragimov, Vladimir Ivanov, Alexey Kornaev, Ivan Titov
概念瓶颈模型 CBM 假设训练示例（例如 X 射线图像）用高级概念（例如异常类型）进行注释，并通过首先预测概念，然后根据这些概念预测标签来执行分类。使用 CBM 的主要困难在于必须选择可预测标签的概念，然后必须用这些概念来标记训练示例。在我们的方法中，我们采用更温和的假设，而是使用文本描述（例如放射学报告）以及训练中的图像来指导概念的归纳。我们的跨模态方法将概念视为离散潜在变量，并推广以下概念： 1 可以预测标签，2 可以从图像和文本中可靠地预测。通过对从合成数据集（例如具有生成描述的合成图像到真实医学成像数据集）的数据集进行的实验，我们证明跨模态学习鼓励引入可解释的概念，同时也促进解开。

Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages
Authors Libo Qin, Qiguang Chen, Fuxuan Wei, Shijue Huang, Wanxiang Che
思想链CoT能够引出模型显式地生成推理路径，从而提高推理准确性并引起越来越多的关注。具体来说，零样本 CoT 通过简单地用“让我们一步一步思考”的提示来指导法学硕士，就在广泛的推理任务中取得了显着的进步。尽管零样本 CoT 取得了成功，但现有的零样本提示技术仍然仅限于单一语言，这使得推广到其他语言具有挑战性并阻碍了全球发展。在这项工作中，我们引入了跨语言提示 CLP ，旨在改进跨语言的零样本 CoT 推理。具体来说，CLP 由两个主要组成部分组成：1 跨语言对齐提示和 2 任务特定求解器提示。跨语言对齐提示负责对齐不同语言之间的表示，而特定于任务的求解器提示用于生成推理任务的最终思想链和结果。此外，我们进一步引入跨语言自洽提示 CLSP 来集成跨语言的不同推理路径。我们对多个基准的实验评估表明，CLP 和 CLSP 显着优于现有的提示方法，并实现了最先进的性能。

What do Deck Chairs and Sun Hats Have in Common? Uncovering Shared Properties in Large Concept Vocabularies
Authors Amit Gajbhiye, Zied Bouraoui, Na Li, Usashi Chatterjee, Luis Espinosa Anke, Steven Schockaert
概念在许多应用中起着核心作用。这包括必须在没有句子上下文的情况下对概念进行建模的设置。因此，之前的工作主要集中在从语言模型中提取脱离语境的概念嵌入。但概念可以从不同的角度进行建模，而概念嵌入通常主要捕获分类结构。为了解决这个问题，我们提出了一种策略，用于从潜在的大量概念词汇中识别不同概念与其他概念的共同点。然后，我们根据概念与其他概念共享的属性来表示概念。为了证明这种概念建模方式的实际用途，我们考虑超精细实体类型的任务，这是一个具有挑战性的多标签分类问题。

Geographical Erasure in Language Generation
Authors Pola Schw bel, Jacek Golebiowski, Michele Donini, C dric Archambeau, Danish Pruthi
大型语言模型法学硕士编码大量的世界知识。然而，由于这些模型是根据大量互联网数据进行训练的，因此它们面临过度捕获有关主导群体的信息的风险。这种不平衡可以传播到生成的语言中。在这项工作中，我们研究并实施了一种地理擦除形式，其中语言模型低估了某些国家。我们展示了一系列法学硕士中一致的删除实例。我们发现，删除与训练语料库中提及国家/地区的频率较低密切相关。

Evaluating the Knowledge Base Completion Potential of GPT
Authors Blerta Veseli, Simon Razniewski, Jan Christoph Kalo, Gerhard Weikum
结构化知识库 KB 是搜索引擎和其他应用程序的资产，但不可避免地不完整。语言模型 LM 已被提议用于无监督知识库补全 KBC，但是，它们大规模且高精度地完成此操作的能力仍然是一个悬而未决的问题。之前的实验研究大多不足，因为它们只评估流行的主题，或者从知识库中采样已经存在的事实。在这项工作中，我们对 GPT 完成最大公共 KB 维基数据的潜力进行了仔细评估。我们发现，尽管 GPT 3、ChatGPT 和 GPT 4 等模型具有规模和功能，但在这项任务上并未取得完全令人信服的结果。尽管如此，与早期使用较小 LM 的方法相比，它们提供了坚实的改进。

SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for Social Media NLP Research
Authors Dimosthenis Antypas, Asahi Ushio, Francesco Barbieri, Leonardo Neves, Kiamehr Rezaee, Luis Espinosa Anke, Jiaxin Pei, Jose Camacho Collados
尽管具有相关性，但与通用模型、指标和基准相比，社交媒体 NLP 的成熟度还是相形见绌。这种分散的格局使得社区很难知道，例如，给定一个任务，哪个是性能最好的模型以及它与其他模型的比较如何。为了缓解这个问题，我们引入了社交媒体 NLP 评估的统一基准 SuperTweetEval，其中包括从头开始组合、调整和构建的一组异构任务和数据集。

MCC-KD: Multi-CoT Consistent Knowledge Distillation
Authors Hongzhan Chen, Siyue Wu, Xiaojun Quan, Rui Wang, Ming Yan, Ji Zhang
大型语言模型法学硕士通过思想链 CoT 提示展示了复杂推理的卓越能力。最近，人们越来越有兴趣将这些推理能力从法学硕士转移到更小的模型上。然而，实现原理的多样性和一致性是一个挑战。在本文中，我们专注于增强这两方面，并提出 Multi CoT 一致性知识蒸馏 MCC KD 来有效地蒸馏推理能力。在 MCC KD 中，我们为每个问题生成多个基本原理，并通过最小化答案分布之间的双向 KL 散度来强制相应预测之间的一致性。我们研究了 MCC KD 与不同模型架构 LLaMA FlanT5 和各种模型规模 3B 7B 11B 13B 在数学推理和常识推理基准上的有效性。

Unleashing the potential of prompt engineering in Large Language Models: a comprehensive review
Authors Banghao Chen, Zhaofeng Zhang, Nicolas Langren , Shengxin Zhu
本文深入探讨了即时工程在释放大型语言模型法学硕士能力方面的关键作用。即时工程是为法学硕士构建输入文本的过程，也是优化法学硕士效率的一项不可或缺的技术。这项调查阐明了提示工程的基本原理，例如角色提示、一次提示和少量提示，以及更先进的方法，例如思想链和思想树提示。该论文阐明了插件形式的外部协助如何协助完成此任务，并通过检索外部知识来减少机器幻觉。随后，我们描绘了即时工程研究的前瞻性方向，强调需要更深入地了解人工智能生成内容 AIGC 工具中的结构和代理的作用。我们讨论如何从不同角度、使用不同方法来评估提示方法的有效性。最后，我们收集了即时工程在教育和编程等领域的应用信息，展示了其变革潜力。

Generating Prototypes for Contradiction Detection Using Large Language Models and Linguistic Rules
Authors Maren Pielka, Svetlana Schmidt, Rafet Sifa
我们引入了一种用于矛盾检测的新颖数据生成方法，该方法利用大型语言模型和语言规则的生成能力。我们的愿景是提供一个浓缩的原型矛盾语料库，允许深入的语言分析以及高效的语言模型微调。为此，我们指示生成模型根据特定矛盾类型的描述创建矛盾的陈述。此外，该模型还被要求提出全新的矛盾类型。作为辅助方法，我们使用语言规则来构造简单的矛盾，例如由否定、反义词和数字不匹配引起的矛盾。我们发现我们的方法在数据的一致性和多样性方面产生了有希望的结果。

A Survey on LLM-gernerated Text Detection: Necessity, Methods, and Future Directions
Authors Junchao Wu, Shu Yang, Runzhe Zhan, Yulin Yuan, Derek F. Wong, Lidia S. Chao
大型语言模型LLM所产生的理解、遵循和生成复杂语言的强大能力使得LLM生成的文本以令人难以置信的速度充斥我们日常生活的许多领域，并被人类广泛接受。随着法学硕士的不断扩展，迫切需要开发能够检测法学硕士生成文本的检测器。这对于减少法学硕士的潜在滥用并保护艺术表达和社交网络等领域免受法学硕士生成内容的有害影响至关重要。 LLM生成的文本检测旨在辨别一段文本是否由LLM生成，这本质上是一个二元分类任务。最近，在水印技术、零样本方法、精细转动 LM 方法、对抗性学习方法、LLM 作为检测器和人工辅助方法等创新的推动下，检测器技术取得了显着的进步。在本次调查中，我们整理了该领域的最新研究突破，并强调了加强探测器研究的迫切需要。我们还深入研究流行的数据集，阐明它们的局限性和发展要求。此外，我们分析了各种 LLM 生成的文本检测范例，揭示了分布问题、潜在攻击和数据模糊性等挑战。最后，我们强调了 LLM 生成文本检测未来研究的有趣方向，以推进负责任的人工智能 AI 的实施。

Once Upon a $\textit{Time}$ in $\textit{Graph}$: Relative-Time Pretraining for Complex Temporal Reasoning
Authors Sen Yang, Xin Li, Lidong Bing, Wai Lam
我们的物理世界随着时间的推移不断发展，这给预先训练的语言模型理解和推理文本的时间上下文带来了挑战。现有的工作重点是加强一段文本与其时间戳之间的直接关联。然而，知识时间关联通常不足以满足需要对知识之间的时间依赖关系进行推理的下游任务。在这项工作中，我们利用时间的基本性质，所有时间范围的句子都通过一维时间轴串在一起，并建议根据事件沿时间轴的相对位置创建一个图形结构。受图视图的启发，我们提出了 RemeMo underline Re lative Ti underline me underline Mo deling ，它通过对任意两个句子之间的时间关系进行建模来明确连接所有时间范围的事实。实验结果表明，RemeMo 在各种设置下的多个时间问答数据集上优于基线 T5。进一步的分析表明，RemeMo 特别擅长对长期复杂的时间依赖性进行建模。

Strong and Efficient Baselines for Open Domain Conversational Question Answering
Authors Andrei C. Coman, Gianni Barlacchi, Adri de Gispert
与开放域问答 ODQA 设置不同，会话 ODConvQA 域在重新评估效率和有效性基线时受到的关注有限。在本文中，我们研究了最先进的 SotA 密集通道检索 DPR 检索器和解码器 FiD 读取器管道中的融合，并表明由于各种限制，它在应用于 ODConvQA 任务时表现明显不佳。然后，我们通过在检索器和阅读器之间引入快速重新排序组件，并执行有针对性的微调步骤，提出并评估强大而简单且高效的基线。对两个 ODConvQA 任务（即 TopiOCQA 和 OR QuAC）的实验表明，我们的方法提高了 SotA 结果，同时将读取器的延迟减少了 60 。

The continued usefulness of vocabulary tests for evaluating large language models
Authors Gonzalo Mart nez, Javier Conde, Elena Merino G mez, Beatriz Berm dez Margaretto, Jos Alberto Hern ndez, Pedro Reviriego, Marc Brysbaert
Landauer 和 Dumain 1997 年在其关于语义向量的开创性文章中提出，通过具有挑战性的词汇测试来测试 AI 语言模型的质量。我们表明，他们的英语作为外语的托福测试对于当代主要语言模型仍然提供信息，因为没有一个模型是完美的并且在不同的项目上犯了错误。托福考试由目标词组成，并有四种可供选择的选项。我们在“是否”测试中进一步测试了模型，该测试需要区分现有单词和组成的非单词。这些模型在非单词项目上的表现明显较差，这与当前主要语言模型提供不存在信息的其他观察结果一致。当我们将测试推广到西班牙语时，情况变得更糟。在这里，大多数模型给出了大多数随机字母序列的含义翻译。

Tree of Clarifications: Answering Ambiguous Questions with Retrieval-Augmented Large Language Models
Authors Gangwoo Kim, Sungdong Kim, Byeongguk Jeon, Joonsuk Park, Jaewoo Kang
开放域问答中的问题通常是模棱两可的，允许多种解释。处理这些问题的一种方法是识别模棱两可的问题 AQ 的所有可能解释，并生成解决所有问题的长格式答案，如 Stelmakh 等人，2022 年所建议的。虽然它提供了全面的响应，而无需打扰用户进行澄清，但考虑歧义的多个维度并收集相应的知识仍然是一个挑战。为了应对这一挑战，我们提出了一个新颖的框架，Tree of Clarifications ToC，它通过利用外部知识的少量镜头提示，递归地构建 AQ 的消歧树，并使用它生成长格式答案。 ToC 在指标的几个镜头设置中优于 ASQA 的现有基线，同时在 Disambig F1 和 Disambig ROUGE 方面超过了在整个训练集上训练的完全监督基线。

API-Assisted Code Generation for Question Answering on Varied Table Structures
Authors Yihan Cao, Shuyi Chen, Ryan Liu, Zhiruo Wang, Daniel Fried
通过生成可执行程序对表问答 TableQA 的持续挑战是适应不同的表结构，通常需要特定于域的逻辑形式。为此，本文引入了一个统一的 TableQA 框架，该框架 1 为结构化表提供统一表示作为多索引 Pandas 数据帧，2 使用 Python 作为强大的查询语言，3 使用很少的镜头提示将 NL 问题翻译成 Python 程序，这可以在 Pandas 数据帧上执行。此外，为了通过扩展的程序功能和外部知识回答复杂的关系问题，我们的框架允许 Python 程序可以调用的自定义 API。我们对四个 TableQA 数据集进行了实验，这些数据集涉及不同结构的关系表、多表和分层矩阵形状，并比过去最先进的系统取得了显着的改进。

SpEL: Structured Prediction for Entity Linking
Authors Hassan S. Shavarani, Anoop Sarkar
实体链接是一个重要的研究方向，专注于通过将文本范围链接到本体或知识源来创建结构化数据。我们重新审视实体链接的结构化预测的使用，它将每个单独的输入标记分类为实体，并聚合标记预测。我们的系统称为 SpEL 实体链接结构化预测，是最先进的实体链接系统，它使用一些新想法将结构化预测应用于实体链接任务，包括两个精细的微调步骤、上下文敏感预测聚合策略、减小大小模型的输出词汇表，我们解决了实体链接系统中存在训练与推理标记化不匹配的常见问题。我们的实验表明，在链接到维基百科的实体的常用 AIDA 基准数据集上，我们可以超越现有技术。

Pre-Trained Language Models Augmented with Synthetic Scanpaths for Natural Language Understanding
Authors Shuwen Deng, Paul Prasse, David R. Reich, Tobias Scheffer, Lena A. J ger
人类凝视数据提供反映自然语言理解的认知信息。事实上，事实证明，用人类扫描路径增强语言模型对于一系列 NLP 任务（包括语言理解）是有益的。然而，这种方法的适用性受到阻碍，因为文本语料库的丰富性与注视数据的稀缺性形成鲜明对比。尽管在阅读过程中生成类人扫描路径的模型已经开发出来，但跨 NLP 任务的合成注视数据的潜力在很大程度上仍未得到探索。我们开发了一个模型，将合成扫描路径生成与扫描路径增强语言模型集成在一起，从而消除了对人类注视数据的需求。由于模型的误差梯度可以传播到模型的所有部分，因此扫描路径生成器可以针对下游任务进行微调。我们发现，所提出的模型不仅优于底层语言模型，而且达到了与使用真实人类凝视数据增强的语言模型相当的性能。

Reasoning about Ambiguous Definite Descriptions
Authors Stefan F. Schouten, Peter Bloem, Ilia Markov, Piek Vossen
自然语言推理在提高语言模型解决复杂语言理解任务的能力方面发挥着越来越重要的作用。推理的一个有趣的用例是解决上下文相关的歧义。但没有资源可以评估大型语言模型如何使用显式推理来解决语言中的歧义。我们建议为此目的使用模糊的明确描述，并创建和发布由此类短语组成的第一个基准数据集。我们的方法包括解决提示中的歧义所需的所有信息，这意味着模型除了推理之外不需要任何其他信息。我们发现这对于最近的法学硕士来说是一项具有挑战性的任务。

SPRING-INX: A Multilingual Indian Language Speech Corpus by SPRING Lab, IIT Madras
Authors Nithya R, Malavika S, Jordan F, Arjun Gangwar, Metilda N J, S Umesh, Rithik Sarab, Akhilesh Kumar Dubey, Govind Divakaran, Samudra Vijaya K, Suryakanth V Gangashetty
印度拥有多种语言，其中 22 种语言被印度宪法承认为官方语言。由于数据有限以及需要容纳的语言和口音的数量，为印度人口构建基于语音的应用程序是一个难题。为了鼓励语言技术社区以印度语言构建基于语音的应用程序，我们开源 SPRING INX 数据，该数据拥有约 2000 小时合法来源和手动转录的语音数据，用于阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥迪亚语、旁遮普语和泰米尔语。这项工作由印度马德拉斯理工学院 SPRING 实验室进行，是国家语言翻译任务 NLTM 的一部分，由印度政府印度电子和信息技术部 MeitY 资助。

Multilingual k-Nearest-Neighbor Machine Translation
Authors David Stap, Christof Monz
k 最近邻机器翻译通过创建缓存示例的数据存储，展示了机器翻译质量的显着改进。然而，这些改进仅限于具有大型数据存储的高资源语言对，并且对于低资源语言仍然是一个挑战。在本文中，我们通过将多种语言的表示组合到单个数据存储中来解决这个问题。我们的结果一致表明，不仅在高达 3.6 BLEU 的低资源翻译质量方面得到了显着改进，而且在高达 0.5 BLEU 的高资源翻译质量方面也取得了显着的改进。

Extending Input Contexts of Language Models through Training on Segmented Sequences
Authors Petros Karypis, Julian McAuley, George Karypis
在长输入上有效训练语言模型带来了许多技术挑战。出于成本考虑，语言模型在适应更长的序列之前先在固定的序列长度上进行预训练。我们探索了通过对分段序列进行训练来使模型适应更长输入的各种方法以及用于扩展绝对位置嵌入的基于插值的方法。我们开发了一种训练程序来扩展预训练模型的输入上下文大小，与原始输入长度的训练相比，无需更改架构，也无需额外的内存成本。通过从长输入中对片段进行子采样，同时保持其原始位置，模型能够学习新的位置交互。我们的方法通过扩展其输入上下文，使使用绝对位置嵌入训练的模型受益，并且流行的相对位置嵌入方法显示出比训练长度更长的序列的困惑度降低。

Plan, Verify and Switch: Integrated Reasoning with Diverse X-of-Thoughts
Authors Tengxiao Liu, Qipeng Guo, Yuqing Yang, Xiangkun Hu, Yue Zhang, Xipeng Qiu, Zheng Zhang
由于大型语言模型LLM在不同的提示方法（例如思想链、思维程序）上表现出了有效性，我们发现这些方法在数学推理任务上形成了很大的互补性。在这项工作中，我们提出了 XoT，这是一种通过促使法学硕士具有多样化推理思维的综合问题解决框架。对于每个问题，XoT 总是从选择最合适的方法开始，然后迭代执行每个方法。在每次迭代中，XoT 都会主动检查生成答案的有效性，并结合外部执行器的反馈，使其能够在不同的提示方法之间动态切换。通过对 10 个流行的数学推理数据集进行广泛的实验，我们证明了我们提出的方法的有效性，并彻底分析了每个模块的优势。此外，实证结果表明，我们的框架与最近的工作正交，该工作对单一推理方法进行了改进，并且可以进一步推广到逻辑推理领域。

CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster Tweet Classification
Authors Henry Peng Zou, Yue Zhou, Cornelia Caragea, Doina Caragea
Twitter 和 Facebook 等社交媒体平台上共享的有关自然灾害的实时信息在向志愿者、应急管理人员和响应组织提供信息方面发挥着至关重要的作用。然而，用于监测灾害事件的监督学习模型需要大量带注释的数据，这使得它们在灾害事件中实时使用是不现实的。为了应对这一挑战，我们在半监督、少镜头学习设置下提出了一种细粒度的灾难推文分类模型，其中仅需要少量注释数据。我们的模型 CrisisMatch 使用少量标记数据和大量未标记数据，有效地将推文分类为细粒度的感兴趣类别，模仿灾难的早期阶段。通过整合有效的半监督学习思想并结合 TextMixUp，CrisisMatch 在两个灾难数据集上实现了平均 11.2 的性能提升。

Conversational Recommender System and Large Language Model Are Made for Each Other in E-commerce Pre-sales Dialogue
Authors Yuanxing Liu, Wei Nan Zhang, Yifan Chen, Yuchi Zhang, Haopeng Bai, Fan Feng, Hengbin Cui, Yongbin Li, Wanxiang Che
电子商务售前对话旨在了解并引出用户对所寻找商品的需求和偏好，从而提供适当的推荐。对话式推荐系统 CRS 学习用户表示并根据对话上下文提供准确的推荐，但依赖于外部知识。大型语言模型法学硕士在微调后生成模仿售前对话的响应，但缺乏准确推荐的特定领域知识。直观上，LLM和CRS在电子商务售前对话中的优势是互补的，但之前的工作没有对此进行探讨。本文研究了LLM和CRS结合在电子商务售前对话中的有效性，提出了CRS辅助LLM和LLM辅助CRS两种协作方法。我们对现实世界的电子商务售前对话数据集进行了广泛的实验。我们分析了两个 CRS 和两个 LLM 的两种协作方法对电子商务售前对话的四项任务的影响。

CoF-CoT: Enhancing Large Language Models with Coarse-to-Fine Chain-of-Thought Prompting for Multi-domain NLU Tasks
Authors Hoang H. Nguyen, Ye Liu, Chenwei Zhang, Tao Zhang, Philip S. Yu
虽然思维链提示在推理任务中很流行，但它在自然语言理解 NLU 中的大型语言模型法学硕士中的应用仍在探索中。受法学硕士多步骤推理的启发，我们提出了从粗到细的思想链 CoF CoT 方法，该方法将 NLU 任务分解为多个推理步骤，法学硕士可以学习获取和利用基本概念来解决不同粒度的任务。此外，我们建议利用基于语义的抽象含义表示 AMR 结构化知识作为中间步骤，以捕获话语的细微差别和不同结构，并理解其不同粒度级别之间的联系。

Efficient Cross-Task Prompt Tuning for Few-Shot Conversational Emotion Recognition
Authors Yige Xu, Zhiwei Zeng, Zhiqi Shen
会话中的情绪识别 ERC 由于其在开发情绪感知移情机器方面的重要性而得到了广泛的研究。预训练语言模型 PLM 的兴起进一步突破了 ERC 性能的极限。然而，最近使用 PLM 进行 ERC 的工作很大程度上是数据驱动的，并且需要对整个 PLM 进行微调。为了提高样本和计算效率，我们提出了一种称为跨任务提示调整 CTPT 的无导数优化方法，用于少量镜头会话情感识别。与从单个任务中学习独立知识的现有方法不同，CTPT 通过利用来自其他源任务的外部知识来利用可共享的跨任务知识，以提高少数镜头设置下的学习性能。此外，CTPT只需要在低固有维数下优化向量，无需梯度，与现有方法相比，参数效率很高。

Long Short-Term Planning for Conversational Recommendation Systems
Authors Xian Li, Hongguang Shi, Yunfei Wang, Yeqin Zhang, Xubin Li, Cam Tu Nguyen
在会话推荐系统CRS中，核心问题是会话代理如何自然地询问用户偏好并提供合适的推荐。现有的工作主要遵循分层架构，其中更高的策略决定是调用对话模块提出问题还是调用推荐模块进行推荐。这种架构阻止这两个组件完全交互。相比之下，本文提出了一种新颖的架构，即长期短期反馈架构，来连接 CRS 中的这两个基本组件。具体来说，推荐基于会话上下文和用户历史来预测长期推荐目标。在有针对性的推荐的驱动下，会话模型会预测下一个主题或属性，以验证用户偏好是否与目标匹配。

Investigating the Fairness of Large Language Models for Predictions on Tabular Data
Authors Yanchen Liu, Srishti Gautam, Jiaqi Ma, Himabindu Lakkaraju
最近的文献表明了使用大型语言模型法学硕士对表格任务进行预测的潜力。然而，法学硕士已被证明表现出有害的社会偏见，反映了社会中存在的刻板印象和不平等。为此，以及表格数据在许多高风险应用中的广泛使用，有必要探讨以下问题：法学硕士在对表格任务进行预测时利用哪些信息源，法学硕士预测是否以及在多大程度上适用于受社会偏见和刻板印象影响的表格任务以及对公平性的间接影响是什么通过一系列实验，我们深入研究了这些问题，并表明法学硕士倾向于从他们的训练数据中继承社会偏见，这极大地影响了他们在表格预测任务中的公平性。此外，我们的研究表明，在偏差缓解的背景下，尽管在上下文学习和微调中具有中等效果，但不同子组之间的公平性度量差距仍然大于传统机器学习模型（例如随机森林和浅层神经网络）网络。这一观察结果强调，社会偏见是法学硕士本身固有的，并且是从他们的预训练语料库继承的，而不仅仅是从下游任务数据集继承的。

M2DF: Multi-grained Multi-curriculum Denoising Framework for Multimodal Aspect-based Sentiment Analysis
Authors Fei Zhao, Chunhui Li, Zhen Wu, Yawen Ouyang, Jianbing Zhang, Xinyu Dai
基于多模态方面的情感分析 MABSA 是一项细粒度的情感分析任务，最近引起了越来越多的研究兴趣。现有工作主要利用图像信息来提高 MABSA 任务的性能。然而，大多数研究都高估了图像的重要性，因为数据集中存在许多与文本无关的噪声图像，这会对模型学习产生负面影响。尽管有些工作尝试通过设置阈值来过滤低质量噪声图像，但依赖阈值不可避免地会过滤掉很多有用的图像信息。因此，在这项工作中，我们关注的是是否可以在不修改数据的情况下减少噪声图像的负面影响。为了实现这一目标，我们借鉴课程学习的思想，提出了一种多粒度多课程去噪框架M2DF，它可以通过调整训练数据的顺序来实现去噪。

Generative Pre-trained Transformer for Vietnamese Community-based COVID-19 Question Answering
Authors Tam Minh Vo, Khiem Vinh Tran
最近的研究提供了经验证据，证明了生成式预训练 Transformer GPT（一种预训练语言模型）在自然语言处理领域的广泛潜力。 GPT 已被有效地用作最先进的 SOTA 问答系统中的解码器，在各种任务中产生卓越的性能。然而，目前有关 GPT 在越南语应用的研究前景仍然有限。本文旨在通过提出基于社区的问答的 GPT 2 实现来解决这一差距，特别关注越南语中与 COVID 19 相关的查询。我们通过对基于社区的 COVID 19 问答数据集中的不同 Transformer 与 SOTA 模型进行比较分析，引入了一种新颖的方法。

Prefix-Tuning Based Unsupervised Text Style Transfer
Authors Huiyu Mai, Wenhao Jiang, Zhihong Deng
无监督文本样式迁移旨在训练一个生成模型，该模型可以改变输入句子的样式，同时保留其内容，而不使用任何并行数据。在本文中，我们采用强大的预训练大型语言模型，并提出了一种新的基于前缀调整的无监督文本样式迁移方法。我们构造了三种不同类型的前缀，即 textit 共享前缀、样式前缀和 textit 内容前缀，分别对任务特定信息、目标样式和输入句子的内容信息进行编码。与之前的作品使用的嵌入相比，所提出的前缀可以为模型提供更丰富的信息。此外，我们在风格迁移过程中采用了使用语言模型的递归方式。该策略为输入句子与 GPT 2 之间的交互提供了更有效的方式，帮助模型构建更多信息量的前缀，从而有助于提高性能。对众所周知的数据集的评估表明，我们的方法优于最先进的基线。

Learning to Correct Noisy Labels for Fine-Grained Entity Typing via Co-Prediction Prompt Tuning
Authors Minghao Tang, Yongquan He, Yongxiu Xu, Hongbo Xu, Wenyuan Zhang, Yang Lin
细粒度实体类型 FET 是自然语言处理中的一项基本任务，旨在为文本中的实体分配语义类型。然而，FET 提出了一个主要挑战，即噪声标记问题，当前的方法依赖于估计噪声分布来识别噪声标签，但会因各种噪声分布偏差而感到困惑。为了解决这一限制，我们引入了用于 FET 噪声校正的 Co Prediction Prompt Tuning，它利用多个预测结果来识别和校正噪声标签。具体来说，我们整合预测结果来召回标记的标签，并利用差异化的边距来识别不准确的标签。此外，我们设计了微调过程中发散协同预测的优化目标，确保模型捕获足够的信息并保持噪声识别的鲁棒性。

JointMatch: A Unified Approach for Diverse and Collaborative Pseudo-Labeling to Semi-Supervised Text Classification
Authors Henry Peng Zou, Cornelia Caragea
半监督文本分类 SSTC 由于其利用未标记数据的能力而受到越来越多的关注。然而，现有的基于伪标签的方法存在伪标签偏差和错误累积的问题。在本文中，我们提出了 JointMatch，这是 SSTC 的一种整体方法，它通过统一最近的半监督学习和噪声学习任务的思想来解决这些挑战。 JointMatch 根据不同类别的学习状态自适应调整类别阈值，以减轻模型对当前简单类别的偏差。此外，JointMatch 通过利用两个不同初始化的网络以交叉标记方式互相教导来减少错误累积。为了保持两个网络之间的差异以进行相互学习，我们引入了一种策略，该策略可以权衡更多分歧数据，同时还允许利用高质量的一致性数据进行训练。基准数据集上的实验结果证明了 JointMatch 的优越性能，平均显着提高了 5.13。值得注意的是，即使在标签极其稀缺的情况下，JointMatch 也能取得令人印象深刻的结果，在 AG News 上每类仅 5 个标签即可获得 86 的准确率。

DeCrisisMB: Debiased Semi-Supervised Learning for Crisis Tweet Classification via Memory Bank
Authors Henry Peng Zou, Yue Zhou, Weizhi Zhang, Cornelia Caragea
在危机事件期间，人们经常使用 Twitter 等社交媒体平台来传播有关情况、警告、建议和支持的信息。紧急救援组织利用这些信息及时了解危机情况并加快救援行动。虽然现有的工作利用这些信息来构建危机事件分析模型，但完全监督的方法需要注释大量数据，并且由于响应时间有限而不切实际。另一方面，半监督模型可能存在偏差，在某些类别中表现一般，而在其他类别中表现极差，从而对灾害监测和救援产生重大负面影响。在本文中，我们首先研究了两种最新的半监督危机推文分类去偏方法。然后，我们提出了一种简单但有效的去偏方法 DeCrisisMB，该方法利用内存库来存储每次训练迭代时每个类生成的伪标签并对其执行相等采样。进行了大量的实验来比较不同的去偏方法在分布和分布外设置中的性能和泛化能力。结果证明了我们提出的方法的优越性能。

Exploring the Boundaries of GPT-4 in Radiology
Authors Qianchu Liu, Stephanie Hyland, Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Maria Teodora Wetscherek, Robert Tinn, Harshita Sharma, Fernando P rez Garc a, Anton Schwaighofer, Pranav Rajpurkar, Sameer Tajdin Khanna, Hoifung Poon, Naoto Usuyama, Anja Thieme, Aditya V. Nori, Matthew P. Lungren, Ozan Oktay, Javier Alvarez Valle
通用领域大语言模型法学硕士最近的成功极大地改变了自然语言处理范式，转向跨领域和应用程序的统一基础模型。在本文中，我们重点评估 GPT 4（迄今为止最有能力的法学硕士）在基于文本的放射学报告应用程序上的性能，并与最先进的 SOTA 放射学特定模型进行比较。通过探索各种提示策略，我们在各种常见放射学任务上评估了 GPT 4，我们发现 GPT 4 要么优于当前的 SOTA 放射学模型，要么与当前的 SOTA 放射学模型相当。通过零镜头提示，GPT 4 在时间句子相似性分类精度和自然语言推理 F 1 方面已经比放射学模型获得了约 10 绝对改进的实质性收益。对于需要学习数据集特定样式或模式的任务，例如结果总结，GPT 4 通过基于示例的提示进行了改进，并与监督的 SOTA 相匹配。我们与经过委员会认证的放射科医生进行的广泛错误分析表明，GPT 4 具有足够水平的放射学知识，在需要细致入微的领域知识的复杂环境中仅偶尔出现错误。

Unveiling the Multi-Annotation Process: Examining the Influence of Annotation Quantity and Instance Difficulty on Model Performance
Authors Pritam Kadasi, Mayank Singh
NLP 社区长期以来一直主张构建多注释器数据集，以更好地捕捉语言解释、主观性和歧义性的细微差别。本文进行了一项回顾性研究，以展示当数据集从每个实例单个注释扩展到多个注释时，性能分数会如何变化。我们提出了一种新颖的多注释器模拟过程来生成具有不同注释预算的数据集。我们表明，具有相同注释预算的相似数据集可能会带来不同的性能提升。

Language Models Hallucinate, but May Excel at Fact Verification
Authors Jian Guan, Jesse Dodge, David Wadden, Minlie Huang, Hao Peng
自然语言处理 NLP 的最新进展很大程度上归功于大型语言模型 LLM 的显着进步。然而，法学硕士经常产生幻觉，导致输出不真实。我们精心设计的人类评估证实了严重的幻觉问题，表明即使 GPT 3.5 产生的事实输出的时间也少于 25。这强调了事实验证者对于衡量和激励进展的重要性。我们的系统调查证实，法学硕士可以重新用作有效的事实验证者，与人类判断具有很强的相关性，至少在维基百科领域是如此。令人惊讶的是，FLAN T5 11B（我们研究中最不真实的生成器）作为事实验证器表现最好，甚至超过了 GPT3.5 和 ChatGPT 等能力更强的 LLM。通过更深入的研究，我们分析了这些法学硕士对高质量证据的依赖，以及它们在稳健性和泛化能力方面的缺陷。

NormDial: A Comparable Bilingual Synthetic Dialog Dataset for Modeling Social Norm Adherence and Violation
Authors Oliver Li, Mallika Subramanian, Arkadiy Saakyan, Sky CH Wang, Smaranda Muresan
社会规范从根本上塑造人际交往。我们提出了 NormDial，这是一个高质量的二元对话数据集，其中依次注释了中美文化中社会规范的遵守和违反情况。引入社会规范遵守检测的任务，我们的数据集是使用人类在循环管道中综合生成的中文和英文，通过使用少量专家注释的社会规范来提示大型语言模型。我们通过人工评估证明了我们生成的对话具有高质量，并进一步评估了现有大型语言模型在此任务上的表现。

AlpaCare:Instruction-tuned Large Language Models for Medical Application
Authors Xinlu Zhang, Chenxin Tian, Xianjun Yang, Lichang Chen, Zekun Li, Linda Ruth Petzold
大型语言模型法学硕士通过指令调整证明了指令跟踪能力的显着增强，在各种任务中取得了显着的表现。之前的研究重点是使用大量的医学特定数据来微调特定于医学领域的法学硕士，并结合数百万篇生物医学文献来增强其医疗能力。然而，现有的医学指令调整法学硕士受到可用任务和指令范围有限的限制，限制了指令调整的有效性并对一般领域的表现产生不利影响。在本文中，我们使用 52k 不同的机器生成的医疗指令跟踪数据 MedInstruct 52k 微调 LLaMA 系列模型，从而产生模型 AlpaCare。与之前在医学和普通领域的指令调整模型相比，普通和医学特定领域自由形式指令评估的综合实验结果展示了 AlpaCare 强大的医学熟练程度和普遍性。我们向公众提供 MedInstruct 52k 数据集和临床医生制作的自由形式指令测试集、MedInstruct 测试以及我们的代码库，以促进进一步的研究和开发。

The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64 Languages
Authors Chiyu Zhang, Khai Duy Doan, Qisheng Liao, Muhammad Abdul Mageed
指令调整的大型语言模型 LLM（例如 ChatGPT）在各种任务中表现出了卓越的性能。尽管最近有大量研究考察了指令调整的法学硕士在各种 NLP 基准上的表现，但仍然缺乏对他们理解跨语言社会语用意义 SM（即嵌入在社交和互动环境中的意义）的能力的全面调查。这一缺陷部分是由于 SM 没有在任何现有基准中得到充分体现。为了弥补这一差距，我们推出了 SPARROW，这是一个专门为理解 SM 而设计的广泛的多语言基准测试。 SPARROW 包含 169 个数据集，涵盖 6 个主要类别的 13 种任务类型，例如反社交语言检测、情绪识别。 SPARROW 数据集包含源自 12 个语系的 64 种不同语言，代表 16 种书写文字。我们通过微调、零样本和/或少量样本学习来评估各种多语言预训练语言模型（例如 mT5）和指令调整的 LLM（例如 SPARROW 上的 BLOOMZ、ChatGPT）的性能。我们的综合分析表明，现有的开源指令调整的法学硕士仍然难以理解各种语言的 SM，在某些情况下表现接近随机基线。我们还发现，尽管 ChatGPT 的表现优于许多 LLM，但它仍然落后于特定于任务的微调模型，差距为 12.19 SPARROW 分数。

Harnessing ChatGPT for thematic analysis: Are we ready?
Authors V Vien Lee, Stephanie C. C. van der Lubbe, Lay Hoon Goh, Jose M. Valderas
ChatGPT 是一种先进的自然语言处理工具，在医学研究的各个学科中的应用不断增长。主题分析是一种识别和解释数据模式的定性研究方法，是受益于该技术的一个应用程序。该观点探讨了 ChatGPT 在医学背景下主题分析的三个核心阶段的利用：1 直接编码转录本，2 从预定义的代码列表生成主题，3 预处理引用以包含手稿。此外，我们还探索了 ChatGPT 生成访谈记录的潜力，这些记录可用于培训目的。我们评估了在这些角色中使用 ChatGPT 的优势和局限性，强调了仍然需要人工干预的领域。

Evaluating Large Language Models on Controlled Generation Tasks
Authors Jiao Sun, Yufei Tian, Wangchunshu Zhou, Nan Xu, Qian Hu, Rahul Gupta, John Frederick Wieting, Nanyun Peng, Xuezhe Ma
虽然最近的研究探讨了大语言模型在各种基准任务中的能力，包括问题生成、阅读理解、多语言等，但很少有研究探讨大语言模型在生成任务上的可控性。我们对各种基准进行了广泛的分析，包括不同粒度的句子规划基准。在将大型语言模型与开始微调的较小模型的状态进行比较后，我们提出了一个频谱，显示大型语言模型落后、可比或超过较小模型的能力。

Continual Named Entity Recognition without Catastrophic Forgetting
Authors Duzhen Zhang, Wei Cong, Jiahua Dong, Yahan Yu, Xiuyi Chen, Yonggang Zhang, Zhen Fang
持续命名实体识别 CNER 是一个新兴领域，它涉及通过顺序合并新实体类型来更新现有模型。然而，持续学习方法常常受到灾难性遗忘的严重影响。由于每一步都将先前步骤中的旧实体类型合并到非实体类型中，导致这个问题在 CNER 中加剧，导致所谓的非实体类型的语义转移问题。在本文中，我们引入了一种池化特征蒸馏损失，它巧妙地在保留旧实体类型的知识和获取新实体类型的知识之间进行权衡，从而更有效地缓解灾难性遗忘问题。此外，我们为非实体类型开发了一种基于置信度的伪标签，emph，即使用旧模型预测实体类型来处理非实体类型的语义转变。在伪标记过程之后，我们提出了一种自适应重新加权类型平衡学习策略来处理有偏类型分布的问题。我们使用三个不同的数据集对十个 CNER 设置进行了全面的实验。

Evaluating Spatial Understanding of Large Language Models
Authors Yutaro Yamada, Yihan Bao, Andrew K. Lampinen, Jungo Kasai, Ilker Yildirim
大型语言模型法学硕士在各种任务中表现出卓越的能力。尽管模型在训练中只看到文本，但最近的几项研究表明，LLM 表示隐式地捕捉了潜在基础概念的各个方面。在这里，我们探索了一种特别突出的扎根知识空间关系的法学硕士表示。我们设计自然语言导航任务并评估 LLM（特别是 GPT 3.5 Turbo、GPT 4 和 Llama2 系列模型）表示和推理空间结构的能力，并将这些能力与人类在相同任务上的表现进行比较。这些任务揭示了不同空间结构（包括正方形、六边形和三角形网格、环和树）的法学硕士表现的显着差异。我们还发现，与人类类似，法学硕士利用对象名称作为维护空间地图的地标。最后，在广泛的错误分析中，我们发现法学硕士的错误反映了空间和非空间因素。

Improving Seq2Seq Grammatical Error Correction via Decoding Interventions
Authors Houquan Zhou, Yumeng Liu, Zhenghua Li, Min Zhang, Bo Zhang, Chen Li, Ji Zhang, Fei Huang
序列到序列 Seq2Seq 方法最近已广泛应用于语法错误校正 GEC 中，并显示出良好的性能。然而，Seq2Seq GEC 方法仍然存在两个问题。首先，Seq2Seq GEC 模型只能在并行数据上进行训练，在 GEC 任务中，并行数据通常充满噪声且数量有限。其次，Seq2Seq GEC 模型的解码器缺乏对所生成令牌的正确性的明确认识。在本文中，我们提出了一个统一的解码干预框架，该框架采用外部批评家来评估增量生成令牌的适当性，然后动态影响下一个令牌的选择。我们发现并研究了两种类型的批评家：预先训练的从左到右语言模型批评家和增量目标侧语法错误检测批评家。

Dual-Feedback Knowledge Retrieval for Task-Oriented Dialogue Systems
Authors Tianyuan Shi, Liangzhi Li, Zijian Lin, Tao Yang, Xiaojun Quan, Qifan Wang
高效的知识检索通过促进选择满足用户请求所需的相关信息，在确保端到端面向任务的对话系统的成功方面发挥着关键作用。然而，当前的方法通常集成知识检索和响应生成，这在处理广泛的知识库时带来了可扩展性挑战。受到开放域问答的启发，我们提出了一种检索器生成器架构，它利用检索器来检索相关知识，并利用生成器来生成系统响应。由于缺乏检索器训练标签，我们建议依靠生成器的反馈作为伪标签来训练检索器。为了实现这一目标，我们引入了一种双重反馈机制，该机制根据生成器的输出生成正反馈和负反馈。

Rethinking Word-Level Auto-Completion in Computer-Aided Translation
Authors Xingyu Chen, Lemao Liu, Guoping Huang, Zhirui Zhang, Mingming Yang, Shuming Shi, Rui Wang
词级自动完成 WLAC 在计算机辅助翻译中发挥着至关重要的作用。它旨在为翻译人员提供单词级自动完成建议。虽然之前的研究主要集中在设计复杂的模型架构上，但本文采取了不同的视角，重新思考了什么样的单词是好的自动补全这个基本问题。我们引入了一个可测量的标准来回答这个问题，并发现现有的 WLAC 模型通常无法满足这个标准。基于这一观察，我们提出了一种通过促进遵守该标准来提高 WLAC 性能的有效方法。值得注意的是，所提出的方法是通用的，可以应用于各种基于编码器的架构。

QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing
Authors Yating Wu, Ritika Mangla, Greg Durrett, Junyi Jessy Li
讨论中的问题 QUD 是一种多功能语言框架，其中话语随着不断提出问题并回答问题而进展。因此，自动解析话语以生成 QUD 结构需要在给定文档和答案句子的情况下执行复杂的问题生成任务，生成满足 QUD 语言约束并且可以基于先前上下文中的锚语句的问题。众所周知，这些问题是好奇心驱动的、开放式的。这项工作介绍了第一个自动评估 QUD 解析的框架，在具体协议中实例化了 QUD 的理论约束。我们提出了 QUDeval，这是一个对由微调系统和法学硕士生成的 2,190 个 QUD 问题进行细粒度评估的数据集。使用 QUDeval，我们表明满足 QUD 的所有约束对于现代法学硕士来说仍然具有挑战性，并且现有的评估指标很难近似解析器质量。

Turn-Level Active Learning for Dialogue State Tracking
Authors Zihan Zhang, Meng Fang, Fanghua Ye, Ling Chen, Mohammad Reza Namazi Rad
对话状态跟踪 DST 在面向任务的对话系统中发挥着重要作用。然而，收集大量逐轮注释的对话数据成本高昂且效率低下。在本文中，我们提出了一种新颖的回合级主动学习框架，用于 DST 来主动选择对话中的回合进行注释。鉴于标签预算有限，实验结果证明了对话轮次选择性注释的有效性。

CorefPrompt: Prompt-based Event Coreference Resolution by Measuring Event Type and Argument Compatibilities
Authors Sheng Xu, Peifeng Li, Qiaoming Zhu
事件共指解析 ECR 旨在将引用同一现实世界事件的事件提及分组为集群。以往的研究大多采用先编码后评分的框架，使共指判断依赖于事件编码。此外，当前的方法很难利用人类总结的 ECR 规则（例如，共指事件应该具有相同的事件类型）来指导模型。为了解决这两个问题，我们提出了一种基于提示的方法 CorefPrompt，将 ECR 转换为完形填空风格的 MLM 掩码语言模型任务。这允许在单个模板内同时进行事件建模和共指辨别，并具有完全共享的上下文。此外，我们引入了两个辅助提示任务，事件类型兼容性和参数兼容性，来明确演示ECR的推理过程，这有助于模型做出最终的预测。

CITB: A Benchmark for Continual Instruction Tuning
Authors Zihan Zhang, Meng Fang, Ling Chen, Mohammad Reza Namazi Rad
持续学习CL是一种范式，旨在复制人类不断学习和积累知识的能力，而不会忘记以前的知识并将其转移到新的任务中。最近的指令调整 IT 涉及微调模型，使它们更适合解决一般的 NLP 任务。然而，指令调优在 CL 任务的上下文中如何工作仍不确定。这个具有挑战性但又实际的问题被表述为持续指令调整 CIT。在这项工作中，我们建立了一个由学习和评估协议组成的 CIT 基准。我们策划了两个不同类型的长对话任务流 InstrDialog 和 InstrDialog ，以系统地研究各种 CL 方法。我们的实验表明，现有的 CL 方法不能有效地利用丰富的自然语言指令，并且按顺序微调指令调整模型可以产生相似或更好的结果。我们进一步探讨可能影响 CIT 学习的不同方面。

EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data Augmentation for Multi-hop Fact Verification
Authors Yingjie Zhu, Jiasheng Si, Yibo Zhao, Haiyang Zhu, Deyu Zhou, Yulan He
自动多跳事实验证任务近年来引起了广泛关注。尽管取得了令人印象深刻的结果，但这些设计良好的模型在域外数据上表现不佳。一种可能的解决方案是用反事实来增强训练数据，这些反事实是通过最小程度地改变原始数据的因果特征而生成的。然而，当前的反事实数据增强技术无法处理多跳事实验证，因为它们无法保留多个相关文本内的复杂逻辑关系。在本文中，我们通过开发一种理性敏感的方法来克服这一限制，该方法可以生成语言上多样化的标签翻转反事实，同时保留逻辑关系。具体来说，多样化且流畅的反事实是通过解释编辑生成架构生成的。此外，还提出了检查和过滤模块，通过逻辑关系和翻转标签来规范反事实数据。

Sentiment analysis with adaptive multi-head attention in Transformer
Authors Fanfei Meng, David Demeter
我们提出了一种基于注意力机制的新颖框架来识别电影评论文档的情绪。先前对具有注意力机制的深度神经网络的研究主要集中在具有固定数量的多头注意力的编码器和解码器。

Diversify Question Generation with Retrieval-Augmented Style Transfer
Authors Qi Gou, Zehua Xia, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li, Nguyen Cam Tu
给定文本段落和答案，人类能够用各种表达方式提出问题，但这种能力对于大多数问题生成 QG 系统来说仍然具有挑战性。现有的解决方案主要关注给定段落内的内部知识或语义词空间，以进行多样化的内容规划。然而，这些方法没有考虑外部知识对于表达多样性的潜力。为了弥补这一差距，我们提出了 RAST，一个检索增强风格迁移的框架，其目标是利用不同模板的风格来生成问题。为了训练 RAST，我们开发了一种新颖的基于强化学习 RL 的方法，该方法可以最大化多样性奖励和一致性奖励的加权组合。在这里，一致性奖励是通过问答 QA 模型计算的，而多样性奖励则衡量最终输出与检索到的模板的模仿程度。实验结果表明，我们的方法在多样性方面优于以前的多样性驱动基线，同时在一致性分数方面具有可比性。

InstructExcel: A Benchmark for Natural Language Instruction in Excel
Authors Justin Payan, Swaroop Mishra, Mukul Singh, Carina Negreanu, Christian Poelitz, Chitta Baral, Subhro Roy, Rasika Chakravarthy, Benjamin Van Durme, Elnaz Nouri
随着大型语言模型法学硕士的发展，我们可以解决各个领域（包括电子表格）日益复杂的 NLP 任务。这项工作研究了法学硕士是否可以生成代码 Excel OfficeScripts，这是一种用于在 Excel 中执行许多任务的 TypeScript API，可解决通过自然语言用户指令提供的 Excel 特定任务。为此，我们引入了一个新的大规模基准测试 InstructExcel，它是通过利用 Excel 中的自动化功能根据用户操作自动生成 OfficeScript 来创建的。我们的基准测试包括超过 10,000 个样本，涵盖 2,000 个公开可用的 Excel 电子表格中的 170 个 Excel 操作。各种零样本和少量样本设置的实验表明，InstructExcel 是 GPT 4 等最先进模型的硬基准。我们观察到 1 使用 GPT 4 而非 GPT 3.5，2 提供更多上下文示例，3 动态提示可以提供帮助

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com