【AI视野·今日NLP 自然语言处理论文速览第六十四期】Fri, 27 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Fri, 27 Oct 2023
Totally 80 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies: A Case Study on NLP
Authors Yoshitomo Matsubara
由于深度学习最新进展所支持的研究领域的快速发展，科学工作的可重复性在机器学习、自然语言处理和计算机视觉等研究社区中变得越来越重要。在这项工作中，我们提出了 torchdistill 的显着升级版本，这是一个模块化驱动的免编码深度学习框架，比初始版本显着升级，它仅支持图像分类和对象检测任务，以进行可重复的知识蒸馏实验。为了证明升级后的框架可以通过第三方库支持更多任务，我们使用基于升级后的 torchdistill 的脚本重现了 BERT 模型的 GLUE 基准测试结果，并与各种 Hugging Face 库协调一致。用于重现结果的所有 27 个经过微调的 BERT 模型和配置均已发布在 Hugging Face 上，并且模型权重已在研究社区中广泛使用。

JudgeLM: Fine-tuned Large Language Models are Scalable Judges
Authors Lianghui Zhu, Xinggang Wang, Xinlong Wang
在开放式场景中评估大型语言模型法学硕士具有挑战性，因为现有的基准和指标无法全面衡量它们。为了解决这个问题，我们建议将法学硕士作为可扩展的法官 JudgeLM 进行微调，以便在开放式基准测试中高效且有效地评估法学硕士。我们首先提出了一个全面、大规模、高质量的数据集，其中包含任务种子、LLM 生成的答案和 GPT 4 生成的判断，用于微调高性能法官，以及评估法官的新基准。我们以 7B、13B 到 33B 参数的不同尺度训练 JudgeLM，并对其能力和行为进行系统分析。然后，我们分析了作为评判者微调LLM的关键偏差，并将其视为位置偏差、知识偏差和格式偏差。为了解决这些问题，JudgeLM 引入了一系列技术，包括交换增强、参考支持和参考下降，这些技术明显提高了法官的性能。 JudgeLM 在现有的 PandaLM 基准和我们提出的新基准上都获得了最先进的判断性能。我们的 JudgeLM 效率很高，JudgeLM 7B 只需 3 分钟即可使用 8 个 A100 GPU 判断 5K 样本。 JudgeLM与评判老师获得了很高的一致性，达到了超过90的一致性，甚至超越了人与人之间的一致性。

InstOptima: Evolutionary Multi-objective Instruction Optimization via Large Language Model-based Instruction Operators
Authors Heng Yang, Ke Li
基于指令的语言建模在预训练语言模型中受到了极大的关注。然而，教学工程的效率仍然较低，阻碍了教学研究的发展。最近的研究集中在自动化指令生成上，但它们的主要目标是提高性能，而不考虑影响指令质量的其他关键目标，例如指令长度和困惑度。因此，我们提出了一种新颖的方法，即 InstOptima，它将指令生成视为演化的多目标优化问题。与基于文本编辑的方法相比，我们的方法利用大型语言模型 LLM 来模拟指令运算符，包括变异和交叉。此外，我们为这些操作员引入了客观指导机制，使法学硕士能够理解目标并提高生成指令的质量。

Proving Test Set Contamination in Black Box Language Models
Authors Yonatan Oren, Nicole Meister, Niladri Chatterji, Faisal Ladhak, Tatsunori B. Hashimoto
大型语言模型是根据大量互联网数据进行训练的，这引发了人们的担忧和猜测，即它们已经记住了公共基准。从推测到污染证明具有挑战性，因为专有模型使用的预训练数据通常无法公开访问。我们证明，无需访问预训练数据或模型权重，就可以为语言模型中的测试集污染提供可证明的保证。我们的方法利用了这样一个事实：当没有数据污染时，可交换基准的所有排序应该是相同的。相反，语言模型倾向于记住示例顺序，这意味着受污染的语言模型会发现某些规范顺序比其他顺序更有可能出现。每当规范排序的基准数据集的可能性明显高于打乱示例后的可能性时，我们的测试就会标记潜在的污染。我们证明，我们的程序足够灵敏，可以在具有挑战性的情况下可靠地证明测试集污染，包括小至 14 亿个参数的模型、仅 1000 个示例的小型测试集以及在预训练语料库中仅出现几次的数据集。

LeCaRDv2: A Large-Scale Chinese Legal Case Retrieval Dataset
Authors Haitao Li, Yunqiu Shao, Yueyue Wu, Qingyao Ai, Yixiao Ma, Yiqun Liu
法律案例检索作为智能法律系统的重要组成部分，对于保障司法公正、公平发挥着至关重要的作用。然而，中国法律体系中法律案例检索技术的发展受到现有数据集数据大小有限、法律相关性定义狭窄以及数据采样中使用的朴素候选池策略三个问题的限制。为了缓解这些问题，我们引入了 LeCaRDv2，这是一个大规模法律案例检索数据集版本 2。它由从 430 万份刑事案件文档中提取的 800 个查询和 55,192 个候选项组成。据我们所知，LeCaRDv2 是中国最大的法律案件检索数据集之一，提供广泛的刑事指控覆盖。此外，我们通过考虑三个关键方面：特征、惩罚、程序来丰富现有的相关性标准。这一综合标准丰富了数据集，并可能提供更全面的视角。此外，我们提出了一种两级候选集池策略，可以有效地识别每个查询案例的潜在候选者。值得注意的是，数据集中的所有案例均由多位专门从事刑法的法律专家注释。他们的专业知识确保了注释的准确性和可靠性。我们评估了 LeCaRDv2 的几种最先进的检索模型，表明法律案例检索仍有很大的改进空间。

Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in Ghana
Authors Owen Henkel, Hannah Horne Robinson, Libby Hills, Bill Roberts, Joshua McGrane
本文报告了最近的一组三项实验，利用大规模语音模型来评估加纳学生的口语阅读流利度 ORF。虽然 ORF 是一种完善的基础素养衡量标准，但对其进行评估通常需要学生和经过培训的评估员进行一对一的会议，这一过程既耗时又昂贵。自动化 ORF 评估可以支持更好的识字教学，特别是在由于班级规模大和资源有限而形成性评估不常见的教育环境中。

Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways
Authors Venkata S Govindarajan, Juan Diego Rodriguez, Kaj Bostrom, Kyle Mahowald
我们向 BabyLM 挑战赛展示了 Lil Bevo。我们使用三种成分对屏蔽语言模型进行预训练：使用音乐数据进行初始预训练，在较长序列上进行训练之前对较短序列进行训练，以及屏蔽特定标记以针对某些 BLiMP 子任务。总体而言，我们的基线模型的表现高于偶然性，但远低于接受更多数据训练的大型法学硕士的表现水平。我们发现对短序列的训练比对长序列的训练表现更好。音乐预训练可能对性能略有帮助，但如果是这样，效果似乎很小。我们的目标 Masked Language Modeling 增强似乎总体上并没有提高模型性能，但似乎确实有助于我们针对的一些特定 BLiMP 任务，例如 Negative Polarity Items 。利用少量数据训练高效的法学硕士是一项困难但可能提供丰富信息的任务。虽然我们的一些技术显示出一些希望，但还需要做更多的工作来探索它们是否可以比这里的适度收益更能提高性能。

An Open Source Data Contamination Report for Llama Series Models
Authors Yucheng Li
随着大型语言模型的流行，语言模型评估中的数据污染越来越普遍。它允许模型通过记忆来作弊，而不是展示真实的能力。因此，污染分析已成为可靠模型评估以验证结果的重要组成部分。然而，现有的污染分析通常由法学硕士开发人员内部进行，往往缺乏透明度和完整性。本文提出了 Llama 系列模型的开源数据污染报告。我们分析了六个流行的多选 QA 基准，并量化了它们与 Llama 训练集的重叠。基准测试中发现了从 1 到 8.7 不等的各种污染程度。我们的比较还表明，Llama 模型在受污染子集上的准确度比干净子集高 5 倍以上。

Global Voices, Local Biases: Socio-Cultural Prejudices across Languages
Authors Anjishnu Mukherjee, Chahat Raj, Ziwei Zhu, Antonios Anastasopoulos
人类偏见无处不在，但跨越语言、文化和社会边界的差异并不存在。正如最近大量文献表明的那样，根据人类数据训练的语言模型 LM 可以反映并常常放大这些社会偏见的影响。然而，现有的绝大多数关于偏见的研究都严重偏向西方和欧洲语言。在这项工作中，我们将词嵌入关联测试 WEAT 扩展到 24 种语言，从而实现更广泛的研究并得出有关 LM 偏差的有趣发现。我们还利用每种语言的文化相关信息来增强这些数据，捕捉全球范围内的当地背景。此外，为了涵盖更广泛普遍的社会偏见，我们研究了毒性、能力歧视等方面的新偏见维度。此外，我们更深入地研究印度的语言景观，对六种流行的印度语言进行全面的区域偏见分析。最后，我们通过对嵌入方法的广泛比较，强调了这些社会偏见和新维度的重要性，强调了解决这些偏见以追求更公平的语言模型的必要性。

DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation
Authors Yongxin Zhu, Zhujin Gao, Xinyuan Zhou, Zhongyi Ye, Linli Xu
虽然扩散生成模型在图像生成任务上取得了巨大的成功，但如何高效地将它们融入语音生成尤其是翻译任务中仍然是一个不小的问题。具体来说，由于语音数据的信息密度较低，变换后的离散语音单元序列比相应的文本转录要长得多，这对现有的自回归模型提出了重大挑战。此外，在语音单元序列上粗暴地应用离散扩散而忽视连续空间结构并不是最优的，这会显着降低生成性能。在本文中，我们通过在textit连续语音表示空间中应用前向扩散过程，同时在textit离散语音单元空间中采用后向扩散过程，提出了一种新颖的扩散模型。这样，我们在扩散过程中保留了连续语音表示空间的语义结构，并集成了连续和离散扩散模型。

Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models
Authors Dingli Yu, Simran Kaur, Arushi Gupta, Jonah Brown Cohen, Anirudh Goyal, Sanjeev Arora
随着法学硕士的角色从语言统计建模转变为通用人工智能代理，法学硕士评估应如何改变可以说，人工智能代理的一项关键能力是根据需要灵活地结合其所学的基本技能。

Towards Matching Phones and Speech Representations
Authors Gene Ping Yang, Hao Tang
从电话实例中学习电话类型一直是一个长期存在的问题，但仍处于开放状态。在这项工作中，我们在自监督学习的背景下重新审视这个问题，并将其视为将聚类质心与音素嵌入相匹配的问题。我们研究了实现匹配的两个关键属性，即自监督表示的聚类质心是否减少了电话实例的可变性并尊重电话之间的关系。然后，我们使用匹配结果来生成伪标签，并引入新的损失函数来改进自监督表示。我们的实验表明，匹配结果捕获了电话之间的关系。

Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages
Authors Qusai Khraisha, Sophie Put, Johanna Kappenberg, Azza Warraitch, Kristin Hadfield
系统审查对于指导实践、研究和政策至关重要，但往往速度缓慢且劳动强度大。大型语言模型 LLM 可以提供一种加速和自动化系统审查的方法，但它们在此类任务中的表现尚未针对人类进行全面评估，并且没有研究测试过迄今为止最大的 LLM GPT 4。这项预先注册的研究使用人工外循环方法评估了 GPT 4 在标题摘要筛选、全文审阅以及跨各种文献类型和语言的数据提取方面的能力。尽管 GPT 4 在大多数任务中的准确性与人类表现相当，但结果因机会一致性和数据集不平衡而出现偏差。对这些进行调整后，数据提取的性能水平处于中等水平，并且禁止使用高度可靠的提示筛选不同阶段和语言的性能水平为无到中等水平的研究。当使用高度可靠的提示筛选全文文献时，GPT 4 的性能近乎完美。使用高度可靠的提示对 GPT 4 缺失关键研究进行惩罚，进一步提高了其性能。

The Validity of Evaluation Results: Assessing Concurrence Across Compositionality Benchmarks
Authors Kaiser Sun, Adina Williams, Dieuwke Hupkes
根据许多用于评估性能的数据集，NLP 模型近年来取得了巨大进步。然而，关于特定数据集设计选择如何影响我们得出的有关模型功能的结论的问题仍然存在。在这项工作中，我们在组合泛化领域研究了这个问题。我们检查了 4 个数据集的 6 种建模方法的性能，根据 8 种组合分割策略进行分割，总共按 18 种组合泛化分割对模型进行排名。我们的结果表明，虽然数据集都是为了评估组合泛化而设计的，但对建模方法的排名不同 ii 人类生成的数据集彼此之间的一致性比它们与合成数据集或合成数据集之间的一致性更好 iii 一般而言，无论数据集是否采样自相同的来源比它们是否保持对组合性的相同解释更能预测结果模型的排名，并且数据中使用的词汇项可以强烈影响结论。

The IMS Toucan System for the Blizzard Challenge 2023
Authors Florian Lux, Julia Koch, Sarina Meyer, Thomas Bott, Nadja Schauffler, Pavel Denisov, Antje Schweitzer, Ngoc Thang Vu
为了对 2023 年暴雪挑战赛做出贡献，我们改进了提交给 2021 年暴雪挑战赛的系统。我们的方法需要一个基于规则的文本到音素处理系统，其中包括基于规则的法语同形异义词消歧。然后，它使用基于 Conformer 和 Glow 的快速高效的非自回归合成架构将音素转换为声谱图作为中间表示。基于 GAN 的神经声码器结合了最新的最先进方法，将频谱图转换为最终波。我们精心设计了挑战数据的数据处理、训练和推理程序。

Improving Zero-shot Reader by Reducing Distractions from Irrelevant Documents in Open-Domain Question Answering
Authors Sukmin Cho, Jeong yeon Seo, Soyeong Jeong, Jong C. Park
大型语言模型 LLM 在开放域问答 ODQA 中实现了零样本方法，但与读取器相比，进步有限。本研究旨在探讨零样本读取器的可行性，以解决计算成本和标记数据需求的挑战。我们发现，当法学硕士被用作零样本读者时，由于检索集中的不相关文档以及对生成答案的过度自信，他们会分心。为了解决这些问题，我们通过分心感知答案选择 DAS 减轻此类文档的影响，并通过基于否定的指令和分数调整来选择正确的答案。实验结果表明，我们的方法成功地处理了不同场景的干扰，提高了零样本阅读器的性能。

Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge
Authors Tanel Alum e, Jiaming Kong, Daniil Robnikov
本文介绍了塔林理工大学为 ASRU MADASR 2023 挑战赛开发的 TalTech 系统。该挑战的重点是使用有限的训练音频和文本数据对方言丰富的印度语言进行自动语音识别。 TalTech 参加了挑战赛的两个赛道，赛道 1 允许仅使用提供的训练数据，赛道 3 允许使用额外的音频数据。在这两个轨道中，我们都依赖 wav2vec2.0 模型。我们的方法与微调预训练 wav2vec2.0 模型的传统过程有两个关键点：首先，通过实施对齐数据增强技术来增强训练数据的语言多样性；其次，通过应用深度前缀调整wav2vec2.0模型的方言适配。

''Fifty Shades of Bias'': Normative Ratings of Gender Bias in GPT Generated English Text
Authors Rishav Hada, Agrima Seth, Harshita Diddee, Kalika Bali
语言是表达社会信仰体系的有力工具。这样做也使我们社会中普遍存在的偏见长期存在。性别偏见是我们社会中最普遍的偏见之一，在线上和线下的话语中都可以看到。随着法学硕士在文本生成方面越来越像人类一样流畅，对这些系统可能产生的偏见进行细致入微的了解势在必行。先前的工作通常将性别偏见视为二元分类任务。然而，承认偏见必须在相对规模上被感知，我们研究了手动注释者对不同程度偏见的产生和随之而来的接受性。具体来说，我们创建了第一个 GPT 生成的英语文本数据集，其中包含性别偏见的规范评级。评级是使用最佳最差缩放（Best Worst Scaling）（一种有效的比较注释框架）获得的。接下来，我们系统地分析了观察到的排名中性别偏见主题的变化，并表明身份攻击与性别偏见关系最为密切。

PETA: Evaluating the Impact of Protein Transfer Learning with Sub-word Tokenization on Downstream Applications
Authors Yang Tan, Mingchen Li, Pan Tan, Ziyi Zhou, Huiqun Yu, Guisheng Fan, Liang Hong
大型蛋白质语言模型擅长捕获一级结构中的潜在进化信息，为蛋白质工程提供了重要的实用价值。与自然语言模型相比，蛋白质氨基酸序列的数据量较小，组合空间有限。选择合适的词汇量来优化预训练模型是一个关键问题。此外，尽管自然语言界有丰富的基准和研究，但仍然缺乏系统评估蛋白质语言模型质量的综合基准。考虑到这些挑战，PETA 在三种标记化方法下训练了具有 14 种不同词汇大小的语言模型。它对 33 个不同的下游数据集进行了数千次测试，以评估模型的迁移学习能力，并结合了两个分类头和三个随机种子来减轻潜在的偏差。大量实验表明，50 到 200 之间的词汇量可以优化模型，而超过 800 的词汇量会对模型的表征性能产生不利影响。

Harnessing GPT-3.5-turbo for Rhetorical Role Prediction in Legal Cases
Authors Anas Belfathi, Nicolas Hernandez, Laura Monceaux
我们提出了对单阶段启发技术的全面研究，用于在法律案件的修辞角色预测任务中查询大型预训练生成变压器 GPT 3.5 Turbo。该任务被称为需要解决文本上下文。我们的研究探索了一些策略，例如零几次镜头、带有定义的任务规范和注释歧义的澄清、文本上下文以及带有一般提示和具体问题的推理。我们表明，示例的数量、标签的定义、标记文本上下文的呈现以及有关该上下文的具体问题对模型的性能有积极的影响。给定非等效的测试集配置，我们观察到，使用直接上下文中的一些标记示例进行提示可以使模型比基于 BERT 编码器加权 F1 分数 72 的监督细调多类分类器获得更好的性能。

Meaning and understanding in large language models
Authors Vladim r Havl k
机器能否理解自然语言的含义人工智能的生成性大语言模型法学硕士的最新发展使人们相信，关于机器理解语言的传统哲学假设需要修改。本文批判性地评价了将机器语言性能视为纯粹句法操作和理解模拟的普遍趋势，这种趋势只是片面的、非常肤浅的，没有足够的参考依据。目的是强调将自然语言理解归因于最先进的法学硕士的关键条件，可以合理地论证法学硕士不仅使用语法，而且还使用语义，他们的理解不是模拟而是复制，并确定他们如何奠定意义

ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation
Authors Zi Lin, Zihan Wang, Yongqi Tong, Yangkun Wang, Yuxin Guo, Yujia Wang, Jingbo Shang
尽管大型语言模型在聊天机器人中取得了显着的进步，但维护无毒的用户人工智能交互环境如今变得越来越重要。然而，之前的毒性检测工作主要基于社交媒体内容的基准，而没有充分探索现实世界用户人工智能交互所固有的独特挑战。在这项工作中，我们介绍了 ToxicChat，这是一种基于开源聊天机器人的真实用户查询的新颖基准。该基准包含丰富、微妙的现象，当前的毒性检测模型很难识别这些现象，从而揭示了与社交媒体内容相比的显着领域差异。我们对现有毒性数据集训练的模型的系统评估表明，当应用于 ToxicChat 这个独特的领域时，它们存在缺陷。我们的工作阐明了现实世界用户人工智能对话中毒性检测可能被忽视的挑战。

Language and Mental Health: Measures of Emotion Dynamics from Text as Linguistic Biosocial Markers
Authors Daniela Teodorescu, Tiffany Cheng, Alona Fyshe, Saif M. Mohammad
精神病理学研究表明，在总体水平上，情绪随时间变化的模式（情绪动态）是一个人心理健康的指标。传统上，一个人的情绪变化模式是通过情绪的自我报告来确定的，然而，在准确性、偏见和便利性方面存在已知的问题。最近从一个人的日常言语中确定情绪动态的方法解决了许多这些问题，但尚不清楚这些言语情绪动态 UED 的测量是否与心理健康诊断相关。在这里，我们首次研究推文情绪动态与心理健康障碍之间的关系。我们发现，研究的每个 UED 指标因用户自我披露的诊断而异。例如，与患有 ADHD、MDD 和 PTSD 的用户相比，对照组的平均效价显着更高，即更多积极的文本。与 ADHD、抑郁症、双相情感障碍、MDD、PTSD 和 OCD 相比，对照组的效价变异性显着较低，但与 PPD 相比则不然。价态的上升和恢复率也表现出与对照的显着差异。

Cultural Adaptation of Recipes
Authors Yong Cao, Yova Kementchedjhieva, Ruixiang Cui, Antonia Karamolegkou, Li Zhou, Megan Dare, Lucia Donatelli, Daniel Hershcovich
基于大型语言模型法学硕士的巨大进步，我们现在有能力解决需要对跨文化背景有细致入微的理解的更复杂的任务。一个关键的例子是食谱改编，它不仅仅是简单的翻译，还包括对特定文化特有的成分、烹饪技术和饮食偏好的掌握。我们引入了一项新任务，涉及中英美食之间食谱的翻译和文化适应。为了支持这项调查，我们推出了 CultureRecipes，这是一个独特的数据集，由自动配对的用普通话和英语编写的食谱组成。该数据集通过人工编写和策划的测试集进一步丰富。在这项跨文化菜谱适应的复杂任务中，我们评估了各种方法的性能，包括 GPT 4 和其他法学硕士、传统机器翻译和信息检索技术。我们的综合分析包括自动和人工评估指标。虽然 GPT 4 在将中文食谱翻译成英文方面表现出了令人印象深刻的能力，但在将英文食谱翻译成中文时，它仍然落后于人类的专业知识。这强调了文化适应的多方面性。

ACT-SQL: In-Context Learning for Text-to-SQL with Automatically-Generated Chain-of-Thought
Authors Hanchong Zhang, Ruisheng Cao, Lu Chen, Hongshen Xu, Kai Yu
最近，大型语言模型法学硕士已被证明在各个领域和任务中具有强大的能力。我们研究了文本到SQL任务中的提示设计问题，并试图提高LLM在生成SQL查询时的推理能力。除了上下文学习设置中的一些琐碎的镜头之外，我们使用与模式链接类似的方法设计了我们的思想链 CoT 提示。我们提供了一种名为 ACT SQL 的方法来自动生成自动 CoT 示例，因此整个过程不需要手动标记。我们的方法可以节省成本，因为我们在生成一个 SQL 查询时仅使用一次 LLM API 调用。此外，我们将上下文学习方法扩展到多轮文本到 SQL 任务。实验结果表明，法学硕士的成绩可以从我们的 ACT SQL 方法中受益。

Arabic Fine-Grained Entity Recognition
Authors Haneen Liqreina, Mustafa Jarrar, Mohammed Khalilia, Ahmed Oumar El Shangiti, Muhammad AbdulMageed
传统的 NER 系统通常经过训练来识别粗粒度的实体，而很少关注将实体分类为细粒度的较低级别子类型的层次结构。本文旨在通过细粒度实体推进阿拉伯语 NER。我们选择将 Wojood 扩展为具有子类型的开源嵌套阿拉伯语命名实体语料库。特别是，Wojood 中的四种主要实体类型：地缘政治实体 GPE 、位置 LOC 、组织 ORG 和设施 FAC ，扩展为 31 个子类型。为此，我们首先修改了 Wojood 的 GPE、LOC、ORG 和 FAC 注释，以与 LDC 的 ACE 指南兼容，这产生了 5, 614 处更改。其次，Wojood 中所有提及的 GPE、LOC、ORG 和 FAC 44K 均使用 LDC 的 ACE 子类型手动注释。我们将此 Wojood 的扩展版本称为 WojoodFine。为了评估我们的注释，我们使用 Cohen s Kappa 和 F1 分数测量注释者间一致性 IAA，结果分别为 0.9861 和 0.9889。为了计算 WojoodFine 的基线，我们在平面 NER、嵌套 NER 和带子类型的嵌套 NER 三种设置中对三个预训练的阿拉伯语 BERT 编码器进行了微调，并分别获得了 0.920、0.866 和 0.885 的 F1 分数。

Nabra: Syrian Arabic Dialects with Morphological Annotations
Authors Amal Nayouf, Tymaa Hammouda, Mustafa Jarrar, Fadi Zaraket, Mohamad Bassam Kurdy
本文介绍了 Nabra，一个带有形态注释的叙利亚阿拉伯方言语料库。一支叙利亚当地人团队从社交媒体帖子、电影和电视剧剧本、歌曲歌词和当地谚语等多个来源收集了超过 6000 个句子，其中包含约 60000 个单词，以构建 Nabra。纳布拉涵盖了叙利亚的几种当地方言，包括阿勒颇、大马士革、代尔祖尔、哈马、霍姆斯、胡兰、拉塔基亚、马尔丁、拉卡和苏韦达。由九名注释者组成的团队对 60K 个标记进行了跨句子上下文的完整形态注释。我们培训注释者遵循方法注释指南，以确保独特的语素注释，并对注释进行标准化。各个特征的 F1 和 kappa 一致性分数在 74 到 98 之间，显示了 Nabra 注释的卓越质量。

An Ensemble Method Based on the Combination of Transformers with Convolutional Neural Networks to Detect Artificially Generated Text
Authors Vijini Liyanage, Davide Buscaldi
得益于最先进的大型语言模型法学硕士，语言生成已达到出色的水平。这些模型能够生成高质量的内容，因此从人类书写内容中检测生成的文本成为一项具有挑战性的任务。尽管自然语言生成提供了诸多优势，但无法区分自动生成的文本可能会引起真实性方面的伦理问题。因此，设计和开发检测人工内容的方法非常重要。在我们的工作中，我们提出了一些通过集成 Transformer 模型（例如 Sci BERT、DeBERTa 和 XLNet）与卷积神经网络 CNN 构建的分类模型。我们的实验表明，所考虑的集成架构超越了单个变压器模型的分类性能。

Learning to Abstract with Nonparametric Variational Information Bottleneck
Authors Melika Behjati, Fabio Fehr, James Henderson
字符、子词、单词和句子级别的学习表示都有助于理解不同 NLP 任务和语言现象的进步。然而，学习文本嵌入的成本很高，因为它们是特定于标记化的，并且需要针对每个抽象级别训练不同的模型。我们引入了一种新颖的语言表示模型，它可以学习在同一模型的不同层压缩到不同的抽象级别。我们将非参数变分信息瓶颈 NVIB 应用于编码器中堆叠的 Transformer 自注意力层，这鼓励通过模型对表示进行信息理论压缩。我们发现模型中的层对应于不断增加的抽象级别，并且它们的表示在语言上更加丰富。

Automatic Logical Forms improve fidelity in Table-to-Text generation
Authors I igo Alonso, Eneko Agirre
表到文本系统从表等结构化数据生成自然语言语句。虽然端到端技术的事实正确性保真度较低，但之前的一项研究报告了使用表示所选内容和目标文本语义的手动逻辑形式 LF 时的收益。鉴于手动步骤，尚不清楚自动 LF 是否有效，或者改进是否仅来自内容选择。我们提出了 TlT，在给定表格和内容选择的情况下，它首先生成 LF，然后生成文本语句。我们首次证明自动 LF 可以提高质量，与不使用 LF 的同类系统相比，保真度提高了 30 个点。

Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance?
Authors Ahmed Alajrami, Katerina Margatina, Nikolaos Aletras
了解 PLM 如何以及通过哪些预训练语言模型学习语言是自然语言处理领域的一项公开挑战。之前的工作重点是确定它们是否捕获语义和句法信息，以及数据或预训练目标如何影响它们的性能。然而，据我们所知，之前的工作还没有专门研究输入令牌字符中的信息丢失如何影响 PLM 的性能。在本研究中，我们通过使用单个标记中的小字符子集预训练语言模型来解决这一差距。令人惊讶的是，我们发现即使在极端设置下（即仅使用每个 token 的一个字符）进行预训练，与完整 token 模型相比，标准 NLU 基准和探测任务的性能保留率也很高。

Joint Entity and Relation Extraction with Span Pruning and Hypergraph Neural Networks
Authors Zhaohui Yan, Songlin Yang, Wei Liu, Kewei Tu
实体和关系抽取ERE是信息抽取中的一项重要任务。最近基于标记的管道模型实现了最先进的性能，但仍然遭受错误传播问题。

EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual Representation Learning
Authors Ping Guo, Xiangpeng Wei, Yue Hu, Baosong Yang, Dayiheng Liu, Fei Huang, Jun Xie
表达所有语言共有的通用语义有助于理解复杂和文化特定句子的含义。这一场景的研究主题侧重于使用大规模并行语料库来学习跨语言的通用表示。然而，由于并行数据的稀疏性和稀缺性，学习任何两种语言的真实共性仍然存在很大的挑战。在本文中，我们提出了 EMMA X 一种类似 EM 的多语言预训练算法，借助大量多语言非并行数据来学习 X 跨语言共性。 EMMA X 将跨语言表示学习任务和额外的语义关系预测任务统一在 EM 框架内。额外语义分类器和跨语言句子编码器都近似两个句子的语义关系，并相互监督直到收敛。为了评估 EMMA X，我们在 XRETE 上进行了实验，XRETE 是一个新引入的基准，包含 12 个广泛研究的跨语言任务，这些任务完全依赖于句子级表示。结果表明 EMMA X 实现了最先进的性能。

Beyond MLE: Convex Learning for Text Generation
Authors Chenze Shao, Zhengrui Ma, Min Zhang, Yang Feng
最大似然估计 MLE 是一种统计方法，用于估计最能解释观测数据的概率分布参数。在文本生成方面，MLE 通常用于训练生成语言模型，然后使用该模型生成新文本。然而，我们认为 MLE 并不总是必要的和最优的，特别是对于机器翻译等封闭式文本生成任务。在这些任务中，模型的目标是生成最合适的响应，这并不一定要求它使用 MLE 来估计整个数据分布。为此，我们提出了一类基于凸函数的新型训练目标，它使文本生成模型能够专注于高概率的输出，而无需估计整个数据分布。我们研究了将凸函数应用于损失时最优预测分布的理论特性，证明凸函数可以锐化最优分布，从而使模型能够更好地捕获高概率的输出。对各种文本生成任务和模型的实验表明了我们方法的有效性。它使自回归模型能够弥合贪婪搜索和集束搜索之间的差距，并促进非自回归模型的学习，最大可提高 9 个 BLEU 点。此外，我们的方法还对大型语言模型法学硕士产生了重大影响，大大增强了他们在各种任务上的生成能力。

X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity
Authors Taejun Yun, Jinhyeon Kim, Deokyeong Kang, Seong Hoon Lim, Jihoon Kim, Taeuk Kim
跨语言迁移 XLT 是多语言语言模型的一项新兴功能，当使用未包含在微调过程中的语言进行评估时，它可以在很大程度上保留其任务性能。虽然英语由于其广泛使用而通常被视为各种任务中模型适应的主要语言，但最近的研究表明，可以通过根据特定条件选择最合适的源语言来放大 XLT 的功效。在这项工作中，我们建议利用两种语言之间的子网络相似性作为预测 XLT 上下文中语言兼容性的代理。我们的方法是面向模型的，更好地反映基础模型的内部运作。此外，它只需要适量的候选语言原始文本，这与之前大多数依赖外部资源的方法不同。在实验中，我们证明我们的方法比跨不同任务的基线更有效。

Symbolic Planning and Code Generation for Grounded Dialogue
Authors Justin T. Chiu, Wenting Zhao, Derek Chen, Saujas Vaduguru, Alexander M. Rush, Daniel Fried
大型语言模型法学硕士擅长处理和生成文本和代码。然而，法学硕士在以任务为导向的对话中的适用性有限，因为它们难以引导任务目标并且无法处理新颖的基础。我们提出了一个模块化且可解释的扎根对话系统，通过将法学硕士与符号规划器和扎根代码执行组合起来来解决这些缺点。我们的系统由阅读器和规划器组成，阅读器利用法学硕士将合作伙伴的话语转换为可执行代码，调用执行基础的函数。翻译后的代码输出被存储以跟踪对话状态，而符号规划器则确定下一个适当的响应。我们评估了我们的系统在要求严苛的 OneCommon 对话任务中的性能，包括对散点抽象图像的协作参考分辨率。

Incorporating Probing Signals into Multimodal Machine Translation via Visual Question-Answering Pairs
Authors Yuxin Zuo, Bei Li, Chuanhao Lv, Tong Zheng, Tong Xiao, Jingbo Zhu
本文对多模态机器翻译 MMT 进行了深入研究，检验了普遍的理解，即当文本输入完成时，MMT 系统对视觉信息的敏感性降低。相反，我们将这种现象归因于跨模态交互不足，而不是图像信息冗余。提出了一种新颖的方法来从源文本生成并行的视觉问答 VQA 风格对，从而促进更强大的跨模式交互。使用大型语言模型 LLM，我们在 MMT 中对探测信号进行显式建模，将其转换为 VQA 样式数据，以创建 Multi30K VQA 数据集。引入了 MMT VQA 多任务学习框架，将数据集中的显式探测信号合并到 MMT 训练过程中。两个广泛使用的基准的实验结果证明了这种新颖方法的有效性。

M2C: Towards Automatic Multimodal Manga Complement
Authors Hongcheng Guo, Boyang Wang, Jiaqi Bai, Jiaheng Liu, Jian Yang, Zhoujun Li
多模态漫画分析侧重于通过视觉和文本特征增强漫画理解，这引起了自然语言处理和计算机视觉社区的广泛关注。目前，大多数漫画都是手绘，容易出现缺页、文字污染、老化等问题，导致漫画文字内容缺失，严重阻碍人类理解。换句话说，Multimodal Manga Complement M2C 任务尚未得到研究，该任务旨在通过为视觉和语言理解提供共享语义空间来处理上述问题。为此，我们首先通过建立涵盖两种语言的新 M2C 基准数据集来提出多模态漫画补充任务。首先，我们设计了一种名为 MCoT 的漫画论证方法，利用大语言模型来挖掘漫画中的事件知识。然后，提出了使用细粒度视觉提示的有效基线 FVP M 2 来支持漫画补充。

Test-time Augmentation for Factual Probing
Authors Go Kamoda, Benjamin Heinzerling, Keisuke Sakaguchi, Kentaro Inui
事实探测是一种使用提示来测试语言模型是否知道某些世界知识事实的方法。事实探测中的一个问题是提示的微小变化可能会导致模型输出的巨大变化。之前的工作旨在通过文本挖掘或微调来优化提示来缓解这个问题。然而，此类方法是特定于关系的，并且不能推广到不可见的关系类型。在这里，我们建议使用测试时间增强 TTA 作为一种关系不可知的方法，通过在测试时自动增强和集成提示来降低对提示变化的敏感性。实验表明改进的模型校准，即通过 TTA，模型置信度更好地反映了预测准确性。对于某些模型，观察到预测精度有所提高，但对于其他模型，TTA 会导致性能下降。

Topic Segmentation of Semi-Structured and Unstructured Conversational Datasets using Language Models
Authors Reshmi Ghosh, Harjeet Singh Kajal, Sharanya Kamath, Dhuri Shrivastava, Samyadeep Basu, Hansi Zeng, Soundararajan Srinivasan
根据语义结构将文档或对话分解为多个连续的片段是 NLP 中一个重要且具有挑战性的问题，它可以帮助许多下游任务。然而，当前的主题分割工作通常侧重于结构化文本的分割。在本文中，我们全面分析了最先进的主题分割模型对非结构化文本的泛化能力。我们发现，当前对大型结构化文本语料库（例如 Wiki 727K）进行预训练的策略无助于迁移到非结构化会话数据。 b 仅使用目标非结构化域的相对较小的数据集从头开始训练，可以显着提高分割结果。我们通过试验多个损失函数对我们提出的主题分割方法进行压力测试，以减轻非结构化会话数据集中不平衡的影响。

FLEEK: Factual Error Detection and Correction with Evidence Retrieved from External Knowledge
Authors Farima Fatahi Bayat, Kun Qian, Benjamin Han, Yisi Sang, Anton Belyi, Samira Khorshidi, Fei Wu, Ihab F. Ilyas, Yunyao Li
检测文本信息中的事实错误，无论是由大型语言模型 LLM 生成还是由人类策划，对于做出明智的决策至关重要。法学硕士无法将自己的主张归因于外部知识，而且他们容易产生幻觉，因此很难依赖他们的回答。人类在写作中也容易出现事实错误。由于手动检测和纠正事实错误是劳动密集型的，因此开发自动方法可以大大减少人力。我们提出了 FLEEK，这是一种原型工具，可以自动从文本中提取事实主张，从外部知识源收集证据，评估每个主张的事实性，并使用收集的证据对已识别的错误提出修改建议。对事实错误检测 77 85 F1 的初步实证评估显示了 FLEEK 的潜力。

BOOST: Harnessing Black-Box Control to Boost Commonsense in LMs' Generation
Authors Yufei Tian, Felix Zhang, Nanyun Peng
GPT 3 等大型语言模型 LLM 已展现出生成连贯且上下文相关文本的强大能力。然而，尽管他们取得了成功，但一个关键问题仍然存在，他们所产生的成果有时仍然缺乏常识。此外，将整个法学硕士朝着更常识性的输出进行微调，即使不是不可行，在计算上也是昂贵的。在本文中，我们提出了一个计算高效的框架，该框架将冻结的预训练语言模型 PTLM 引导至更常识性的生成，即产生以有意义的方式合并概念列表的合理输出。具体来说，我们首先构建一个无参考评估器，通过从四个不同的关系方面将句子基于动态常识知识库来为句子分配常识分数。然后，我们使用记分器作为常识知识的预言机，并扩展称为 NADO 的可控生成方法来训练引导固定 PTLM 的辅助头，以更好地满足预言机。我们在一系列基于 GPT 2 、 Flan T5 和 Alpaca 的语言模型 LM 上在两个受约束的概念到句子基准上测试了我们的框架。

On Surgical Fine-tuning for Language Encoders
Authors Abhilasha Lodha, Gayatri Belapurkar, Saloni Chalkapurkar, Yuanming Tao, Reshmi Ghosh, Samyadeep Basu, Dmitrii Petrov, Soundararajan Srinivasan
使用所有参数或使用参数有效的方法对预训练的神经语言编码器的所有层进行微调通常是使其适应新任务的实际方法。我们证明，对于不同的下游语言任务，仅微调层的子集就足以获得接近且通常优于微调语言编码器中所有层的性能。我们提出了一种基于 Fisher 信息矩阵 FIM Score 对角线的有效度量，来选择候选层进行选择性微调。我们根据 GLUE 和 SuperGLUE 任务以及不同语言编码器的经验表明，该指标可以有效地选择层，从而实现强大的下游性能。我们的工作强调，与给定下游任务相对应的任务特定信息通常位于几个层内，并且仅调整这些层就足以获得强大的性能。

Follow-on Question Suggestion via Voice Hints for Voice Assistants
Authors Besnik Fetahu, Pedro Faustini, Giuseppe Castellucci, Anjie Fang, Oleg Rokhlenko, Shervin Malmasi
Alexa 或 Siri 等语音助手的采用迅速增长，使用户可以通过语音搜索即时访问信息。查询建议是基于屏幕的搜索体验的标准功能，允许用户探索其他主题。然而，这在基于语音的设置中实现起来并非易事。

An Integrative Survey on Mental Health Conversational Agents to Bridge Computer Science and Medical Perspectives
Authors Young Min Cho, Sunny Rai, Lyle Ungar, Jo o Sedoc, Sharath Chandra Guntuku
心理健康对话代理（又名聊天机器人）因其为面临心理健康挑战的人提供便捷支持的潜力而受到广泛研究。之前关于该主题的调查主要考虑计算机科学或医学领域发表的论文，导致理解上的分歧并阻碍了两个领域之间有益知识的共享。为了弥补这一差距，我们使用 PRISMA 框架进行了全面的文献综述，回顾了计算机科学和医学领域发表的 534 篇论文。我们的系统综述揭示了 136 篇关于构建具有不同建模和实验设计技术特征的心理健康相关对话代理的关键论文。我们发现计算机科学论文侧重于法学硕士技术并使用自动化指标评估响应质量，而很少关注应用程序，而医学论文则使用基于规则的会话代理和结果指标来衡量参与者的健康结果。

Data Augmentation for Emotion Detection in Small Imbalanced Text Data
Authors Anna Koufakou, Diego Grisales, Ragy Costa de jesus, Oscar Fox
文本中的情绪识别，即识别快乐或愤怒等情绪的任务，是 NLP 中具有许多应用的挑战性问题。挑战之一是缺乏带有情感注释的可用数据集。某些现有数据集很小，遵循不同的情感分类法，并且在情感分布上表现出不平衡。在这项工作中，我们精确地研究了数据增强技术应用于小型不平衡数据集时的影响，目前最先进的模型（例如 RoBERTa）对此数据集的性能较差。具体来说，我们在来自不同来源且大小、情感类别和分布各不相同的三个数据集上使用了四种数据增强方法：简单数据增强 EDA、基于静态和上下文嵌入以及 ProtAugment。我们的实验结果表明，在训练分类器模型时使用增强数据可以带来显着的改进。最后，我们进行了两个案例研究：a 直接使用流行的聊天 GPT API 使用不同的提示来释义文本；b 使用外部数据来增强训练集。

This Reads Like That: Deep Learning for Interpretable Natural Language Processing
Authors Claudio Fanconi, Moritz Vandenhirtz, Severin Husmann, Julia E. Vogt
原型学习是一种流行的机器学习方法，专为本质上可解释的决策而设计，它利用与学习原型的相似性来对新数据进行分类。虽然它主要应用于计算机视觉，但在这项工作中，我们在先前的研究基础上进一步探索原型网络向自然语言处理的扩展。我们引入了一种学习加权相似性度量，通过关注预训练句子嵌入的信息维度来增强相似性计算。此外，我们提出了一种事后可解释性机制，可以从原型和输入句子中提取预测相关单词。

Quality > Quantity: Synthetic Corpora from Foundation Models for Closed-Domain Extractive Question Answering
Authors Saptarshi Sengupta, Connor Heaton, Shreya Ghosh, Preslav Nakov, Prasenjit Mitra
领域适应，即在一个领域训练模型并将其应用于另一个领域的过程，在机器学习中得到了广泛的探索。虽然从头开始训练特定领域基础模型 FM 是一种选择，但最近的方法侧重于针对特定领域任务调整预先训练的 FM。然而，我们的实验表明，这两种方法都不能始终在目标领域实现最先进的 SOTA 结果。在这项工作中，我们研究封闭领域内的提取式问答，并引入有针对性的预训练的概念。这涉及确定和生成相关数据以进一步预训练我们的模型，而不是利用在广泛数据上训练的特定领域 FM 的传统理念。我们提出的框架使用卡拉狄加来生成符合特定写作风格和主题（例如研究论文和放射学报告）的合成的、有针对性的语料库。这个过程可以被视为知识蒸馏的一种形式。我们将我们的方法应用于两个生物医学提取问答数据集：COVID QA 和 RadQA，在前者上实现了新的基准，并在后者上展示了整体改进。

How well can machine-generated texts be identified and can language models be trained to avoid identification?
Authors Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
随着 GPT 3、GPT NeoX 或 OPT 等生成式预训练 Transformer 模型的兴起，区分人类生成的文本和机器生成的文本变得非常重要。

STEER: Semantic Turn Extension-Expansion Recognition for Voice Assistants
Authors Leon Liyang Zhang, Jiarui Lu, Joel Ruben Antony Moniz, Aditya Kulkarni, Dhivya Piraviperumal, Tien Dung Tran, Nicholas Tzou, Hong Yu
在语音助理系统的背景下，转向是指用户发出后续命令试图引导或澄清先前转向的现象。我们提出了 STEER，一种转向检测模型，可以预测后续转弯是否是用户尝试转向先前的命令。由于冷启动问题，构建用于转向用例的训练数据集带来了挑战。为了克服这个问题，我们开发了启发式规则来对使用数据进行采样，在没有任何注释的情况下近似正样本和负样本。我们的实验结果表明，在识别转向意图方面表现良好，采样数据的准确度超过 95。此外，STEER 与我们的采样策略相结合，可以有效地与现实世界的转向场景保持一致，其在人类分级评估集上强大的零样本性能就证明了这一点。除了仅依赖用户转录作为输入之外，我们还引入了 STEER，该模型的增强版本。 STEER 利用语义解析树来提供词汇表外单词的更多上下文，例如经常出现在句子边界的命名实体。这进一步提高了模型性能，降低了实体频繁出现的领域（例如消息传递）的错误率。

Understanding Social Structures from Contemporary Literary Fiction using Character Interaction Graph -- Half Century Chronology of Influential Bengali Writers
Authors Nafis Irtiza Tripto, Mohammed Eunus Ali
社会结构和现实世界事件经常影响当代文学小说。现有的文学小说分析研究通过对故事的手动批判分析来解释这些现实世界现象。传统的自然语言处理 NLP 方法，包括情感分析、叙述总结和主题建模，在分析和识别虚构作品中的相似性方面已表现出巨大的功效。然而，小说中人物互动的复杂动态需要采用更细致的方法，结合可视化技术。角色交互图或网络作为一种非常适合小说领域可视化和信息检索的手段而出现。因此，我们利用具有 NLP 衍生特征的人物交互图来探索有关当代文化对文学小说景观影响的各种社会调查。我们的研究涉及从小说中构建人物交互图，提取相关的图特征，并利用这些特征来解决各种现实生活中的查询。对半个世纪以来有影响力的孟加拉小说的实验评估表明，人物交互图在文学小说的具体评估和信息检索中非常有效。

Critic-Driven Decoding for Mitigating Hallucinations in Data-to-text Generation
Authors Mateusz Lango, Ond ej Du ek
输入中没有根据的文本幻觉是神经数据到文本生成中的一个众所周知的问题。已经提出了许多方法来缓解它，但它们通常需要改变模型架构或收集额外的数据，因此不能轻易应用于现有模型。在本文中，我们探索了一种减轻幻觉的新方法，将生成器语言模型 LM 的概率输出与特殊文本评论分类器的输出相结合，该分类器通过评估输入数据和生成的文本之间的匹配来指导生成，从而远的。我们的方法不需要对底层 LM 架构或训练过程进行任何更改，因此可以与任何对单词概率进行操作的模型和解码相结合。批评者不需要任何额外的训练数据，使用基础 LM 的训练数据和合成的负例。

Learning Transfers over Several Programming Languages
Authors Razan Baltaji, Saurabh Pujar, Louis Mandel, Martin Hirzel, Luca Buratti, Lav Varshney
大型语言模型法学硕士最近在提高高资源编程语言的开发人员生产力方面变得非常擅长。这些模型使用两种数据：大量未标记的代码样本用于预训练，以及相对少量的标记代码样本用于微调或上下文学习。不幸的是，许多编程语言资源匮乏，缺乏大多数任务的标记样本，甚至常常缺乏未标记的样本。因此，低资源语言（例如旧语言或新语言）的用户会错过法学硕士的好处。跨语言迁移学习使用源语言的数据来提高目标语言的模型性能。它在自然语言方面已经得到了很好的研究，但在编程语言方面却很少受到关注。本文报告了使用基于 LLM 的 Transformer 和 11 到 41 种编程语言对四项任务进行的广泛实验，以探讨以下问题。首先，跨语言迁移对于不同语言对的给定任务的效果如何。其次，给定任务和目标语言，如何最好地选择源语言。

CL-MASR: A Continual Learning Benchmark for Multilingual ASR
Authors Luca Della Libera, Pooneh Mousavi, Salah Zaiem, Cem Subakan, Mirco Ravanelli
现代多语言自动语音识别 ASR 系统（例如 Whisper）使得使用单一模型转录多种语言的音频成为可能。然而，当前最先进的 ASR 模型通常是在单独的语言或多任务设置中进行评估，忽略了不断学习新语言的挑战。关于如何添加新语言而不丢失先前数据中的有价值信息的研究还不够。此外，现有的持续学习基准主要关注视觉和语言任务，而多语言 ASR 的持续学习在很大程度上尚未得到探索。为了弥补这一差距，我们提出了 CL MASR，这是一个为在持续学习环境中研究多语言 ASR 而设计的基准。 CL MASR 提供了在大规模预训练 ASR 模型之上实施的一套多样化的持续学习方法，以及用于评估学习新语言的有效性同时解决灾难性遗忘问题的通用指标。据我们所知，CL MASR 是第一个针对多语言 ASR 任务的持续学习基准。

Physician Detection of Clinical Harm in Machine Translation: Quality Estimation Aids in Reliance and Backtranslation Identifies Critical Errors
Authors Nikita Mehandru, Sweta Agrawal, Yimin Xiao, Elaine C Khoong, Ge Gao, Marine Carpuat, Niloufar Salehi
机器翻译机器翻译实际使用的一个主要挑战是用户缺乏指导来就何时依赖输出做出明智的决定。质量估计研究的进展提供了自动评估机器翻译质量的技术，但这些技术主要是通过与特定使用环境之外的人类判断进行比较来进行体外评估的。本文通过模拟高风险医疗环境中决策的人体研究来评估体内质量估计反馈。使用急诊科出院指示，我们研究基于质量估计与反向翻译的干预措施如何帮助医生决定是否向患者显示 MT 输出。

Divide et Impera: Multi-Transformer Architectures for Complex NLP-Tasks
Authors Solveig Helland, Elena Gavagnin, Alexandre de Spindler
Transformer 模型的功能不断增强，为解决日益复杂的 NLP 任务铺平了道路。支持应用程序特定要求的关键是微调能力。然而，编译针对复杂任务的微调数据集非常繁琐，并且会产生大型数据集，从而限制了控制变压器输出的能力。我们提出了一种将复杂任务划分为更简单的子任务的方法。多个变压器模型针对每个子任务进行微调，并排列起来以完成复杂的任务。这简化了微调数据集的编译并提高了整体可控性。

In-Context Learning Dynamics with Random Binary Sequences
Authors Eric J. Bigelow, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Tomer D. Ullman
在庞大的文本数据集上训练的大型语言模型法学硕士展示了复杂的、突发的能力，在未明确训练的任务上实现了最先进的性能。 LLM能力的确切性质通常是神秘的，不同的提示可以通过情境学习引出不同的能力。我们提出了一个认知可解释性框架，使我们能够在上下文中分析学习动态，以理解法学硕士潜在行为模式中的潜在概念。这提供了比成功或失败评估基准更细致的理解，但不需要像电路的机械解释那样观察内部激活。受人类随机性感知认知科学的启发，我们使用随机二进制序列作为上下文，并通过操纵上下文数据的属性（例如序列长度）来研究上下文学习的动态。

Uncovering Meanings of Embeddings via Partial Orthogonality
Authors Yibo Jiang, Bryon Aragam, Victor Veitch
机器学习工具通常依赖于将文本嵌入为实数向量。在本文中，我们研究了语言的语义结构如何编码在此类嵌入的代数结构中。具体来说，我们研究语义独立性的概念，捕捉这样的想法：例如，茄子和番茄是独立的蔬菜。尽管这些例子很直观，但很难形式化这种语义独立的概念。这里的关键观察是，任何合理的形式化都应该遵守一组所谓的独立公理，因此该结构的任何代数编码也应该遵守这些公理。这导致我们自然地使用部分正交性作为相关的代数结构。我们开发的理论和方法使我们能够证明部分正交性确实捕获了语义独立性。

PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven Perturbed Gradient Descent
Authors Guangliang Liu, Zhiyu Xue, Xitong Zhang, Kristen Marie Johnson, Rongrong Wang
针对下游任务微调预训练语言模型 PLM 是一个大规模优化问题，其中训练算法的选择关键决定了训练模型对未见过的测试数据的泛化能力，尤其是在少量镜头学习的情况下。为了获得良好的泛化性能并避免过度拟合，通常会应用数据增强和剪枝等技术。然而，添加这些正则化需要对优化算法的超参数进行大量调整，例如流行的 Adam 优化器。在本文中，我们提出了一种两阶段微调方法，即 PAC 调优，来解决这一优化挑战。首先，基于 PAC 贝叶斯训练，PAC 调优直接最小化 PAC 贝叶斯泛化界限，以学习正确的参数分布。其次，PAC调优通过在训练期间将具有第一阶段学习到的方差的噪声注入到模型参数中来修改梯度，从而产生扰动梯度下降PGD的变体。过去，少数镜头场景给 PAC 贝叶斯训练带来了困难，因为当应用于训练数据有限的大型模型时，PAC 贝叶斯界限可能不严格。我们在 5 个 GLUE 基准任务中的实验结果表明，PAC 调优成功地应对了微调任务的挑战，并且明显优于强大的基线方法，进一步证实了将 PAC 训练应用于 Adam 优化器当前使用的任何其他设置的潜力。

1D-Touch: NLP-Assisted Coarse Text Selection via a Semi-Direct Gesture
Authors Peiling Jiang, Li Feng, Fuling Sun, Parakrant Sarkar, Haijun Xia, Can Liu
触摸屏上现有的文本选择技术侧重于改进对移动插入符的控制。除了单词捕捉和实体识别之外，单词和短语级别的粗粒度文本选择没有得到太多支持。我们介绍 1D Touch，这是一种新颖的文本选择方法，通过促进单词及以上语义单元的选择来补充基于插入符的子词选择。该方法采用简单的垂直滑动手势来扩展和收缩单词的选择区域。扩展可以是单词，也可以是从子短语到句子的语义块。该技术将文本选择的概念从通过定位第一个和最后一个单词来定义范围转变为扩展和收缩文本语义实体的动态过程。为了了解我们方法的效果，我们原型设计并测试了两种变体 WordTouch，它提供了直接的逐字扩展，以及 ChunkTouch，它利用 NLP 将文本分块为句法单元，允许选择按语义上有意义的单元增长，以响应滑动手势。

Navigating to Success in Multi-Modal Human-Robot Collaboration: Analysis and Corpus Release
Authors Stephanie M. Lukin, Kimberly A. Pollard, Claire Bonial, Taylor Hudson, Ron Arstein, Clare Voss, David Traum
人类引导的机器人探索是一种在偏远地区收集信息的有用方法，特别是那些对于人类来说风险太大、不适宜居住或无法到达的地区。保持远程合作伙伴之间的共同点是一项挑战，但可以通过多模式通信来促进这一挑战。在本文中，我们探讨了参与者如何在机器人伙伴的帮助下利用多种方式来调查远程位置。参与者发出自然语言语音指令，并从机器人接收基于文本的反馈、连续的 2D 激光雷达测绘以及根据要求提供的静态照片。我们注意到在使用模式方面采用了不同的策略，并假设这些差异可能与几个探索子任务的成功相关。我们发现，请求照片可能特别改善了一些关键实体门口的识别和计数，并且这种策略并没有妨碍整体区域探索的数量。未来对更大样本的研究可能会揭示更细致的照片和对话策略的影响，这可以为机器人代理的训练提供信息。

Unpacking the Ethical Value Alignment in Big Models
Authors Xiaoyuan Yi, Jing Yao, Xiting Wang, Xing Xie
大模型极大地提高了人工智能理解、生成和操纵信息和内容的能力，从而实现了众多应用。然而，随着这些模式越来越融入日常生活，其固有的道德价值观和潜在的偏见给社会带来了不可预见的风险。本文概述了与大模型相关的风险和挑战，调查了现有的人工智能道德准则，并研究了这些模型的局限性所产生的道德影响。从规范伦理的角度来看，我们建议重新评估最近的规范指南，强调学术界合作建立统一和普遍的人工智能伦理框架的重要性。此外，我们使用道德基础理论调查当前主流法学硕士的道德倾向，分析现有的对齐算法，并概述在调整其中的道德价值观时遇到的独特挑战。

Evaluating Bias and Fairness in Gender-Neutral Pretrained Vision-and-Language Models
Authors Laura Cabello, Emanuele Bugliarello, Stephanie Brandl, Desmond Elliott
众所周知，预先训练的机器学习模型会延续甚至放大数据中现有的偏差，这可能会导致不公平的结果，最终影响用户体验。因此，了解这些偏见背后的机制至关重要，以确保模型性能不会导致对某些群体或人群的歧视行为。在这项工作中，我们将性别偏见定义为我们的案例研究。我们量化了预训练中以及对三个视觉和语言模型系列进行微调后的偏差放大。我们研究两个学习阶段之间的联系（如果有的话），并评估偏差放大如何影响模型性能。总的来说，我们发现训练前和微调后的偏差放大是独立的。

The Expressive Power of Low-Rank Adaptation
Authors Yuchen Zeng, Kangwook Lee
低秩自适应 LoRA 是一种利用权重矩阵低秩自适应的参数高效微调方法，已成为微调预训练模型（例如大型语言模型和扩散模型）的流行技术。尽管 LoRA 在实践中取得了巨大成功，但其理论基础在很大程度上仍未得到探索。本文通过理论上分析 LoRA 的表达能力，迈出了弥合这一差距的第一步。我们证明，对于完全连接的神经网络，如果 LoRA 对 f 的 geq 文本宽度乘以上划线 f 的 frac 文本深度 f 的文本深度，LoRA 可以调整任何模型 f 来准确表示任何较小的目标模型上划线 f 。当 LoRA 等级低于阈值时，我们还量化了近似误差。

CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents
Authors Qinlin Zhao, Jindong Wang, Yixuan Zhang, Yiqiao Jin, Kaijie Zhu, Hao Chen, Xing Xie
大语言模型 LLM 已被广泛用作代理来完成不同的任务，例如个人协助或活动策划。虽然大多数工作都集中在主体之间的合作与协作，但很少有工作探讨竞争，这是促进社会和经济发展的另一个重要机制。在本文中，我们试图研究基于法学硕士的代理人的竞争行为。我们首先提出一个研究代理之间竞争的总体框架。然后，我们使用 GPT 4 实现了一个实际的竞争环境，模拟一个具有两种类型代理的虚拟城镇，包括餐厅代理和客户代理。具体来说，餐厅代理商之间相互竞争以吸引更多顾客，竞争促使他们转型，例如培育新的经营策略。我们的实验结果揭示了从社会学习到马太效应的一些有趣的发现，这与现有的社会学和经济学理论非常吻合。我们认为，代理人之间的竞争值得进一步研究，以帮助我们更好地了解社会。

LightLM: A Lightweight Deep and Narrow Language Model for Generative Recommendation
Authors Kai Mei, Yongfeng Zhang
本文提出了 LightLM，一种基于 Transformer 的轻量级生成推荐语言模型。虽然基于 Transformer 的生成建模在 NLP 和视觉等各个 AI 子领域中越来越重要，但由于其对个性化生成建模的独特需求，生成推荐仍处于起步阶段。现有的生成推荐工作通常使用面向 NLP 的 Transformer 架构，例如 T5、GPT、LLaMA 和 M6，这些架构重量级且不是专门为推荐任务设计的。 LightLM 通过引入轻量级的深而窄的 Transformer 架构来解决这个问题，该架构是专门为直接生成推荐项而定制的。这种结构特别适合直接的生成推荐，并且源于这样的观察：语言模型对于此任务不必太宽，因为输入主要由非常适合模型容量的短标记组成。我们还展示了我们设计的用户和项目 ID 索引方法，即 Spectral Collaborative Indexing SCI 和 Graph Collaborative Indexing GCI ，使深而窄的 Transformer 架构在推荐方面优于大规模语言模型。此外，为了解决生成项目作为输出的幻觉问题，我们提出了生成推荐器的约束生成过程。对现实世界数据集的实验表明，LightLM 在推荐准确性和效率方面均优于各种竞争基准。

Dialogue-based generation of self-driving simulation scenarios using Large Language Models
Authors Antonio Valerio Miceli Barone, Alex Lascarides, Craig Innes
仿真是开发和评估自动驾驶汽车控制器的宝贵工具。当前的模拟框架是由高度专业的领域特定语言驱动的，因此自然语言界面将极大地提高可用性。但简洁的英语话语与捕获用户意图的可执行代码之间通常存在差距，其中包括用户所做的默认假设。在本文中，我们描述了一个通过支持扩展的多模式交互来解决此问题的系统，用户可以根据迄今为止从其话语生成的模拟来跟进先前的指令，进行改进或修订。

FormaT5: Abstention and Examples for Conditional Table Formatting with Natural Language
Authors Mukul Singh, Jos Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Elnaz Nouri, Mohammad Raza, Gust Verbruggen
格式是表格中用于可视化、演示和分析的重要属性。电子表格软件允许用户通过编写数据相关条件格式化 CF 规则来自动格式化表格。编写此类规则对于用户来说通常具有挑战性，因为它要求他们理解并实现底层逻辑。我们提出了 FormaT5，一个基于转换器的模型，可以在给定目标表和所需格式化逻辑的自然语言描述的情况下生成 CF 规则。我们发现这些任务的用户描述通常不够明确或含糊不清，使得代码生成系统更难在一步中准确地学习所需的规则。为了解决规范不足的问题并最大限度地减少参数错误，FormaT5 学会通过弃权目标来预测占位符。然后，这些占位符可以由第二个模型填充，或者当应格式化的行的示例可用时，由示例系统编程来填充。为了在不同的真实场景中评估 FormaT5，我们创建了 1053 个 CF 任务的广泛基准测试，其中包含从四个不同来源收集的真实世界描述。我们发布基准以鼓励该领域的研究。弃权和填充使得 FormaT5 在我们的基准测试中（无论有例子还是没有例子）都优于 8 种不同的神经方法。

Comparing Photorealistic and Animated Embodied Conversational Agents in Serious Games: An Empirical Study on User Experience
Authors Danai Korre
体现对话代理 ECA 是体现字符形式的对话用户界面的范例。虽然 ECA 提供了各种可操作的功能，但本文重点关注一项旨在探索两种不同层次的呈现真实性的研究。这两个特工版本都是逼真且动画的。该研究旨在为严肃游戏环境中启用语音的 ECA 提供见解和设计建议。本研究采用受试者内部二乘二析因设计，共有 36 名参与者，性别均衡。结果显示，真实感版本和动画版本都被认为具有很高的可用性，总体平均分分别为 5.76 和 5.71。然而，69.4% 的参与者表示他们更喜欢逼真版本，25% 表示他们更喜欢动画版本，5.6% 的人没有明确表示偏好。逼真的代理被认为更加真实和人性化，而动画角色则让任务感觉更像是一场游戏。尽管代理的真实性对可用性没有显着影响，但它对参与者对代理的看法产生了积极的影响。

Codebook Features: Sparse and Discrete Interpretability for Neural Networks
Authors Alex Tamkin, Mohammad Taufeeque, Noah D. Goodman
理解神经网络具有挑战性，部分原因在于其隐藏状态的密集、连续性。我们探索是否可以通过将神经网络的连续特征量化为我们所说的码本特征来训练神经网络具有稀疏、离散且更可解释的隐藏状态。码本特征是通过对每层具有矢量量化瓶颈的神经网络进行微调而产生的，产生的网络的隐藏特征是从较大码本中选择的少量离散矢量代码的总和。令人惊讶的是，我们发现神经网络可以在这种极端瓶颈下运行，而性能仅略有下降。这种稀疏、离散的瓶颈还提供了一种直观的方法，首先控制神经网络行为，找到在出现所需行为时激活的代码，然后在生成过程中激活这些相同的代码以引发该行为。我们通过在几个不同的数据集上训练密码本 Transformer 来验证我们的方法。首先，我们探索一个有限状态机数据集，其隐藏状态比神经元多得多。在这种情况下，我们的方法通过将状态分配给不同的代码来克服叠加问题，并且我们发现我们可以通过激活该状态的代码来使神经网络表现得好像处于不同的状态。其次，我们在两个自然语言数据集上训练具有多达 410M 参数的 Transformer 语言模型。我们在这些模型中识别出代表不同、相互独立的概念（从负面情绪到一年中的几个月）的代码，并发现我们可以通过在推理过程中激活适当的代码来引导模型生成不同的主题。总体而言，码本特征似乎是神经网络和可解释性分析和控制的有前途的单位。

TST$^\mathrm{R}$: Target Similarity Tuning Meets the Real World
Authors Anirudh Khatry, Sumit Gulwani, Priyanshu Gupta, Vu Le, Ananya Singha, Mukul Singh, Gust Verbruggen
目标相似度调优TST是一种通过大型语言模型LLM选择自然语言NL中的相关示例进行代码生成以提高性能的方法。其目标是调整句子嵌入模型，使两个 NL 输入之间的相似性与其相关代码输出之间的相似性相匹配。在本文中，我们提出了在现实世界中应用和改进 TST 的不同方法。首先，我们用更大模型中的嵌入替换句子转换器，这降低了对语言分布的敏感性，从而为示例的合成生成提供了更大的灵活性，并且我们训练了一个微型模型，将这些嵌入转换为嵌入相似性与代码匹配的空间相似性，这使得模型仍然是一个黑匣子，并且在推理时只需要一些矩阵乘法。其次，我们如何有效地选择较少数量的训练样本来训练 TST 模型。

Efficient Data Fusion using the Tsetlin Machine
Authors Rupsa Saha, Vladimir I. Zadorozhny, Ole Christoffer Granmo
我们提出了一种使用 Tsetlin 机器评估和融合噪声动态数据的新方法。我们的方法包括监控 TM 学习的逻辑子句形式的解释如何随着动态数据中可能存在的噪声而变化。这样TM可以通过降低先前学习的子句的权重来识别噪声，或者以新子句的形式反映它。

How do Language Models Bind Entities in Context?
Authors Jiahai Feng, Jacob Steinhardt
为了正确使用上下文信息，语言模型 LM 必须将实体与其属性绑定。例如，给定描述绿色正方形和蓝色圆形的上下文，LM 必须将形状绑定到它们各自的颜色。我们分析了 LM 表示并确定了绑定 ID 机制，这是解决绑定问题的通用机制，我们在 Pythia 和 LLaMA 系列的每个足够大的模型中都观察到了这一机制。使用因果干预，我们表明 LM 内部激活通过将绑定 ID 向量附加到相应的实体和属性来表示绑定信息。我们进一步表明，结合 ID 向量形成一个连续的子空间，其中结合 ID 向量之间的距离反映了它们的可辨别性。

Supercharging academic writing with generative AI: framework, techniques, and caveats
Authors Zhicheng Lin
学术写作是研究事业中不可或缺但又费力的一部分。本视角阐述了使用生成人工智能（AI）（特别是大型语言模型法学硕士）来提高学术写作的质量和效率的原则和方法。我们引入了一个人类人工智能协作框架，该框架描述了人工智能参与写作的基本原理、处理方式和性质。该框架指出了参与的短期和长期原因及其潜在机制，例如认知卸载和想象力刺激。它揭示了人工智能在整个写作过程中的作用，通过人类人工智能协作写作的两阶段模型进行概念化，以及人工智能辅助写作的本质，通过写作辅助类型和级别的模型来表示。在此框架的基础上，我们描述了将人工智能纳入写作例程提纲、起草和编辑的有效提示技术，以及保持严格学术、遵守各种期刊政策和避免过度依赖人工智能的策略。

Transformers Learn Higher-Order Optimization Methods for In-Context Learning: A Study with Linear Models
Authors Deqing Fu, Tian Qi Chen, Robin Jia, Vatsal Sharan
Transformer 非常擅长在上下文中学习 ICL，无需参数更新即可从演示中学习，但它们如何执行 ICL 仍然是个谜。最近的研究表明，变形金刚可以通过内部运行梯度下降（一种一阶优化方法）在上下文中学习。在本文中，我们相反地证明 Transformer 学习实现高阶优化方法来执行 ICL。重点关注上下文中的线性回归，我们表明 Transformers 学习实现一种与迭代牛顿法非常相似的算法，这是一种高阶优化方法，而不是梯度下降。根据经验，我们表明连续 Transformer 层的预测与牛顿法的不同迭代线性匹配，每个中间层大致计算 3 次迭代。相比之下，需要指数级更多的梯度下降步骤来匹配额外的 Transformers 层，这表明 Transformers 具有与迭代牛顿等高阶方法相当的收敛速度，而迭代牛顿法比梯度下降指数快。我们还表明，Transformers 可以在病态数据的背景下进行学习，在这种情况下，梯度下降会遇到困难，但迭代牛顿会成功。

math-PVS: A Large Language Model Framework to Map Scientific Publications to PVS Theories
Authors Hassen Saidi, Susmit Jha, Tuhin Sahai

Controlled Decoding from Language Models
Authors Sidharth Mudgal, Jong Lee, Harish Ganapathy, YaGuang Li, Tao Wang, Yanping Huang, Zhifeng Chen, Heng Tze Cheng, Michael Collins, Trevor Strohman, Jilin Chen, Alex Beutel, Ahmad Beirami
我们提出了受控解码 CD ，这是一种新颖的非策略强化学习方法，用于控制从语言模型到高奖励结果的自回归生成。 CD 通过奖励的价值函数（我们称之为前缀评分器）解决了非策略强化学习问题。前缀评分器在推理时使用，以引导一代人获得更高的奖励结果。我们表明，前缀评分器可以在可能偏离策略的数据上进行训练，以预测当从部分解码的响应继续解码时的预期奖励。我们凭经验证明 CD 作为 Reddit 对话语料库的控制机制是有效的。我们还表明，CD 设计的模块化使得控制多种奖励成为可能，从而有效地解决多目标强化学习问题，而不增加额外的复杂性。最后，我们证明 CD 可以在推理时以新颖的块方式应用，同样不需要任何训练时间变化，从本质上缩小了流行的最佳 K 策略和令牌级强化学习之间的差距。

Conditionally Combining Robot Skills using Large Language Models
Authors K.R. Zentner, Ryan Julian, Brian Ichter, Gaurav S. Sukhatme
本文结合了两个贡献。首先，我们介绍 Meta World 基准的扩展，我们称之为 Language World，它允许大型语言模型使用半结构化自然语言查询和使用自然语言描述的脚本技能在模拟机器人环境中运行。通过使用与 Meta World 相同的任务集，可以轻松地将 Language World 结果与 Meta World 结果进行比较，从而可以对使用大型语言模型 LLM 的最新方法与使用深度强化学习的方法进行比较。其次，我们引入了一种称为计划条件行为克隆 PCBC 的方法，该方法允许使用端到端演示来微调高级计划的行为。使用 Language World，我们证明 PCBC 能够在各种少数镜头方案中实现强大的性能，通常只需一次演示即可实现任务泛化。

Zephyr: Direct Distillation of LM Alignment
Authors Lewis Tunstall, Edward Beeching, Nathan Lambert, Nazneen Rajani, Kashif Rasul, Younes Belkada, Shengyi Huang, Leandro von Werra, Cl mentine Fourrier, Nathan Habib, Nathan Sarrazin, Omar Sanseviero, Alexander M. Rush, Thomas Wolf
我们的目标是产生一个更小的、符合用户意图的语言模型。先前的研究表明，在较大的模型上应用蒸馏监督微调 dSFT 可以显着提高任务准确性，但是，这些模型是不一致的，即它们对自然提示的响应不佳。为了提炼这个属性，我们尝试使用来自 AI Feedback AIF 的偏好数据。从按教师模型排序的输出数据集开始，我们应用精炼的直接偏好优化 dDPO 来学习意图一致性显着改善的聊天模型。该方法只需要几个小时的训练，在微调过程中不需要任何额外的采样。最终结果 Zephyr 7B 为 7B 参数模型的聊天基准设定了最新技术，并且不需要人工注释。特别是，MT Bench 上的结果表明 Zephyr 7B 超越了 Llama2 Chat 70B（基于 RLHF 的最佳开放访问模型）。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com