【AI视野·今日NLP 自然语言处理论文速览第五十一期】Tue, 10 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 10 Oct 2023 (showing first 100 of 172 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Few-Shot Spoken Language Understanding via Joint Speech-Text Models
Authors Chung Ming Chien, Mingjiamei Zhang, Ju Chieh Chou, Karen Livescu
最近关于与文本联合预训练的语音表示模型的工作已经证明了通过在共享空间中编码语音和文本来改进语音表示的潜力。在本文中，我们利用这种共享表示来解决口语理解任务中数据可用性有限的持续挑战。通过采用预先训练的语音文本模型，我们发现对文本进行微调的模型可以有效地转移到语音测试数据。与之前使用仅语音预训练模型对 10 倍以上数据进行微调的方法相比，我们提出的方法只需 1 小时的标记语音数据，即可在口语理解任务（特别是情感分析和命名实体识别）上实现可比的性能。除了概念验证研究之外，我们还分析了潜在的表征。

FireAct: Toward Language Agent Fine-tuning
Authors Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, Shunyu Yao
最近的努力通过外部工具或环境增强了语言模型 LM，从而导致了能够推理和行动的语言代理的开发。然而，这些智能体中的大多数都依赖于现成的 LM 的少量射击提示技术。在本文中，我们对微调 LM 以获得语言代理的被忽视的方向进行了调查和争论。使用带有 Google 搜索 API 的问答 QA 设置，我们探索了各种基础 LM、提示方法、微调数据和 QA 任务，并发现语言代理在微调其骨干 LM 后得到了持续改进。例如，使用 GPT 4 生成的 500 个代理轨迹对 Llama2 7B 进行微调，可使 HotpotQA 性能提高 77 个。此外，我们提出了 FireAct，这是一种通过多个任务和提示方法的轨迹来微调 LM 的新方法，并表明拥有更多样化的微调数据可以进一步改进智能体。

NEFTune: Noisy Embeddings Improve Instruction Finetuning
Authors Neel Jain, Ping yeh Chiang, Yuxin Wen, John Kirchenbauer, Hong Min Chu, Gowthami Somepalli, Brian R. Bartoldson, Bhavya Kailkhura, Avi Schwarzschild, Aniruddha Saha, Micah Goldblum, Jonas Geiping, Tom Goldstein
我们证明，通过简单的增强，语言模型的微调可以得到改善，有时甚至是显着的改善。 NEFTune 在训练期间向嵌入向量添加噪声。使用 Alpaca 对 LLaMA 2 7B 进行标准微调，在 AlpacaEval 上达到 29.79，使用噪声嵌入则升至 64.69。 NEFTune 还改进了现代教学数据集的强大基线。使用 Evol Instruct 训练的模型提高了 10 个，使用 ShareGPT 训练的模型提高了 8 个，使用 OpenPlatypus 训练的模型提高了 8 个。

SALMON: Self-Alignment with Principle-Following Reward Models
Authors Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan
对响应演示的监督微调 SFT 与人类反馈 RLHF 的强化学习相结合，构成了调整基于 LLM 的 AI 代理的强大范例。然而，这种方法的一个显着限制是它依赖于高质量的人工注释，由于难以获得一致的响应演示和分布响应偏好，使得其在复杂任务中的应用具有挑战性。本文提出了一种新颖的方法，即 SALMON 自对齐与遵循奖励模型的原则，以最少的人类监督来对齐基本语言模型，仅使用一小组人类定义的原则，但却实现了卓越的性能。我们方法的核心是遵循奖励模型的原则。该模型经过综合偏好数据的训练，可以根据任意人类定义的原则生成奖励分数。只需在 RL 训练阶段调整这些原则，我们就可以通过奖励模型完全控制偏好，从而影响 RL 训练策略的行为，并消除对在线人类偏好收集的依赖。将我们的方法应用于 LLaMA 2 70b 基本语言模型，我们开发了一款名为 Dromedary 2 的 AI 助手。Dromedary 2 仅具有 6 个上下文学习示例和 31 个人类定义的原则，显着超越了几种最先进的 AI 系统的性能，包括 LLaMA 2 Chat 70b，在各种基准数据集上。

Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models
Authors Archiki Prasad, Elias Stengel Eskin, Mohit Bansal
通过将大型语言模型 LLM 与视觉编码器相结合，可以在几乎不需要训练的情况下（即以零和少量的方式）处理越来越多的视觉语言任务，从而产生大型视觉语言模型 LVLM。虽然这有巨大的优势，例如不需要训练数据或自定义架构，但如何将输入呈现给 LVLM 会对零样本模型性能产生重大影响。特别是，由于缺少视觉信息、复杂的隐式推理或语言歧义等因素，以未指定的方式表达的输入可能会导致错误的答案。因此，在输入中添加基于视觉的信息作为先发制人的澄清，应该可以通过减少指定不足（例如，通过本地化对象和消除引用歧义）来提高模型性能。同样，在 VQA 设置中，改变问题的构建方式可以使模型更容易回答。为此，我们提出了 Rephrase、Augment 和 Reason RepARe，这是一个无梯度框架，它使用底层 LVLM 作为描述器和推理器来提取图像的显着细节，以便对原始问题提出修改建议。然后，我们使用 LVLM 对生成答案的置信度作为无监督评分函数来选择最有可能提高零样本性能的改写问题。重点关注两个视觉问答任务，我们表明 RepARe 可以使 VQAv2 上的零样本性能绝对提高 3.85 分，使 A OKVQA 上的零样本性能提高 6.41 分。此外，我们发现使用黄金答案来选择预言问题候选者可以使 VQA 准确率大幅提高，最高可达 14.41 。

Improving Summarization with Human Edits
Authors Zonghai Yao, Benjamin J Schloss, Sai P. Selvaraj
最近的工作表明，利用人类反馈范式进行学习可以产生人类确定的高质量文本。现有的工作使用人类反馈来训练通用领域抽象摘要中的大型语言模型LLM，并获得了超过传统似然训练的摘要质量。在本文中，我们重点关注一种较少探索的人类反馈人类编辑形式。我们提出了序列比对和似然训练 SALT，这是一种在训练循环中同时使用人工编辑和模型生成的数据的新技术。此外，我们还演示了使用来自现有训练数据模仿编辑的真实摘要以及训练后获得的模型生成的摘要来模拟人工编辑，以减少对昂贵的人工编辑数据的需求。在我们的实验中，我们将人类反馈探索从一般领域总结扩展到医学领域总结。

GraphLLM: Boosting Graph Reasoning Ability of Large Language Model
Authors Ziwei Chai, Tianjie Zhang, Liang Wu, Kaiqiao Han, Xiaohai Hu, Xuanwen Huang, Yang Yang
大型语言模型法学硕士的进步极大地推动了通用人工智能（AGI）的发展，它们具有理解不同类型信息（包括但不限于图像和音频）的卓越能力。尽管取得了这些进展，但在使法学硕士能够熟练地理解和推理图数据方面仍然存在重大差距。最近的研究强调了法学硕士在基本图形推理任务上的表现不佳。在本文中，我们致力于找出阻碍法学硕士进行图推理的障碍，指出将图转换为自然语言描述 Graph2Text 的常见做法是一个基本瓶颈。为了克服这一障碍，我们引入了 GraphLLM，这是一种开创性的端到端方法，可将图学习模型与法学硕士协同集成。这种协同作用使法学硕士能够熟练地解释和推理图数据，利用图学习模型的卓越表达能力。我们对四个基本图推理任务的实证评估验证了 GraphLLM 的有效性。

Terminology-Aware Translation with Constrained Decoding and Large Language Model Prompting
Authors Nikolay Bogoychev, Pinzhen Chen
术语正确性在机器翻译的下游应用中非常重要，确保这一点的普遍方法是将术语约束注入翻译系统。在提交 WMT 2023 术语翻译任务时，我们采用先翻译后细化的方法，该方法可以独立于领域，并且需要最少的手动工作。我们使用从单词对齐获得的伪术语翻译来注释随机源单词，以首先训练术语感知模型。此外，我们探索了两种后处理方法。首先，我们使用对齐过程来发现术语约束是否被违反，如果是，我们用负约束的违规词重新解码。或者，我们利用大型语言模型通过提供术语约束来完善假设。

SC-Safety: A Multi-round Open-ended Question Adversarial Safety Benchmark for Large Language Models in Chinese
Authors Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue
ChatGPT 和 GPT 4 等大型语言模型 LLM 在自然语言理解和生成方面表现出了卓越的能力。然而，除了对我们的日常任务产生积极影响外，它们还可能产生有害内容，对社会观念产生负面影响。为了系统地评估中国法学硕士的安全性，我们引入了 SuperCLUE Safety SC Safety，这是一个多轮对抗性基准，包含 4912 个开放式问题，涵盖 20 多个安全子维度。与现有方法相比，对抗性人类模型交互和对话显着增加了挑战。对支持中国的 13 个主要 LLM 进行的实验得出以下见解 1 闭源模型在安全性方面优于开源模型 2 中国发布的模型表现出与 GPT 3.5 Turbo 等 LLM 相当的安全水平 3 一些具有 6B 13B 参数的较小模型可以在以下领域有效竞争安全方面。通过引入 SC Safety，我们的目标是促进合作，打造更安全、更值得信赖的法学硕士。基准和调查结果为模型选择提供了指导。

Are Large Language Models Post Hoc Explainers?
Authors Nicholas Kroeger, Dan Ley, Satyapriya Krishna, Chirag Agarwal, Himabindu Lakkaraju
大型语言模型 LLM 越来越多地用作众多自然语言处理 NLP 应用程序的强大工具。最近在上下文学习 ICL 方面的一项创新，使法学硕士能够通过在推理期间在提示中提供一些示例来学习新任务，从而消除了模型微调的需要。虽然法学硕士已在多种应用中得到利用，但它们在解释其他模型行为方面的适用性仍然相对未经探索。尽管新的解释技术越来越多，但许多技术需要白盒访问模型，并且/或计算成本高昂，这凸显了对下一代事后解释器的需求。在这项工作中，我们提出了第一个框架来研究法学硕士在解释其他预测模型方面的有效性。更具体地说，我们提出了一种新颖的框架，其中包含多种提示策略 i 基于扰动的 ICL、ii 基于预测的 ICL、iii 基于指令的 ICL 和 iv 基于解释的 ICL，具有有关底层 ML 模型和测试的局部邻域的不同级别的信息样本。我们对现实世界的基准数据集进行了广泛的实验，以证明 LLM 生成的解释与最先进的事后解释器的性能相当，利用它们利用 ICL 示例的能力及其在生成模型解释时的内部知识。

Problem-Solving Guide: Predicting the Algorithm Tags and Difficulty for Competitive Programming Problems
Authors Juntae Kim, Eunjung Cho, Dongwoo Kim, Dongbin Na
最近的程序开发行业要求工程师，尤其是应用程序开发人员具有解决问题的能力。然而，基于人工智能来帮助解决计算机算法问题的教育系统尚未引起人们的关注，而大多数大型科技公司都需要解决算法问题的能力，包括谷歌、Meta和亚马逊。解决算法问题最有用的指南可能是猜测所面临问题的类别标签。因此，我们的研究解决了预测算法标签的任务，将其作为工程师和开发人员的有用工具。此外，我们还考虑预测算法问题的难度级别，这可以作为计算解决该问题所需时间的有用指导。在本文中，我们主要通过从最著名的大型竞争编程网站Codeforces收集问题样本，提出了一个现实世界的算法问题多任务数据集AMT。据我们所知，与之前的研究相比，我们提出的数据集是用于预测算法标签的最大规模的数据集。此外，我们的工作是第一个解决预测算法问题难度级别的工作。我们提出了一种基于深度学习的新方法，用于同时预测算法标签和给定算法问题的难度级别。

Aligning Language Models with Human Preferences via a Bayesian Approach
Authors Jiashuo Wang, Haozhao Wang, Shichao Sun, Wenjie Li
为了推进以人类为中心的自然语言生成 NLG 系统，确保 NLG 模型与人类偏好之间的一致性至关重要。为了实现这种一致性，当前流行的方法利用了强化学习 RL 方法以及根据人类反馈进行训练的奖励模型。然而，由于人类偏好的主观性质而产生的固有分歧给奖励模型的训练带来了重大挑战，导致 NLG 性能恶化。为了解决这个问题，以前的方法通常依靠多数投票或平均来将多个不一致的偏好合并为一个合并的偏好。尽管易于理解和执行，但此类方法无法捕捉人类之间的细微差别，并且可能仅代表个体的特定子集，因此缺乏定量揭示人类偏好的普遍性的能力。为了应对这一挑战，本文提出了一种新颖的方法，采用贝叶斯框架来解释人类偏好之间的分歧分布，并训练偏好模型，并将其命名为 d PM。此外，考虑到强化学习策略的训练过程效率低下且复杂，我们进一步提出利用对比学习策略利用从 d PM 模型导出的偏好分数来训练 NLG 模型。

Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena
Authors Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson
大型语言模型法学硕士能否在复杂环境中模拟人类行为法学硕士最近被证明具有先进的推理能力，但大部分 NLP 评估仍然依赖于静态基准。回答这个问题需要评估环境，在涉及长期规划的竞争性、动态场景中探索战略推理。我们介绍 AucArena，这是一种用于在拍卖中评估法学硕士的新型模拟环境，选择这种环境的原因是高度不可预测，涉及与资源和风险管理相关的许多技能，同时也易于评估。我们使用最先进的法学硕士作为投标代理进行了多次受控模拟。我们发现，通过简单的提示，法学硕士确实展示了有效参与拍卖所需的许多技能，例如管理预算、坚持长期目标和优先事项，我们发现可以通过明确鼓励模型适应和观察来提高这些技能过去拍卖的策略。这些结果意义重大，因为它们显示了使用 LLM 代理来模拟复杂的社会动态的潜力，尤其是在竞争环境中。然而，我们也观察到各个法学硕士的能力存在很大差异。

LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models
Authors Huiqiang Jiang, Qianhui Wu, Chin Yew Lin, Yuqing Yang, Lili Qiu
大型语言模型法学硕士因其惊人的能力而被应用于各种应用中。随着思想链 CoT 提示和上下文学习 ICL 等技术的进步，LLM 的提示变得越来越长，甚至超过数万个 token。为了加速模型推理并降低成本，本文提出了 LLMLingua，一种从粗到细的提示压缩方法，其中涉及预算控制器以在高压缩比下保持语义完整性，一种令牌级迭代压缩算法以更好地建模压缩内容之间的相互依赖关系，以及一种基于指令调优的方法，用于语言模型之间的分布对齐。我们对来自不同场景的四个数据集（即 GSM8K、BBH、ShareGPT 和 Arxiv March23）进行了实验和分析，表明所提出的方法产生了最先进的性能，并允许高达 20 倍的压缩，而性能损失很小。

The Program Testing Ability of Large Language Models for Code
Authors Weimin Xiong, Yiwen Guo, Hao Chen
最近针对 CodeX 和 CodeT5 等代码开发的大型语言模型 LLM 展示了实现代码智能的巨大前景。他们合成代码来完成执行预定义任务的程序的能力已经在包括 HumanEval 和 MBPP 在内的基准数据集上进行了深入的测试和验证。然而，考虑到这些法学硕士在软件工程中的广泛应用范围，预计从程序综合之外的更多角度对这些法学硕士进行评估。在本文中，我们探讨了法学硕士测试程序代码的能力。通过对最近的法学硕士在程序测试中的代码进行彻底分析，我们展示了这些模型的一系列有趣的特性，并演示了如何提高法学硕士的程序测试能力。继最近利用生成的测试用例来增强程序综合的工作之后，我们进一步利用我们的发现来提高综合程序的质量，并显示与 GPT 3.5 Turbo 基线和最近的状态相比，HumanEval 的代码通过率分别提高了 11.77 和 4.22

Guiding Language Model Reasoning with Planning Tokens
Authors Xinyi Wang, Lucas Caccia, Oleksiy Ostapenko, Xingdi Yuan, Alessandro Sordoni
大型语言模型法学硕士最近因其执行复杂推理任务（例如思想链推理）的能力而引起了相当大的兴趣。然而，现有的增强这种能力的方法大多严重依赖数据驱动的方法，而忽略了模型推理能力的结构方面。我们发现，虽然法学硕士可以很好地管理单个推理步骤，但他们很难保持整个推理链的一致性。为了解决这个问题，我们在每个推理步骤开始时引入规划标记，作为模型的指南。然后，这些标记嵌入与其余模型参数一起进行微调。我们的方法需要可训练参数的增加可以忽略不计，仅为 0.001，并且可以通过完全微调或更参数有效的方案来应用。我们通过将我们的方法应用于三个不同的法学硕士来展示我们的方法的有效性，在三个数学应用题数据集上显示出显着的准确性改进。

An Attribution Method for Siamese Encoders
Authors Lucas M ller, Dmitry Nikolaev, Sebastian Pad
尽管连体编码器模型（例如句子变换器 ST ）取得了成功，但人们对它们关注的输入方面知之甚少。一个障碍是他们的预测不能归因于单个特征，因为他们比较两个输入而不是处理单个输入。本文通过将积分梯度原理推广到多输入模型，推导了连体编码器的局部归因方法。该解决方案采用特征对归因的形式，并且可以简化为 ST 的标记矩阵。我们的方法涉及引入积分雅可比行列式，并继承了积分梯度的有利形式属性，它解释了模型的完整计算图，并保证收敛到实际预测。一项试点研究表明，在 ST 中，几个标记对通常可以解释大部分预测，并且重点关注名词和动词。

A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics
Authors Kai He, Rui Mao, Qika Lin, Yucheng Ruan, Xiang Lan, Mengling Feng, Erik Cambria
大型语言模型法学硕士在医疗保健领域的使用既令人兴奋又令人担忧，因为它们能够有效地响应具有一定专业知识的自由文本查询。本次调查概述了当前开发的医疗保健法学硕士的能力，并阐述了其开发流程，旨在概述从传统预训练语言模型 PLM 到法学硕士的发展路线图。具体来说，我们首先探讨法学硕士在提高各种医疗保健应用程序的效率和有效性方面的潜力，强调其优点和局限性。其次，我们对以前的PLM和最新的LLM进行比较，以及各个LLM之间的比较。然后我们总结了相关的医疗保健训练数据、训练方法、优化策略和使用情况。最后，调查了与在医疗保健环境中部署法学硕士相关的独特问题，特别是在公平性、问责制、透明度和道德方面。我们的调查从计算机科学和医疗保健专业的角度进行了全面的调查。除了有关医疗保健问题的讨论之外，我们还通过编译一系列开源资源来支持计算机科学界，例如 Github 中的可访问数据集、最新方法、代码实现和评估基准。总之，我们认为重大范式转变正在发生，从 PLM 过渡到 LLM。

Larth: Dataset and Machine Translation for Etruscan
Authors Gianluca Vico, Gerasimos Spanakis
伊特鲁里亚语是一种古老的语言，从公元前 7 世纪到公元 1 世纪在意大利使用。目前该语言没有母语人士，其资源也稀缺，已知铭文仅约 12,000 处。据我们所知，没有公开的用于自然语言处理的伊特鲁里亚语料库。因此，我们提出了一个从伊特鲁里亚语到英语的机器翻译数据集，其中包含来自现有学术来源的 2891 个翻译示例。一些示例是手动提取的，而另一些示例是自动获取的。我们与数据集一起对不同的机器翻译模型进行了基准测试，观察到使用小型 Transformer 模型可以实现 10.1 的 BLEU 分数。

The potential of large language models for improving probability learning: A study on ChatGPT3.5 and first-year computer engineering students
Authors Angel Udias, Antonio Alonso Ayuso, Ignacio Sanchez, Sonia Hernandez, Maria Eugenia Castellanos, Raquel Montes Diez, Emilio Lopez Cano
在本文中，我们评估了 ChatGPT 2023 年 2 月版（一种大规模语言模型）在解决计算机工程入门考试中通常出现的概率问题方面的功效。我们的研究包括对马德里胡安卡洛斯国王大学 URJC 的学生进行的一组 23 次概率练习。 ChatGPT 生成的回答由五位统计学教授组成的小组进行评估，他们对这些回答进行定性评估，并根据与学生使用的相同标准进行评分。我们的结果表明，ChatGPT 在措辞、组织和逻辑推理方面超过了普通学生。对于西班牙语和英语版本的练习，模型的性能保持一致。然而，ChatGPT 在执行基本数值运算时遇到了困难。我们的实验表明，请求 ChatGPT 以 R 脚本的形式提供解决方案被证明是克服这些限制的有效方法。总之，我们的结果表明，ChatGPT 在解决计算机工程入门考试中常见的概率问题方面超过了普通学生。尽管如此，该模型在围绕某些概率概念进行推理时表现出局限性。

A Closer Look into Automatic Evaluation Using Large Language Models
Authors Cheng Han Chiang, Hung yi Lee
使用大型语言模型法学硕士来评估文本质量最近很受欢迎。一些先前的作品探讨了使用法学硕士进行评估的想法，但它们在评估过程的一些细节上有所不同。在本文中，我们分析了法学硕士评估Chiang and Lee, 2023和G Eval Liu et al., 2023，并讨论了评估过程中的这些细节如何改变法学硕士给出的评分与人类评分的相关程度。我们发现，G Eval 中使用的自动思想链 CoT 并不总是使 G Eval 更符合人类评分。我们还表明，强制法学硕士仅输出数字评级（如 G Eval 中所示）是次优的。

RAUCG: Retrieval-Augmented Unsupervised Counter Narrative Generation for Hate Speech
Authors Shuyu Jiang, Wenyi Tang, Xingshu Chen, Rui Tanga, Haizhou Wang, Wenxian Wang
反叙事 CN 是一种在不侵犯言论自由的情况下打击在线仇恨言论的有前景的方法。近年来，人们对使用自然语言生成技术自动生成 CN 越来越感兴趣。然而，当前的自动 CN 生成方法主要依赖于专家编写的数据集进行训练，获取这些数据集既费时又费力。此外，这些方法无法直接从外部统计数据、事实或示例中获取和扩展反知识。为了解决这些限制，我们提出检索增强无监督反叙事生成 RAUCG，以自动扩展外部反知识并以无监督范式将其映射到 CN。具体来说，我们首先引入一种 SSF 检索方法，从立场一致性、语义重叠率和 HS 适应度等多个角度检索反知识。然后，我们通过将知识注入、对抗和流畅性约束量化为可微函数，设计了一种基于能量的解码机制，使模型能够在没有专家编写的 CN 数据的情况下构建从反知识到 CN 的映射。最后，我们从语言质量、毒性、说服力、相关性和反HS成功率等方面综合评估模型性能。实验结果表明，RAUCG在所有指标上都优于强大的基线，并表现出更强的泛化能力，实现了2.0的显着提升相关性和对抗指标的成功率为 4.5。此外，RAUCG 使 GPT2 在所有指标上都优于 T0，尽管后者比前者大大约八倍。

Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution
Authors Xinze Li, Yixin Cao2, Liangming Pan, Yubo Ma, Aixin Sun
尽管取得了巨大的成功，大型语言模型法学硕士通常会遭受不可靠的幻觉的困扰。在本文中，我们定义了知识感知语言模型归因 KaLMA 的新任务，它改进了传统归因 LM 的三个核心问题。首先，我们将归因源从非结构化文本扩展到知识图谱KG，其丰富的结构有利于归因性能和工作场景。其次，考虑到不完整的知识存储库，我们提出了一种新的意识无能设置，其中模型确定了支持超出所提供知识图谱的知识的需求。第三，我们提出了一个全面的自动评估指标，包括文本质量、引文质量和文本引文对齐。为了实现上述创新，我们通过精心设计的进化问题生成策略在传记领域 BioKaLMA 中构建了一个数据集，以控制问题的复杂性和答案所需的知识。

Glitter or Gold? Deriving Structured Insights from Sustainability Reports via Large Language Models
Authors Marco Bronzini, Carlo Nicolini, Bruno Lepri, Andrea Passerini, Jacopo Staiano
在过去十年中，鉴于投资者对环境、社会和治理 ESG 问题的日益关注，一些监管机构已开始要求上市公司披露非财务信息。此类信息以各种非结构化和多模式文档的形式公开发布。因此，在一个有凝聚力的框架中汇总和整合这些数据以进一步深入了解公司和市场的可持续发展实践并不简单。因此，很自然地采用信息提取 IE 技术来为利益相关者提供简洁、信息丰富且可操作的数据。在这项工作中，我们超越了传统的文本处理技术，利用大型语言模型法学硕士，以及检索增强生成和上下文学习等著名方法，从可持续发展报告中提取语义结构化信息。然后，我们采用基于图表的表示法，对所获得的结果进行有意义的统计、相似性和相关性分析，突出显示跨行业采取的突出可持续发展行动，并讨论公司、部门和地区层面新出现的相似性和披露模式。

Integrating Stock Features and Global Information via Large Language Models for Enhanced Stock Return Prediction
Authors Yujie Ding, Shuai Jia, Tianyi Ma, Bingcheng Mao, Xiuze Zhou, Liuliu Li, Dongming Han
ChatGPT、GPT 4等大型语言模型LLM的骄人成绩和快速进步，展示了其在量化投资方面的巨大潜力。交易者可以有效地利用这些法学硕士来分析财经新闻并准确预测股票回报。然而，将法学硕士整合到现有的定量模型中存在两个主要挑战：法学硕士内嵌入的语义信息的利用不足，以及将法学硕士内的潜在信息与现有的定量库存特征对齐的困难。我们提出了一个由两个组件组成的新颖框架来克服这些挑战。第一个组件是本地全局 LG 模型，引入了三种不同的策略来对全局信息进行建模。这些方法分别基于现有特征、法学硕士的能力以及结合两种范式的混合方法。第二个组件是自相关强化学习 SCRL，重点是将法学硕士生成的金融新闻嵌入与同一语义空间内的股票特征相匹配。

LAiW: A Chinese Legal Large Language Models Benchmark (A Technical Report)
Authors Yongfu Dai, Duanyu Feng, Jimin Huang, Haochen Jia, Qianqian Xie, Yifang Zhang, Weiguang Han, Wei Tian, Hao Wang
随着众多法律LLM的涌现，目前缺乏一个全面的衡量其法律能力的基准。在本文中，我们提出了第一个基于法律能力的中国法律法学硕士基准。通过法律和人工智能专家的共同努力，我们将法学硕士的法律能力分为基础法律NLP能力、基础法律应用能力和复杂法律应用能力三个层次。我们已经完成了第一阶段的评估，主要是基础法律NLP的能力。评估结果显示，虽然一些法律LLM的表现优于其骨干，但与ChatGPT相比仍存在差距。

Dynamic Top-k Estimation Consolidates Disagreement between Feature Attribution Methods
Authors Jonathan Kamp, Lisa Beinborn, Antske Fokkens
特征归因分数用于通过突出显示 k 个标记来向用户解释文本分类器的预测。在这项工作中，我们提出了一种方法来确定应根据归因分数的顺序属性显示的最佳 k 个标记的数量。我们的方法是跨句子的动态方法，与方法无关，并且可以处理句子长度偏差。我们使用固定 k 和动态 k 来比较多种方法和人类在 NLI 任务上的一致性。我们发现基于扰动的方法和普通梯度在大多数方法和具有静态 k 的人类一致性指标上表现出最高的一致性。它们相对于其他方法的优势在动态 ks 中消失了，动态 ks 主要改进了 Integrated Gradient 和 GradientXInput。

Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance
Authors Molly R. Petersen, Lonneke van der Plas
虽然类比是评估 NLP 中词嵌入的常见方法，但研究类比推理本身是否是一项可以学习的任务也很有趣。在本文中，我们测试了几种学习基本类比推理的方法，特别关注比常用 NLP 基准中更典型的用于评估人类类比推理的类比。我们的实验发现，即使数据量很小，模型也能够学习类比推理。

InterroLang: Exploring NLP Models and Datasets through Dialogue-based Explanations
Authors Nils Feldhus, Qianli Wang, Tatiana Anikina, Sahil Chopra, Cennet Oguz, Sebastian M ller
虽然最近开发的 NLP 可解释性方法让我们能够以各种方式打开黑匣子 Madsen et al., 2022，但这项工作中缺少的一个要素是提供对话界面的交互式工具。这样的对话系统可以帮助用户探索数据集和模型，并以情境化的方式进行解释，例如通过澄清或跟进问题以及通过自然语言界面。我们将对话解释框架 TalkToModel Slack 等人，2022 年应用于 NLP 领域，添加新的 NLP 特定操作（例如自由文本合理化），并说明其在对话行为分类、问题回答、仇恨言论检测这三个 NLP 任务上的通用性。为了识别用户对解释的查询，我们评估了微调和少量镜头提示模型，并实现了一种新颖的基于适配器的方法。然后，我们对 1 对话的感知正确性和有用性以及 2 可模拟性进行两项用户研究，即对话解释对于人类在未显示模型的预测标签时是否有客观的帮助。我们发现合理化和特征归因有助于解释模型行为。

DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking
Authors Shangyu Xing, Fei Zhao, Zhen Wu, Chunhui Li, Jianbing Zhang, Xinyu Dai
多模态实体链接 MEL 是一项旨在将多模态上下文中不明确的提及链接到多模态知识库中的引用实体的任务。最近的 MEL 方法采用了一个通用框架，它们首先交互并融合文本和图像，分别获得提及项和实体的表示，然后计算它们之间的相似度以预测正确的实体。然而，这些方法仍然存在两个局限性：首先，它们在匹配之前融合了文本和图像的特征，因此无法充分利用提及和实体之间的细粒度对齐关系。其次，它们的对齐方式是静态的，导致在处理复杂多样的数据时性能较低。为了解决这些问题，我们提出了一种用于 MEL 任务的称为动态关系交互式网络 DRIN 的新颖框架。 DRIN显式地对mention和实体之间的四种不同类型的对齐进行建模，并构建动态图卷积网络GCN来为不同的输入样本动态选择相应的对齐关系。

Regulation and NLP (RegNLP): Taming Large Language Models
Authors Catalina Goanta, Nikolaos Aletras, Ilias Chalkidis, Sofia Ranchordas, Gerasimos Spanakis
自然语言处理 NLP 以及更广泛的人工智能领域的科学创新正以迄今为止最快的速度发展。随着大型语言模型法学硕士开启了自动化的新时代，关于其开发、部署和使用的好处和风险的重要争论出现了。目前，这些争论主要由人工智能安全和人工智能道德运动主导的两极分化的叙述主导。这种两极分化常常被社交媒体放大，正在影响人工智能监管和治理的政治议程，并提出监管捕获问题。当监管机构促进其应监管的行业或特殊利益集团的利益而不是追求一般公共利益时，就会发生捕获。与此同时，在NLP研究中，对规范风险和危害的讨论也越来越受到关注。这种情况经常发生在没有系统的方法论或没有充分扎根于激发 NLP 研究范围的学科中的情况下，从而危及这些努力的科学完整性。监管研究是关于如何系统地处理风险和不确定性以及评估和比较监管方案的科学证据的丰富知识来源。迄今为止，这一资源基本上尚未开发。在本文中，我们讨论这些主题的 NLP 研究如何受益于监管研究和邻近领域的接近。我们通过讨论监管、风险和不确定性的基本原则，并强调当前 NLP 讨论中处理风险评估的缺陷来做到这一点。

Query and Response Augmentation Cannot Help Out-of-domain Math Reasoning Generalization
Authors Chengpeng Li, Zheng Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou
在大型语言模型法学硕士的数学推理中，通过查询演化和多样化推理路径微调数据增强已被经验证明是有效的，极大地缩小了开源法学硕士和尖端专有法学硕士之间的差距。在本文中，我们对数学推理中的此类数据增强进行了调查，旨在回答 1 哪些数据增强策略更有效 2 增强数据量与模型性能之间的比例关系是什么以及 3 数据增强能否激励泛化到域外数学推理任务为此，我们通过使 GSM8K 的查询复杂化和多样化并对多个推理路径进行采样来创建一个新的数据集 AugGSM8K。我们通过对 AugGSM8K 的子集进行微调，获得了一系列名为 MuggleMath 的法学硕士。 MuggleMath 在 GSM8K 上大幅实现了新的技术水平，在 7B 规模下从 54 到 68.4，在 13B 规模下从 63.9 到 74.0。 MuggleMath 的性能和增强数据量之间呈现对数线性关系。我们还发现 MuggleMath 在将域外数学推理推广到 MATH 方面很弱。这是由于 AugGSM8K 和 MATH 之间的查询分布存在差异，这表明单个基准的增强无助于整体数学推理性能。

XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners
Authors Yun Luo, Zhen Yang, Fandong Meng, Yingjie Li, Fang Guo, Qinglin Qi, Jie Zhou, Yue Zhang
主动学习旨在通过迭代地整理信息最丰富的未标记数据来构建有效的训练集，这在低资源任务中非常实用。分类中的大多数主动学习技术依赖于模型的不确定性或不一致来选择未标记的数据。然而，之前的工作表明，现有模型在量化预测不确定性方面表现不佳，这可能导致对表面模式的过度自信和缺乏探索。受人类通过因果信息进行推理和预测的认知过程的启发，我们提出了一种用于低资源文本分类的新型可解释主动学习框架 XAL，旨在鼓励分类器证明其推论的合理性，并深入研究无法提供合理信息的未标记数据。解释。具体来说，除了使用预训练的双向编码器进行分类之外，我们还使用预训练的单向解码器来生成解释并对其进行评分。提出了排名损失来增强解码器对解释进行评分的能力。

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
Authors Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou
具有大量预训练标记和参数量的大型语言模型法学硕士出现了能力，包括数学推理、代码生成和指令跟踪。这些能力通过监督微调 SFT 得到进一步增强。开源社区已经针对每种能力研究了专门的 SFT，而专有的 LLM 对所有能力都是通用的。研究如何通过 SFT 解锁具有多种能力的它们非常重要。在这项研究中，我们特别关注 SFT 期间数学推理、代码生成和一般人类对齐能力之间的数据组合。从尺度角度，我们研究了模型能力与数据量、数据构成比、模型参数和 SFT 策略等各种因素之间的关系。我们的实验表明，不同的能力表现出不同的缩放模式，并且较大的模型通常在相同数据量的情况下表现出优异的性能。数学推理和代码生成随着数据量的不断增加而提高，而一般能力则随着大约一千个样本的增强而缓慢提高。我们发现数据组合会在低数据量时导致各种能力的提高，而在高数据量时会导致能力的冲突。我们的实验进一步表明，成分数据量影响性能，而成分比例的影响微不足道。关于 SFT 策略，我们评估了顺序学习多种能力容易发生灾难性遗忘的情况。

IDTraffickers: An Authorship Attribution Dataset to link and connect Potential Human-Trafficking Operations on Text Escort Advertisements
Authors Vageesh Saxena, Benjamin Bashpole, Gijs Van Dijck, Gerasimos Spanakis
人口贩运 HT 是一个普遍存在的全球性问题，影响着弱势群体，侵犯了他们的基本人权。调查显示，大量 HT 案件与在线广告有关，尤其是在应召市场。因此，对于执法机构 LEA 来说，识别和连接 HT 供应商变得越来越具有挑战性。为了解决这个问题，我们引入了 IDTraffickers，这是一个由 87,595 个文字广告和 5,244 个供应商标签组成的广泛数据集，用于验证和识别在线伴游市场上潜在的 HT 供应商。为了建立作者身份识别的基准，我们训练了 DeCLUTR 小模型，在封闭集分类环境中实现了 0.8656 的宏观 F1 分数。接下来，我们利用从训练有素的分类器中提取的风格表示来进行作者身份验证，在开放集排名环境中得到平均 r 精度分数为 0.8852。最后，为了鼓励进一步研究并确保负责任的数据共享，考虑到数据的敏感性，我们计划在特定条件下向研究人员发布 IDTraffickers，用于执行作者归属任务。

Cabbage Sweeter than Cake? Analysing the Potential of Large Language Models for Learning Conceptual Spaces
Authors Usashi Chatterjee, Amit Gajbhiye, Steven Schockaert
概念空间理论是一种有影响力的认知语言框架，用于表示概念的含义。概念空间是由一组质量维度构建的，这些维度本质上对应于原始的感知特征，例如色调或尺寸。这些质量维度通常是从人类的判断中学习的，这意味着概念空间的应用往往仅限于狭窄的领域，例如造型色彩或味道。受到最近关于大型语言模型法学硕士学习感知基础表征能力的研究结果的鼓舞，我们探索了此类模型在学习概念空间方面的潜力。我们的实验表明，法学硕士确实可以在某种程度上用于学习有意义的表示。

Generative Judge for Evaluating Alignment
Authors Junlong Li, Shichao Sun, Weizhe Yuan, Run Ze Fan, Hai Zhao, Pengfei Liu
大型语言模型法学硕士的快速发展极大地扩展了他们可以解决的任务范围。在自然语言处理 NLP 领域，研究人员已将注意力从传统的 NLP 任务（例如序列标记和解析）转向围绕人类需求的任务（例如头脑风暴和电子邮件写作）。任务分配的这种转变对评估这些一致模型提出了新的要求：通用性（即评估不同场景的性能）、灵活性（即在不同协议下进行检查）以及可解释性（即通过解释仔细检查模型）。在本文中，我们提出了一种具有 13B 个参数的生成判断 Auto J，旨在解决这些挑战。我们的模型根据用户查询和法学硕士在大量现实世界场景下生成的响应进行训练，并适应不同的评估协议，例如，成对响应比较和单个响应评估以及结构良好的自然语言评论。为了证明我们方法的有效性，我们构建了一个涵盖 58 种不同场景的新测试平台。从实验上看，Auto J 大幅优于一系列强大的竞争对手，包括开源和闭源模型。

Empower Nested Boolean Logic via Self-Supervised Curriculum Learning
Authors Hongqiu Wu, Linfeng Liu, Hai Zhao, Min Zhang
除了语言模型所展示的强大认知能力之外，仔细检查它们的推理能力是否源于强大的泛化能力还是仅仅源于相关数据也至关重要。与构建日益复杂的逻辑相反，本文探讨了布尔逻辑，即逻辑推理器的根本能力。我们发现，任何预先训练的语言模型，甚至包括大型语言模型，在面对多重嵌套布尔逻辑时都只能表现得像随机选择器，这是人类可以轻松处理的任务。为了赋予语言模型这种基本能力，本文提出了一种新的自监督学习方法 textit Curriculum Logical Reasoning textsc Clr ，我们用嵌套的布尔逻辑链逐步增强训练数据，并将训练从更简单的逻辑模式逐渐编程为较难的。这种新的训练范式允许语言模型有效地泛化到更难、更长的跳跃逻辑，而这些逻辑很难通过简单的训练来学习。

Establishing Trustworthiness: Rethinking Tasks and Model Evaluation
Authors Robert Litschko, Max M ller Eberstein, Rob van der Goot, Leon Weber, Barbara Plank
语言理解是一种多方面的认知能力，自然语言处理 NLP 社区数十年来一直致力于对其进行计算建模。传统上，语言智能的各个方面已被划分为具有专门模型架构和相应评估协议的任务。随着大型语言模型法学硕士的出现，社区见证了由生成模型支持的通用、任务无关方法的巨大转变。因此，传统的语言任务划分概念正在被打破，评估和分析面临的挑战也越来越大。与此同时，法学硕士正在被部署在更现实的场景中，包括以前无法预见的零样本设置，增加了对值得信赖和可靠系统的需求。因此，我们认为现在是时候重新思考 NLP 中的任务和模型评估的构成，并追求对语言更全面的看法，将可信度置于中心位置。

Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding
Authors Sangmin Bae, Jongwoo Ko, Hwanjun Song, Se Young Yun
为了解决自回归语言模型表现出的高推理延迟，之前的研究提出了一种早期存在的框架，该框架根据生成后续令牌的复杂性为每个令牌分配自适应计算路径。然而，我们观察到了一些缺点，包括由状态复制机制或大量退出路径引起的性能下降，以及对退出置信度阈值的敏感性。因此，我们提出了一个快速且鲁棒的早期退出免费框架，该框架包含浅层深度模块和同步并行解码。我们的框架通过将当前令牌的解码过程与先前堆叠的早期退出令牌同步来实现更快的推理。此外，由于并行解码允许我们观察浅层和深层模型的预测，因此我们提出了一种新颖的自适应阈值估计器，它利用 Beta 混合模型来确定合适的置信度阈值。

Automating Customer Service using LangChain: Building custom open-source GPT Chatbot for organizations
Authors Keivalya Pandya, Mehfuza Holia
在数字时代，在技术进步和大型语言模型法学硕士集成的推动下，客户服务的动态正在不断发展。本研究论文介绍了一种使用 LangChain（为组织量身定制的定制法学硕士）实现客户服务自动化的突破性方法。本文探讨了传统客户支持技术的过时，特别是常见问题解答，并提出了向响应式、上下文感知和个性化客户交互的范式转变。这一创新的核心在于开源方法论、网络抓取、微调的融合，以及浪链与客户服务平台的无缝集成。这个开源的最先进的框架以 Sahaay 的形式呈现，展示了跨行业和组织扩展的能力，提供实时支持和查询解决方案。这项研究的关键要素包括通过网络抓取进行数据收集、嵌入的作用、利用 Google 的 Flan T5 XXL、用于知识检索的基本语言模型和小语言模型，以及将聊天机器人集成到客户服务平台中。结果部分提供了对其性能和用例的深入了解，特别是在教育机构内。这项研究预示着客户服务的新时代，利用技术来创建高效、个性化和响应迅速的交互。由LangChain提供支持的Sahaay重新定义了客户公司关系，提升了客户保留率、价值提取和品牌形象。

Humanoid Agents: Platform for Simulating Human-like Generative Agents
Authors Zhilin Wang, Yu Ying Chiu, Yu Cheung Chiu
正如原子、分子和细胞的计算模拟塑造了我们研究科学研究的方式一样，对类人智能体的逼真模拟也可以成为研究人类行为的宝贵工具。我们提出了人形智能体，这是一个系统，通过引入系统 1 处理基本需求的三个元素，引导生成智能体表现得更像人类。饥饿、健康和能量、情感和亲密关系。根据经验实验的支持，人形智能体能够使用这些动态元素来调整其日常活动以及与其他智能体的对话。我们的系统被设计为可扩展到各种设置（我们演示了其中的三种），以及影响人类行为的其他元素，例如同理心、道德价值观和文化背景。我们的平台还包括用于可视化的 Unity WebGL 游戏界面和用于显示代理状态随时间变化的交互式分析仪表板。

mBBC: Exploring the Multilingual Maze
Authors Sina Bagheri Nezhad, Ameeta Agrawal
近年来，多语言语言模型引起了广泛关注，使得能够开发适合不同语言环境的应用程序。在本文中，我们对三种著名的多语言语言模型 mBERT、XLM R 和 GPT 3 进行了综合评估。使用下一个标记预测的自我监督任务，我们评估了它们在多种语言中的表现，重点是理解资源可用性、词序、语言族和脚本类型对模型准确性的影响。我们的研究结果表明，资源可用性在模型性能中起着至关重要的作用，更高的资源水平可以提高准确性。我们还确定了资源可用性、语系和文字类型之间的复杂关系，强调需要进一步研究语言的特定特征和结构变化。此外，我们的统计推断分析确定了对模型性能有贡献的重要特征，为模型选择和部署提供了见解。

GROVE: A Retrieval-augmented Complex Story Generation Framework with A Forest of Evidence
Authors Zhihua Wen, Zhiliang Tian, Wei Wu, Yuxin Yang, Yanqi Shi, Zhen Huang, Dongsheng Li
条件故事生成在人机交互中非常重要，特别是在制作具有复杂情节的故事时。虽然大型语言模型法学硕士在多个 NLP 任务（包括故事生成）上表现良好，但生成具有复杂且富有创意的情节的故事具有挑战性。现有的方法通常依赖详细的提示来指导法学硕士满足目标条件，这无意中限制了生成故事的创作潜力。我们认为，利用人类书面故事中的信息有助于生成更加多样化的情节。深入研究故事细节有助于构建复杂且可信的情节。在本文中，我们提出了一种检索 au textbf G mented sto textbf R y 生成框架，其中包含 f textbf O 剩余的 e textbf V id textbf E nce GROVE，以增强故事的复杂性。我们针对目标条件建立了一个检索存储库，以生成一些镜头示例来提示法学硕士。此外，我们设计了一个问为什么的提示方案，提取大量证据，为生成的故事中可能出现的歧义提供补偿。这个迭代过程揭示了潜在的故事背景。最后，我们从证据森林中选择最合适的证据链并将其整合到生成的故事中，从而提高叙述的复杂性和可信度。

CCAE: A Corpus of Chinese-based Asian Englishes
Authors Yang Liu, Melissa Xiaohui Qin, Long Wang, Chao Huang
语言模型已经成为自然语言处理各种应用场景的基础，但在语言多样性研究中却没有得到很好的应用，即使对于像英语这样最流行的语言也是如此。本文代表了在世界英语范式中利用 NLP 技术的少数初步努力之一，特别是在创建用于研究亚洲英语的多品种语料库方面。我们概述了 CCAE 中文亚洲英语语料库，这是一套包含六个中文亚洲英语变体的语料库。它基于来自六个地区的 448,000 个网络文档中的 3.4 亿个代币。数据本体将使该语料库成为亚洲英语尤其是中国英语的有用资源，具有巨大的研究潜力，目前还没有可公开访问的语料库，并且是各种特定语言建模和下游任务的理想来源，从而设定基于NLP的世界英语研究的舞台。对该语料库的初步实验揭示了CCAE的实用价值。

Transcending the Attention Paradigm: Implicit Learning from Geospatial Social Media Data
Authors Nick DiSanto, Anthony Corso, Benjamin Sanders, Gavin Harding
虽然变形金刚开创了注意力驱动架构作为研究的基石，但它们对明确上下文信息的依赖凸显了它们默示学习总体文本主题的能力的局限性。这项研究调查了社交媒体数据作为分布式模式的来源，挑战了绩效基准测试的启发式范式。与依赖于捕获复杂的长期依赖关系的网络形成鲜明对比的是，在线数据模型本质上缺乏结构，并且被迫学习总体的底层模式。为了正确地表达这些抽象关系，这项研究将实证社交媒体语料库剖析成其基本组成部分，并分析了人口密集地区超过 20 亿条推文。为了探索 Twitter 数据中位置和方言之间的关系，我们采用针对每个城市的词袋模型并评估它们各自的表示。这表明，无需先进算法的辅助，就可以发现隐藏的见解，并表明即使在嘈杂的数据中，地理位置对在线交流也有相当大的影响。这一证据提供了有关地理空间通信模式及其对社会科学的影响的切实见解。它还挑战了复杂的模型是自然语言模式识别的先决条件的观念，与不断发展的景观相一致，质疑绝对可解释性优于抽象理解。

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis
Authors Jianqiao Lu, Wenyong Huang, Nianzu Zheng, Xingshan Zeng, Yu Ting Yeung, Xiao Chen
训练高性能的端到端语音端到端处理模型需要大量的标记语音数据，尤其是在以数据为中心的人工智能时代。然而，与文本数据相比，标记的语音数据通常更稀缺且收集成本更高。我们提出了 Latent Synthesis LaSyn，这是一种用于 E2E 语音处理模型的高效文本数据利用框架。我们训练潜在合成器将文本数据转换为预训练语音模型的中间潜在表示。这些文本数据的伪声学表示增强了模型训练的声学数据。我们在低资源自动语音识别 ASR 和口语理解 SLU 任务上评估 LaSyn。对于 ASR，LaSyn 改进了在 LibriSpeech train clean 100 上训练的 E2E 基线，在不同测试集上相对单词错误率降低了 22.3 以上。对于 SLU，LaSyn 将我们的 E2E 基线提高了绝对值 4.1（意向分类精度），将 SLURP 上的槽填充 SLU F1 提高了 3.8（绝对值），将 STOP 上的 EM 和 EM Tree 精确匹配精度分别提高了 4.49 和 2.25（绝对值）。由于参数较少，LaSyn 的结果与已发表的最先进作品相比具有竞争力。结果证明了增强训练数据的质量。

Universal Multi-modal Entity Alignment via Iteratively Fusing Modality Similarity Paths
Authors Bolin Zhu, Xiaoze Liu, Xin Mao, Zhuo Chen, Lingbing Guo, Tao Gui, Qi Zhang
实体对齐 EA 的目标是从多个知识图谱 KG 中识别等效实体对，并创建更全面、统一的 KG。大多数 EA 方法主要关注知识图谱的结构模态，缺乏对多模态信息的探索。一些多模态 EA 方法在该领域做出了很好的尝试。尽管如此，它们仍然有两个缺点：1 模态建模不一致且效率低下，为每种模态设计复杂且不同的模型；2 由于 EA 中模态的异构性质，模态融合无效。为了应对这些挑战，我们提出了 PathFusion，它由两个主要组件组成 1 MSP，一种统一的建模方法，通过构建连接实体和模态节点的路径来表示多种模态来简化对齐过程 2 IRF，一种迭代融合方法，有效地结合来自使用路径作为信息载体的不同模式。

A Glance is Enough: Extract Target Sentence By Looking at A keyword
Authors Ying Shi, Dong Wang, Lantian Li, Jiqing Han
本文研究了仅使用关键字作为输入从多说话者语音中提取目标句子的可能性。例如，在社会保障应用程序中，关键字可能是 help ，目标是识别寻求帮助的人正在表达什么，同时忽略其他发言者。为了解决这个问题，我们建议使用 Transformer 架构来嵌入关键字和语音，然后依靠交叉注意力机制从串联或重叠的语音中选择正确的内容。

SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
Authors Yi Dong, Zhilin Wang, Makesh Narsimhan Sreedhar, Xianchao Wu, Oleksii Kuchaiev
模型与人类偏好的一致是使大型语言模型法学硕士变得有用并符合人类价值观的重要一步。它通常由监督微调 SFT 和来自人类反馈 RLHF 阶段的强化学习组成。然而，RLHF 面临着固有的局限性，这是由于复杂的训练设置及其将模型与最终用户在运行时无法控制的隐含值对齐的倾向。此外，RLHF 阶段的奖励模型通常依赖于单维反馈，而不是指示乐于助人、幽默和毒性等属性的明确、多方面的信号。为了解决这些限制，我们提出了 SteerLM，这是一种有监督的微调方法，使最终用户能够在推理过程中控制响应。 SteerLM 使响应符合明确定义的多维属性集，从而使可操纵的 AI 能够生成有用且高质量的响应，同时保持可定制性。实验表明，在开源数据集上训练的 SteerLM 生成的响应比使用 RLHF 训练的许多最先进的基线更受人类和自动评估者的青睐，同时更容易训练。

Resolving the Imbalance Issue in Hierarchical Disciplinary Topic Inference via LLM-based Data Augmentation
Authors Xunxin Cai, Meng Xiao, Zhiyuan Ning, Yuanchun Zhou
在解决自然语言处理领域内的数据不平衡问题时，文本数据增强方法已成为关键的解决方案。这种数据不平衡现象在资助申请过程中提交的研究计划中普遍存在。由于学科受欢迎程度的不同或跨学科研究的出现而导致的这种不平衡，极大地阻碍了推断这些提案的附属学科的下游主题模型的精度。在数据层面，专家和科学家撰写的提案本质上是复杂的技术文本，充满了错综复杂的术语，这对增强此类专业文本数据提出了独特的挑战。在系统层面，这反过来又损害了人工智能辅助审稿人分配系统的公平性，这引起了人们对解决这一问题的关注。本研究利用大型语言模型 Llama V1 作为数据生成器，以增强在复杂学科层次结构中分类的研究提案，旨在纠正数据不平衡并提高专家分配的公平性。我们首先在层次结构中进行采样，以找到代表性不足的类。然后我们设计了一个基于关键词的研究提案生成的提示。

Enhancing Long-form Text Generation in Mental Health\\ with Task-adaptive Tokenization
Authors Siyang Liu, Naihao Deng, Sahand Sabour, Yilin Jia, Minlie Huang, Rada Mihalcea
我们提出任务自适应标记化作为一种使生成管道适应下游任务的具体情况并增强心理健康的长形式生成的方法。受认知科学见解的启发，我们的任务自适应分词器从多个结果中对变量分段进行采样，并根据任务特定数据优化采样概率。我们引入了一种构建专门词汇的策略，并引入了词汇合并协议，该协议允许将任务特定标记集成到预训练模型的标记化步骤中。通过对中文和英语的心理问答任务进行大量实验，我们发现我们的任务自适应标记化方法在使用最多 60 个标记的同时显着提高了生成性能。

Visual Storytelling with Question-Answer Plans
Authors Danyang Liu, Mirella Lapata, Frank Keller
视觉叙事旨在从图像序列中生成引人入胜的叙述。现有模型通常侧重于增强图像序列的表示，例如使用外部知识源或高级图形结构。尽管最近取得了进展，但这些故事往往重复、不合逻辑且缺乏细节。为了缓解这些问题，我们提出了一个新颖的框架，它将视觉表示与预训练的语言模型和规划相结合。我们的模型将图像序列转换为视觉前缀，即语言模型可以解释的一系列连续嵌入。它还利用一系列问题答案对作为蓝图计划，用于选择显着的视觉概念并确定如何将它们组合成叙述。

Hi Guys or Hi Folks? Benchmarking Gender-Neutral Machine Translation with the GeNTE Corpus
Authors Andrea Piergentili, Beatrice Savoldi, Dennis Fucci, Matteo Negri, Luisa Bentivogli
性别不平等根植于我们的沟通实践中，并在翻译技术中长期存在。当翻译成语法性别语言时，这一点变得尤其明显，机器翻译机器翻译经常通过做出不适当的二元性别假设来默认男性和刻板印象。我们的工作重点关注从英语到意大利语的性别中立翻译，以满足对包容性语言不断增长的需求。我们从本质出发，提出专用基准并探索自动化评估方法。首先，我们介绍 GeNTE，一个用于性别中立翻译的自然双语测试集，其创建是基于对中性语言的感知和使用的调查。

Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona Biases in Dialogue Systems
Authors Yixin Wan, Jieyu Zhao, Nanyun Peng, Kai Wei Chang, Aman Chadha
大型语言模型的最新进展使他们能够遵循自由形式的指令，包括在对话中模仿通用或特定的人口角色。通用人物角色是指来自某个人口群体的个人，例如亚洲人，而特定角色可以是历史人物的真实姓名。虽然角色的采用使对话系统对用户更具吸引力和平易近人，但它也存在加剧模型响应中的社会偏见的潜在风险，从而通过与用户的互动进一步造成社会危害。在本文中，我们系统地研究了角色偏见，我们将其定义为有害对话模型行为对不同角色采用的敏感性。我们将人格偏见分为有害表达偏见和有害同意偏见，并建立了一个综合评估框架，从进攻性、有毒延续、尊重、刻板印象协议和有毒协议五个方面衡量人格偏见。此外，我们建议通过试验 UniversalPersona 来全面调查角色偏见，UniversalPersona 是一个系统化的角色数据集，包含通用和特定模型角色的综合列表。通过对四种不同模型（包括 Blender、ChatGPT、Alpaca 和 Vicuna）进行基准测试，我们的研究揭示了这些对话系统中的显着角色偏见。我们的研究结果强调了立即需要重新审视角色特征在对话代理中的使用，以确保他们的

Enhancing Pre-Trained Language Models with Sentence Position Embeddings for Rhetorical Roles Recognition in Legal Opinions
Authors Anas Belfathi, Nicolas Hernandez, Laura Monceaux
法律领域是一个广阔而复杂的领域，涉及大量的文本分析，包括法律、法律论证和法律意见。法律从业者必须分析这些文本以了解法律案例、研究法律先例并准备法律文件。法律意见的规模持续增长，鉴于其复杂性和多样性，开发一个能够准确预测法律意见的修辞作用的模型变得越来越具有挑战性。在这篇研究论文中，我们提出了一种新颖的模型架构，用于使用预先训练的语言模型 PLM 自动预测修辞角色，该模型通过文档中句子位置信息的知识得到增强。基于 LegalEval SemEval2023 竞赛的带注释语料库，我们证明了我们的方法需要更少的参数，与在全局上下文中采用分层模型的复杂架构相比，计算成本更低，但它实现了出色的性能。

Explainable Claim Verification via Knowledge-Grounded Reasoning with Large Language Models
Authors Haoran Wang, Kai Shu
声明验证在打击错误信息方面发挥着至关重要的作用。虽然现有的索赔验证工作已经显示出有希望的结果，但仍未解决的一个关键难题是了解如何在不依赖人工注释数据的情况下验证索赔，而大规模创建人工注释数据的成本很高。此外，模型必须提供全面的解释，以证明其决策的合理性并协助人类事实检查人员。本文提出了一阶逻辑引导的基于知识的 FOLK 推理，可以验证复杂的主张并生成解释，而无需使用大型语言模型法学硕士的注释证据。 FOLK 利用法学硕士的上下文学习能力将声明转换为由谓词组成的一阶逻辑 FOL 子句，每个谓词对应于需要验证的子声明。然后，FOLK 对一组基于知识的问题和答案对执行 FOL 引导推理，以做出准确性预测并生成解释以证明其决策过程的合理性。这个过程使我们的模型具有高度解释性，以人类可读的形式对其推理过程提供清晰的解释。我们的实验结果表明，FOLK 在涵盖各种声明验证挑战的三个数据集上的表现优于强大的基线。

ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data
Authors Tianyang Zhong, Wei Zhao, Yutong Zhang, Yi Pan, Peixin Dong, Zuowei Jiang, Xiaoyan Kui, Youlan Shang, Li Yang, Yaonai Wei, Longtao Yang, Hao Chen, Huan Zhao, Yuxiao Liu, Ning Zhu, Yiwei Li, Yisong Wang, Jiaqi Yao, Jiaqi Wang, Ying Zeng, Lei He, Chao Zheng, Zhixue Zhang, Ming Li, Zhengliang Liu, Haixing Dai, Zihao Wu, Lu Zhang, Shu Zhang, Xiaoyan Cai, Xintao Hu, Shijie Zhao, Xi Jiang, Xin Zhang, Xiang Li, Dajiang Zhu, Lei Guo, Dinggang Shen, Junwei Han, Tianming Liu, Jun Liu, Tuo Zhang
放射学报告生成作为医学图像分析的关键步骤，对于临床知情决策水平的定量分析至关重要。然而，复杂多样且具有跨源异质性的放射学报告对海量数据下的现有方法提出了巨大的普遍性挑战，这主要是因为放射学报告的风格和规范性在机构、检查身体区域和放射科医生之间存在明显差异。最近，大型语言模型 LLM 的出现为识别健康状况的迹象提供了巨大的潜力。为了解决上述问题，我们与中国湘雅二医院合作，提出了基于法学硕士的ChatRadio Valuer，这是一种用于自动放射学报告生成的定制模型，可以学习可概括的表示形式，并为复杂分析案例中的模型适应提供基础模式。具体来说，ChatRadio Valuer是根据单一机构的放射学报告，通过监督微调的方式进行训练，然后适应疾病诊断任务，进行人体多系统评估，即胸部、腹部、肌肉骨骼、头部和颌面部颈部六大系统。临床水平事件中的不同机构。本研究中使用的临床数据集包含总计 332,673 个观察结果。从工程指标、临床疗效和部署成本指标的综合结果可以看出，ChatRadio Valuer 在放射学疾病诊断方面始终优于最先进的模型，特别是 ChatGPT GPT 3.5 Turbo 和 GPT 4 等报告。

XLS-R fine-tuning on noisy word boundaries for unsupervised speech segmentation into words
Authors Robin Algayres, Pablo Diego Simon, Benoit Sagot, Emmanuel Dupoux
由于语音流中缺乏明确的单词边界，在没有文本监督的情况下将口语句子分割成单词单元的任务尤其具有挑战性。在这项工作中，我们利用最新的自监督语音模型，事实证明，即使在资源匮乏的情况下，这些模型也可以通过微调快速适应新任务。受到半监督学习的启发，我们对 XLS R 模型进行了微调，以预测顶级语音分割系统 DPDP、VG HuBERT、GradSeg 和 DP Parse 生成的单词边界本身。一旦 XLS R 被微调，它就会被用来推断新的单词边界标签，这些标签依次用于另一个微调步骤。我们的方法不断提高每个系统的性能，并设定了一个新的最先进水平，根据在五个不同语言的语料库上正确发现的单词标记的 F1 分数来衡量，平均比之前的系统高 130。

Generative Spoken Language Model based on continuous word-sized audio tokens
Authors Robin Algayres, Yossi Adi, Tu Anh Nguyen, Jade Copet, Gabriel Synnaeve, Benoit Sagot, Emmanuel Dupoux
在 NLP 中，基于单词或子词的文本语言模型的性能优于基于字符的对应模型。然而，在语音领域，口语 LM 的标准输入是比音素短 20ms 或 40ms 长的离散单元。受到基于单词的 LM 的启发，我们引入了一种基于单词大小连续值音频嵌入的生成口语语言模型 GSLM，可以生成多样化且富有表现力的语言输出。这是通过用词法嵌入函数替换词法类型的查找表、用对比损失替换交叉熵损失以及用 k NN 采样替换多项式采样来获得的。由此产生的模型是第一个基于字长连续嵌入的生成语言模型。在通过自动指标和人类主观判断衡量的发电质量方面，其性能与离散单元 GSLM 相当。此外，由于其 200ms 的大单元，它的内存效率提高了五倍。

Probing Language Models from A Human Behavioral Perspective
Authors Xintong Wang, Xiaoyu Li, Xingshan Li, Chris Biemann
大型语言模型法学硕士已成为现代 NLP 中占主导地位的基础模型。然而，对其预测过程和内部机制（例如前馈网络和多头自注意力）的理解在很大程度上仍未得到探索。在这项研究中，我们从人类行为的角度探讨法学硕士，将法学硕士的值与眼动追踪测量相关联，眼动追踪测量被广泛认为是有意义的阅读模式指标。我们的研究结果表明，LLM 表现出与基于 RNN 的 LM 不同的预测模式。此外，随着FFN层的升级，记忆和语言知识编码的能力也随之激增直至达到顶峰，随后转向关注理解能力。自注意力的功能分布在多个头中。

Scaling Laws of RoPE-based Extrapolation
Authors Xiaoran Liu, Hang Yan, Shuo Zhang, Chenxin An, Xipeng Qiu, Dahua Lin
基于旋转位置嵌入的大型语言模型法学硕士的外推能力目前是一个备受关注的话题。使用 LLM 解决外推问题的主流方法是修改 RoPE，用更大的值替换原始 RoPE 中 theta n 10000 2n d 的旋转基数 10000，并提供更长的微调文本。在这项工作中，我们首先观察到，在预训练上下文长度中使用更小或更大的基数微调基于 RoPE 的 LLM 可以显着提高其外推性能。之后，我们提出了基于 RoPE 的外推法的缩放定律，这是一个从周期角度来看的统一框架，来描述外推性能和基值之间的关系以及调整上下文长度。在此过程中，我们还通过 textbf textit 外推关键维度解释了基于 RoPE 的外推问题的起源。

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback
Authors Wei Shen, Rui Zheng, Wenyu Zhan, Jun Zhao, Shihan Dou, Tao Gui, Qi Zhang, Xuanjing Huang
来自人类反馈的强化学习是至关重要的桥梁，使大型语言模型与人类和社会价值观保持一致。这种对齐需要大量的人类反馈来学习奖励模型，随后将其用于微调语言模型。然而，我们发现奖励模型经常找到绕过其预期目标的捷径，误导性地假设人类更喜欢更长的响应。长度偏差的出现通常会导致模型倾向于更长的输出，但这并不等于这些输出中有用信息的增加。在本文中，我们提出了一种创新的解决方案，应用专家产品 PoE 技术将奖励建模与序列长度的影响分开。在我们的框架中，主要专家专注于理解人类意图，而有偏见的专家则致力于识别和捕获长度偏差。为了进一步增强偏见的学习，我们向关注偏见的专家引入扰动，扰乱语义信息的流动。

FABRIC: Automated Scoring and Feedback Generation for Essays
Authors Jieun Han, Haneul Yoo, Junho Myung, Minsun Kim, Hyunseung Lim, Yoonsu Kim, Tak Yeon Lee, Hwajung Hong, Juho Kim, So Yeon Ahn, Alice Oh
自动论文评分 AES 通过实时生成论文分数，为写作课上的学生和教师提供了一个有用的工具。然而，以前的 AES 模型没有提供更具体的基于评分的分数，也没有提供有关如何改进论文的反馈，这可能比学习的总体分数更重要。我们推出了 FABRIC，这是一个帮助英语写作课程中的学生和教师的管道，它可以自动生成 1 个总体分数、2 个基于特定评分标准的分数以及 3 个有关如何改进论文的详细反馈。在英语教育专家的指导下，我们选择了内容、组织和语言等具体评分标准。 FABRIC 管道的第一个组件是 DREsS，这是一个基于 Rubric 的论文评分 DREsS 的现实世界数据集。第二个组件是 CASE，一种基于腐败的论文增强策略，通过它我们可以将基线模型的准确性提高 45.44 。第三个组件是 EssayCoT，即论文思维链提示策略，它使用 AES 模型预测的分数来生成更好的反馈。我们定量评估了新数据集 DREsS 和增强策略 CASE 的有效性，并显示出相对于使用现有数据集训练的模型的显着改进。我们与英语教育专家一起评估了 EssayCoT 生成的反馈，结果显示所有评分标准的反馈有用性均显着提高。

Factuality Challenges in the Era of Large Language Models
Authors Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha, Tanmoy Chakraborty, Giovanni Luca Ciampaglia, David Corney, Renee DiResta, Emilio Ferrara, Scott Hale, Alon Halevy, Eduard Hovy, Heng Ji, Filippo Menczer, Ruben Miguez, Preslav Nakov, Dietram Scheufele, Shivam Sharma, Giovanni Zagni
基于大型语言模型LLM的工具的出现，例如OpenAI的ChatGPT、微软的Bing Chat和Google的Bard，引起了公众的广泛关注。这些非常有用、听起来自然的工具标志着自然语言生成的重大进步，但它们表现出生成虚假、错误或误导性内容（通常称为幻觉）的倾向。此外，法学硕士可能会被恶意应用程序利用，例如大规模生成虚假但听起来可信的内容和配置文件。这给社会带来了重大挑战，因为用户可能受到欺骗，不准确信息的传播也越来越多。鉴于这些风险，我们探索了事实核查人员、新闻机构以及更广泛的研究和政策界所需的技术创新、监管改革和人工智能素养举措。

Do Large Language Models Know about Facts?
Authors Xuming Hu, Junzhe Chen, Xiaochuan Li, Yufei Guo, Lijie Wen, Philip S. Yu, Zhijiang Guo
大型语言模型法学硕士最近在一系列自然语言处理任务中推动了显着的性能改进。在预训练和指令调整过程中获得的事实知识可用于各种下游任务，例如问答和语言生成。与显式存储事实知识的传统知识库知识库不同，LLM 在其参数中隐式存储事实。由于事实可能会被错误地归纳或随着时间的推移而过时，法学硕士生成的内容通常会表现出不准确或偏离事实。为此，我们的目标是通过设计基准Pinocchio来全面评估法学硕士内事实知识的程度和范围。《匹诺曹》包含 2 万个不同的事实问题，这些问题跨越不同的来源、时间线、领域、地区和语言。此外，我们还研究了法学硕士是否能够组合多个事实、暂时更新事实知识、对多个事实进行推理、识别细微的事实差异以及抵抗对抗性示例。对不同规模和类型的法学硕士进行的大量实验表明，现有的法学硕士仍然缺乏事实知识，并且存在各种虚假相关性。我们认为这是实现可信人工智能的关键瓶颈。

On the Zero-Shot Generalization of Machine-Generated Text Detectors
Authors Xiao Pu, Jingyu Zhang, Xiaochuang Han, Yulia Tsvetkov, Tianxing He
大型语言模型的猖獗扩散，足以生成与人类书面语言无法区分的文本，这使得机器生成文本的检测变得前所未有的重要。这项工作是由一个重要的研究问题推动的：机器生成文本的检测器如何在新生成器的输出上执行，检测器没有接受过训练。我们首先从广泛的法学硕士收集生成数据，并训练神经检测器来自每个发电机的数据并测试其在保持发电机上的性能。虽然没有一个检测器可以泛化到所有生成器，但我们观察到一个一致且有趣的模式，即根据中等规模 LLM 的数据训练的检测器可以零样本泛化到更大的版本。

An Investigation of LLMs' Inefficacy in Understanding Converse Relations
Authors Chengwen Qi, Bowen Li, Binyuan Hui, Bailin Wang, Jinyang Li, Jinwang Wu, Yuanjun Laili
大型语言模型法学硕士在许多面向形式语言的任务中取得了显着的成功，例如结构数据到文本和语义解析。然而，目前的基准大多遵循法学硕士预训练数据的数据分布。因此，一个自然的问题是法学硕士是否真正理解形式语言的结构化语义。在本文中，我们在一种特殊情况——逆二元关系上研究这个问题。我们引入了一个专注于逆向关系的新基准 ConvRe，其中包含从流行知识图补全数据集中提取的 17 个关系和 1240 个三元组。我们的 ConvRE 具有两个任务：Re2Text 和 Text2Re，它们被制定为多项选择问题回答，以评估法学硕士确定关系和关联文本之间匹配的能力。对于评估协议，除了不同的提示方法外，我们还进一步引入了测试文本和少量示例文本的变体。我们对三个流行的法学硕士系列进行了实验，并观察到了各种扩展趋势。

Recurrent Neural Language Models as Probabilistic Finite-state Automata
Authors Anej Svete, Ryan Cotterell
根据易于理解的形式主义来研究语言模型 LM 使我们能够准确地描述它们的能力和局限性。之前的工作研究了循环神经网络 RNN 语言模型在识别未加权形式语言方面的表征能力。然而，LM 并不描述未加权的形式语言，而是定义字符串上的概率分布。在这项工作中，我们研究了 RNN LM 可以代表此类概率分布的哪些类别，这使我们能够更直接地说明它们的功能。我们证明，简单的 RNN 相当于概率有限状态自动机的子类，因此可以对可由有限状态模型表示的概率分布的严格子集进行建模。此外，我们研究了用 RNN 表示有限状态 LM 的空间复杂度。我们证明，为了表示字母表 Sigma 上具有 N 个状态的任意确定性有限状态 LM，RNN 需要 Omega 左 N Sigma 右神经元。

MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models
Authors Yifan Wei, Yisong Su, Huanhuan Ma, Xiaoyan Yu, Fangyu Lei, Yuanzhe Zhang, Jun Zhao, Kang Liu
大型语言模型 LLM 在许多自然语言处理 NLP 任务上表现出接近饱和的性能。因此，人们很自然地认为法学硕士也掌握了时间理解和推理等能力。然而，对法学硕士时间敏感性的研究还没有得到足够的重视。为了填补这一空白，本文构建了多敏感因素时间QA MenatQA，包含范围因素、顺序因素、反事实因素三个时间因素，总共2,853个样本，用于评估法学硕士的时间理解和推理能力。本文测试了当前主流的LLM，参数大小不同，从数十亿到数千亿不等。结果表明，大多数法学硕士在这些因素上都不同程度地落后于较小的时间推理模型。具体来说，法学硕士表现出对时间偏差的严重脆弱性，并且严重依赖于问题中提供的时间信息。此外，本文通过设计具体提示和利用外部工具对潜在的改进策略进行了初步调查。

Toolink: Linking Toolkit Creation and Using through Chain-of-Solving on Open-Source Model
Authors Cheng Qian, Chenyan Xiong, Zhenghao Liu, Zhiyuan Liu
大型语言模型法学硕士在使用工具方面取得了显着的进步，但其闭源性质和高推理成本对其适应性造成了限制，因此需要一种利用较小的开源模型的有效方法。在本文中，我们介绍了 Toolink，这是一个综合框架，它首先创建一个工具包，然后通过解决 CoS 方法链集成工具的规划和调用来执行任务解决。我们首先在 ChatGPT 上验证 Toollink 在利用模型创造力和 CoS 能力方面的功效。随后，我们策划了 CoS GPT，这是一个专为工具使用而设计的求解数据集链，并对 LLaMA 7B 模型进行了微调。它产生了 LLaMA CoS，一个强大的开源模型，具有先进的工具规划和工具调用功能。 BIG bench 对各种任务的评估表明，其 CoS 能力与 ChatGPT 相当，而其性能则超越了思想链方法。进一步的研究强调了 LLaMA CoS 对未见过的任务的泛化，并展示了其使用未明确针对目标任务定制的工具包的能力，证实了其在现实世界场景中的稳健性。

From Data to Dialogue: Leveraging the Structure of Knowledge Graphs for Conversational Exploratory Search
Authors Phillip Schneider, Nils Rehtanz, Kristiina Jokinen, Florian Matthes
探索性搜索是一种开放式信息检索过程，旨在发现有关主题或领域的知识，而不是搜索特定答案或信息。对话界面特别适合支持探索性搜索，允许用户通过交互式对话细化查询并检查搜索结果。除了会话式搜索界面之外，知识图谱由于其丰富的数据项语义表示，在支持信息探索方面也很有用。在这项研究中，我们展示了结合知识图和对话界面进行探索性搜索的协同效应，弥合了结构化和非结构化信息检索之间的差距。为此，我们提出了一种知识驱动的对话系统，通过提出自然语言问题并使用图形结构在相关主题之间导航来探索新闻文章。

Retrieval-Generation Synergy Augmented Large Language Models
Authors Zhangyin Feng, Xiaocheng Feng, Dezhi Zhao, Maojin Yang, Bing Qin
添加了任务相关文档的大型语言模型在知识密集型任务上表现出了令人印象深刻的性能。然而，对于如何获取有效文件，现有的方法主要分为两类。一是从外部知识库检索，二是利用大型语言模型生成文档。我们提出了一个迭代检索生成协作框架。它不仅能够利用参数和非参数知识，而且还有助于通过检索生成交互找到正确的推理路径，这对于需要多步推理的任务非常重要。我们在四个问答数据集上进行了实验，包括单跳 QA 和多跳 QA 任务。

Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements
Authors Yushan Qian, Wei Nan Zhang, Ting Liu
同理心对话是构建和谐社会关系不可或缺的一部分，有助于开发有用的人工智能。以前的方法主要基于精细的小规模语言模型。随着ChatGPT的出现，大型语言模型LLM在该领域的应用效果引起了高度关注。这项工作实证研究了法学硕士在生成移情反应方面的表现，并提出了上下文学习中语义相似、两阶段交互生成以及与知识库结合的三种改进方法。大量的实验表明，法学硕士可以从我们提出的方法中受益匪浅，并且能够在自动评估和人工评估中实现最先进的性能。

Are Emily and Greg Still More Employable than Lakisha and Jamal? Investigating Algorithmic Hiring Bias in the Era of ChatGPT
Authors Akshaj Kumar Veldanda, Fabian Grob, Shailja Thakur, Hammond Pearce, Benjamin Tan, Ramesh Karri, Siddharth Garg
大型语言模型法学硕士（例如 GPT 3.5、Bard 和 Claude）表现出跨众多任务的适用性。人们感兴趣的领域之一是它们在算法招聘中的应用，特别是在将简历与工作类别相匹配方面。然而，这带来了对性别、种族和生育状况等受保护属性的偏见问题。 Bertrand Mullainathan 2003 年的开创性工作为通过现场实验识别招聘偏见设定了黄金标准，其中比较了仅受保护属性不同的相同简历的回复率，例如艾米丽或拉基莎等带有种族暗示的名字。我们在最先进的法学硕士 GPT 3.5、Bard、Claude 和 Llama 上复制了这个实验，以评估在性别、种族、生育状况、怀孕状况和政治立场上的偏见或缺乏。我们根据两项任务评估法学硕士：1 将简历与工作类别相匹配，2 总结简历与就业相关信息。总体而言，法学硕士在种族和性别方面都很强大。他们在怀孕状况和政治立场方面的表现有所不同。

Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature
Authors Guangsheng Bao, Yanbin Zhao, Zhiyang Teng, Linyi Yang, Yue Zhang
大型语言模型法学硕士已显示出产生流畅且令人信服的内容的能力，既带来了生产力机会，也带来了社会风险。为了构建值得信赖的人工智能系统，必须区分机器生成的内容和人类创作的内容。领先的零样本检测器 DetectGPT 展示了值得称赞的性能，但因其密集的计算成本而受到损害。在本文中，我们引入了条件概率曲率的概念，以阐明法学硕士和人类在给定上下文中的词语选择差异。利用该曲率作为基本指标，我们提出了 Fast DetectGPT，这是一种优化的零样本检测器，它用更高效的采样步骤替代了 DetectGPT 的扰动步骤。

Instances and Labels: Hierarchy-aware Joint Supervised Contrastive Learning for Hierarchical Multi-Label Text Classification
Authors Simon Chi Lok U, Jie He, V ctor Guti rrez Basulto, Jeff Z. Pan
分层多标签文本分类 HMTC 旨在在多标签分类中利用标签层次结构。最近的 HMTC 方法通过以半监督的方式对生成的样本使用对比学习来使文本和标签嵌入更接近，从而解决了对输出空间施加过度约束前提的问题。然而，样本的生成往往会引入噪声，因为它忽略了同一批次中相似样本之间的相关性。这个问题的一个解决方案是监督对比学习，但由于其复杂的结构化标签，它仍然是 HMTC 中一个未被充分探索的主题。为了克服这一挑战，我们提出了 HJCL，一种层次结构感知联合监督对比学习方法，它弥合了监督对比学习和 HMTC 之间的差距。

CARLG: Leveraging Contextual Clues and Role Correlations for Improving Document-level Event Argument Extraction
Authors Wanlong Liu, Wenyu Chen, Dingyi Zeng, Li Zhou, Hong Qu
文档级事件参数提取 EAE 是信息提取中至关重要但具有挑战性的子任务。大多数现有方法关注论点和事件触发因素之间的相互作用，忽略了两个关键点：上下文线索信息和论点角色之间的语义相关性。在本文中，我们提出了 CARLG 模型，该模型由上下文线索聚合 CCA 和基于角色的潜在信息指导 RLIG 两个模块组成，有效利用上下文线索和角色相关性来提高文档级 EAE。 CCA 模块利用来自预先训练的编码器的上下文注意力权重来自适应地捕获和集成上下文线索。 RLIG 模块通过角色交互编码捕获语义相关性，并通过潜在角色表示提供有价值的信息指导。值得注意的是，我们的 CCA 和 RLIG 模块紧凑、可移植且高效，引入的新参数不超过 1 个，并且可以轻松配备在其他跨度基础方法上，从而显着提高性能。 RAMS、WikiEvents 和 MLEE 数据集上的大量实验证明了所提出的 CARLG 模型的优越性。它的性能分别比之前最先进的方法高出 1.26 F1、1.22 F1 和 1.98 F1，同时将推理时间减少了 31 。

Breaking Down Word Semantics from Pre-trained Language Models through Layer-wise Dimension Selection
Authors Nayoung Choi
事实证明，从预训练语言模型 PLM 获得的上下文词嵌入对于单词级别的各种自然语言处理任务是有效的。然而，解释嵌入中隐藏的方面（例如语法和语义）仍然具有挑战性。解缠结的表示学习已经成为一种有前途的方法，它将特定的方面分成不同的嵌入。此外，不同的语言知识被认为存储在 PLM 的不同层中。本文旨在通过将二进制掩码应用于跨层的中间输出，而不更新预先训练的参数，从而将语义与 BERT 分开。通过二元分类评估解开的嵌入，以确定两个不同句子中的目标单词是否具有相同的含义。

Zero-Shot Detection of Machine-Generated Codes
Authors Xianjun Yang, Kexun Zhang, Haifeng Chen, Linda Petzold, William Yang Wang, Wei Cheng
这项工作提出了一种无需培训的方法来检测法学硕士生成的代码，从而减轻与其滥用相关的风险。据我们所知，我们的研究首次研究了应用于由高级黑盒法学硕士（如 ChatGPT）生成的代码的零样本检测技术。首先，我们发现现有的基于训练或零样本文本检测器在检测代码方面无效，这可能是由于代码结构中发现的独特统计特性所致。然后，我们修改了之前的零样本文本检测方法 DetectGPT Mitchell et al., 2023，利用代理白盒模型来估计最右边标记的概率，使我们能够识别由语言模型生成的代码片段。通过对 CodeContest 和 APPS 数据集的 python 代码进行广泛的实验，我们的方法通过在文本 davinci 003、GPT 3.5 和 GPT 4 模型上实现最先进的检测结果来证明其有效性。此外，我们的方法表现出针对修改攻击的鲁棒性，并且可以很好地推广到 Java 代码。我们还发现像 PolyCoder 160M 这样的较小的代码语言模型可以作为通用代码检测器，其性能优于十亿级的对应模型。

How Reliable Are AI-Generated-Text Detectors? An Assessment Framework Using Evasive Soft Prompts
Authors Tharindu Kumarage, Paras Sheth, Raha Moraffah, Joshua Garland, Huan Liu
近年来，人工智能生成的文本迅速增长，这主要是由强大的预训练语言模型 PLM 的发布推动的。为了解决与 AI 生成文本相关的误用问题，人们开发了各种高性能检测器，包括 OpenAI 检测器和斯坦福 DetectGPT。在我们的研究中，我们询问这些探测器的可靠性如何。我们通过设计一种新颖的方法来回答这个问题，该方法可以促使任何 PLM 生成避开这些高性能检测器的文本。所提出的方法提出了一种通用的回避提示，这是一种新型的软提示，它指导 PLM 生成可能误导检测器的类似人类的文本。这种新颖的通用回避提示通过两个步骤实现：首先，我们通过提示调整创建针对特定 PLM 的回避软提示，然后，我们利用软提示的可转移性将学习到的回避软提示从一个 PLM 转移到另一个 PLM。

Benchmarking Large Language Models with Augmented Instructions for Fine-grained Information Extraction
Authors Jun Gao, Huan Zhao, Yice Zhang, Wei Wang, Changlong Yu, Ruifeng Xu
信息抽取IE是自然语言处理中的一项重要任务。传统方法依赖于简单指令的粗粒度提取。然而，随着大型语言模型法学硕士的出现，需要采用 IE 技术来利用这些模型的功能。本文介绍了专为法学硕士量身定制的细粒度 IE 基准数据集，对每种信息类型采用增强指令，其中包括任务描述、提取规则、输出格式和示例。通过广泛的评估，我们观察到编码器解码器模型，特别是 T5 和 FLAN T5，在泛化未知信息类型方面表现良好，而 ChatGPT 对新任务形式表现出更大的适应性。我们的结果还表明，性能不仅仅由模型规模决定，并强调了架构、数据多样性和学习技术的重要性。

DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models
Authors Chengcheng Han, Xiaowei Du, Che Zhang, Yixin Lian, Xiang Li, Ming Gao, Baoyuan Wang
思想链 CoT 提示已被证明可以有效增强具有至少 1000 亿个参数的大型语言模型 LLM 的推理能力。然而，当应用于参数少于 100 亿个较小语言模型 SLM 中的推理任务时，它是无效的，甚至是有害的。为了解决这个限制，我们引入了对话引导的思想链 DialCoT，它采用对话格式来生成中间推理步骤，指导模型得出最终答案。此外，我们使用近端策略优化PPO算法优化模型的推理路径选择，进一步增强其推理能力。与以前的方法相比，我们的方法具有几个优点。首先，我们改变了解决复杂推理问题的过程，将其分解为一系列更简单的子问题，显着降低了任务难度，使其更适合SLM。其次，我们通过PPO算法优化模型的推理路径选择。

Enhancing Argument Structure Extraction with Efficient Leverage of Contextual Information
Authors Yun Luo, Zhen Yang, Fandong Meng, Yingjie Li, Jie Zhou, Yue Zhang
论点结构提取 ASE 旨在识别文档中论点的话语结构。先前的研究表明，上下文信息对于开发有效的 ASE 模型至关重要。然而，我们观察到，仅仅在上下文窗口中连接句子并不能充分利用上下文信息，有时会导致对信息量较少的句子的过度关注。为了应对这一挑战，我们提出了一种高效的上下文感知 ASE 模型 ECASE，它通过增强建模能力和增加训练数据来充分利用上下文信息。具体来说，我们引入了序列注意模块和距离加权相似性损失来聚合上下文信息和论证信息。此外，我们通过随机屏蔽话语标记和句子来增强训练数据，这减少了模型对特定单词或信息量较少的句子的依赖。我们对来自不同领域的五个数据集进行的实验表明，我们的模型实现了最先进的性能。

Unleashing the Multilingual Encoder Potential: Boosting Zero-Shot Performance via Probability Calibration
Authors Ercong Nie, Helmut Schmid, Hinrich Sch tze
预训练多语言编码器模型可以通过将输入示例重新表述为完形填空样式提示来直接执行零样本多语言任务或语言探测。这是通过预测屏蔽标记位置处的标签词的概率来完成的，而不需要对模型参数进行任何更新。然而，这种模式的性能受到模型对预测预训练期间经常出现的标签词的偏差的限制。这些词通常出现的概率很高。为了解决这个问题，我们将模型与各种校准技术结合起来，这些校准技术修改了模型预测的标签词的概率。我们评估这些校准方法在单语言编码器以及多语言编码器上的有效性。在各种任务中，我们通过校准实现了显着的性能提升。

Guideline Learning for In-context Information Extraction
Authors Chaoxu Pang, Yixuan Cao, Qiang Ding, Ping Luo
大型语言模型法学硕士可以仅通过任务指令和一些输入输出示例来执行新任务，而无需优化任何参数。这称为情境学习 ICL。在上下文中，信息提取最近引起了研究界的关注。然而，目前的实验结果通常不是最理想的。我们将此主要归因于复杂的任务设置和各种边缘情况很难在长度有限的上下文中充分表达。在本文中，我们提出了一个用于上下文 IE 的指南学习 GL 框架，它学习生成和遵循指南。

sign.mt: Real-Time Multilingual Sign Language Translation Application
Authors Amit Moryossef

BRAINTEASER: Lateral Thinking Puzzles for Large Language Model
Authors Yifan Jiang, Filip Ilievski, Kaixin Ma
语言模型的成功激发了 NLP 社区依靠类人常识机制来处理需要隐式复杂推理的任务。虽然此类垂直思维任务相对流行，但横向思维难题却很少受到关注。为了弥补这一差距，我们设计了 BRAINTEASER 一项多项选择问答任务，旨在测试模型展示横向思维和挑战默认常识关联的能力。我们设计了一个三步程序来创建第一个横向思维基准，包括数据收集、干扰项生成和对抗性示例生成，从而产生 1,100 个带有高质量注释的谜题。为了评估模型横向推理的一致性，我们基于问题的语义和上下文重建来丰富 BRAINTEASER。我们对最先进的教学和常识语言模型的实验揭示了人类和模型表现之间的显着差距，当考虑到对抗性格式的一致性时，这种差距进一步扩大。

Harnessing the Power of ChatGPT in Fake News: An In-Depth Exploration in Generation, Detection and Explanation
Authors Yue Huang, Lichao Sun
假新闻的猖獗传播给社会带来了不利影响，因此人们对遏制假新闻的传播进行了广泛的研究。作为大型语言模型法学硕士领域的一个显着里程碑，ChatGPT 因其卓越的自然语言处理能力而受到广泛关注。在本研究中，我们对 ChatGPT 在生成、解释和检测假新闻方面的熟练程度进行了彻底的探索，如下所示。生成我们采用四种快速方法来生成假新闻样本，并通过自我评估和人工评估来证明这些样本的高质量。解释我们根据 ChatGPT 的解释获得了九个特征来表征假新闻，并分析了这些因素在多个公共数据集中的分布。检测我们检查 ChatGPT 识别假新闻的能力。我们探索其检测一致性，然后提出一种原因感知提示方法来提高其性能。尽管我们的实验表明 ChatGPT 在检测假新闻方面表现出值得称赞的性能，但仍有改进的空间。

Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection
Authors Haodi Zhang, Min Cai, Xinhe Zhang, Chen Jason Zhang, Rui Mao, Kaishun Wu
虽然ChatGPT和PaLM等大型语言模型LLM在各种语言理解和生成任务中表现出了出色的性能，但它们在复杂推理和复杂知识利用方面的能力仍然低于人类水平。最近的研究已经确定了提示在指导法学硕士产生期望产出方面的有效性。基于这些见解，我们引入了一个新颖的框架，该框架利用大规模预训练语言模型的潜力，迭代地提高法学硕士的表现。我们的框架包含三个组件 textit Normal CoT、textit Convincer 和 textit Answerer。它处理典型的几个镜头思维提示链的输出，评估响应的正确性，仔细检查答案，完善推理，并最终产生新的解决方案。 7 个杂项问题数据集的实验结果验证了 Self Convince 框架的有效性，与基线相比实现了实质性改进。

Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as You May Think -- Introducing AI Detectability Index
Authors Megha Chakraborty, S.M Towhidul Islam Tonmoy, S M Mehedi Zaman, Krish Sharma, Niyar R Barman, Chandan Gupta, Shreya Gautam, Tanay Kumar, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
随着多产的 ChatGPT 的兴起，人工智能生成文本的风险和后果已经惊人地增加。为了解决人工智能生成的文物不可避免的所有权归属问题，美国版权局发表声明称，如果一件作品的传统作者权要素是由机器制作的，那么该作品缺乏人类作者权，该局不会对其进行登记。此外，美国和欧盟政府最近都起草了有关人工智能监管框架的初步提案。鉴于人们对生成式人工智能的关注，人工智能生成的文本检测 AGTD 已经成为一个在研究中立即受到关注的话题，一些初步的方法已经被提出，随后很快出现了绕过检测的技术。本文介绍了反图灵测试 CT 2，这是一个由旨在对现有 AGTD 技术的稳健性进行综合评估的技术组成的基准。我们的实证研究结果明确强调了所提出的 AGTD 方法在审查下的脆弱性。在监管人工智能发展的政策制定的广泛审议中，评估法学硕士生成内容的可检测性至关重要。因此，为了建立一个可量化的范围，以便根据法学硕士的可检测性水平对其进行评估和排名，我们提出了人工智能可检测性指数 ADI 。我们对 15 名当代法学硕士进行了彻底检查，凭经验证明较大的法学硕士往往具有较高的 ADI，这表明与较小的法学硕士相比，它们更不易被检测到。

Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading
Authors Howard Chen, Ramakanth Pasunuru, Jason Weston, Asli Celikyilmaz
由于同时处理和比较所有标记的自注意力机制的有效性，大型语言模型法学硕士取得了长足的进步。然而，这种机制带来了一个基本问题：预定的上下文窗口必然受到限制。尽管尝试通过推断位置嵌入、使用递归或选择性检索长序列的基本部分等方法来扩展上下文窗口，但长文本理解仍然是一个挑战。我们提出了一种替代方法，将法学硕士视为交互式代理，允许其通过迭代提示决定如何阅读文本。我们引入 MemWalker，这是一种首先将长上下文处理成摘要节点树的方法。收到查询后，模型会导航该树以搜索相关信息，并在收集到足够的信息后做出响应。在长文本问答任务中，我们的方法优于使用长上下文窗口、递归和检索的基线方法。

Synslator: An Interactive Machine Translation Tool with Online Learning
Authors Jiayi Wang, Ke Wang, Fengming Zhou, Chengyu Wang, Zhiyong Fu, Zeyu Feng, Yu Zhao, Yuqi Zhang
交互式机器翻译 IMT 是计算机辅助翻译范式的发展，其中机器翻译系统和人工翻译人员协作生成高质量的翻译。本文介绍了Synslator，这是一种用户友好的计算机辅助翻译CAT工具，不仅支持IMT，而且擅长利用实时翻译记忆进行在线学习。为了适应 CAT 服务的各种部署环境，Synslator 集成了两种不同的神经翻译模型来处理在线学习的翻译记忆。此外，系统还采用语言模型来增强交互模式下翻译的流畅性。在评估中，我们通过翻译模型确认了在线学习的有效性，并观察到通过 Synslator 的交互功能，后期编辑效率提高了 13 倍。

WikiIns: A High-Quality Dataset for Controlled Text Editing by Natural Language Instruction
Authors Xiang Chen, Zheng Li, Xiaojun Wan
文本编辑，即修改或操作文本的过程，是人类写作过程中的关键步骤。在本文中，我们研究了通过自然语言指令进行受控文本编辑的问题。根据给定的传达编辑意图和必要信息的指令，需要将原稿文本修改为目标文本。用于此任务的现有自动构建数据集是有限的，因为它们没有信息丰富的自然语言指令。信息性要求指令中包含的信息足以产生修订后的文本。为了解决这个限制，我们构建并发布了 WikiIns，这是一个高质量的受控文本编辑数据集，具有更高的信息量。我们首先对维基百科编辑历史数据库进行预处理，以提取原始数据 WikiIns Raw 。然后我们众包高质量的验证和测试集，以及小规模训练集 WikiIns Gold 。借助高质量的注释数据集，我们进一步提出了生成大规模银训练集 WikiIns Silver 的自动方法。最后，我们对 WikiIns 数据集进行了一些深入的分析，包括评估结果和编辑意图分析。我们的分析和 WikiIns 上的实验结果可能有助于正在进行的文本编辑研究。

MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering
Authors Xiusi Chen, Jyun Yu Jiang, Wei Cheng Chang, Cho Jui Hsieh, Hsiang Fu Yu, Wei Wang
少样本问答 QA 的目的是在只有少量训练样本的情况下在机器问答上取得满意的结果。最近的进展主要依赖于预训练的大型语言模型 LLM 的强大功能以及特定设置中的微调。尽管预训练阶段已经为LLM配备了强大的推理能力，但LLM仍需要进行微调以适应特定领域，以达到最佳结果。在本文中，我们建议选择信息最丰富的数据进行微调，从而提高微调过程的效率，在开放域 QA 任务上具有相当甚至更好的精度。我们提出了 MinPrompt，这是一个基于近似图算法和无监督问题生成的开放域 QA 的最小数据增强框架。我们将原始文本转换为图形结构，以在不同的事实句子之间建立联系，然后应用图形算法来识别覆盖原始文本中最多信息所需的最小句子集。然后，我们根据识别的句子子集生成问答对，并在选定的句子上训练模型以获得最终模型。

Self-Knowledge Guided Retrieval Augmentation for Large Language Models
Authors Yile Wang, Peng Li, Maosong Sun, Yang Liu
大型语言模型 LLM 已显示出卓越的性能，无需针对特定任务进行微调。尽管取得了成功，但由于计算成本的原因，存储在法学硕士参数中的知识仍然不完整且难以更新。作为补充，基于检索的方法可以提供非参数世界知识并提高问答等任务的性能。然而，我们发现检索到的知识并不总是有帮助，甚至偶尔会对原始反应产生负面影响。为了更好地利用内部知识和外部世界知识，我们研究了引出模型识别他们知道和不知道什么的能力，也称为自我知识，并提出了自我知识引导的检索增强 SKR，这是一种简单而有效的方法，可以让LLM参考之前遇到的问题，并在处理新问题时自适应地调用外部资源。

Distantly-Supervised Joint Entity and Relation Extraction with Noise-Robust Learning
Authors Yufei Li, Xiao Yu, Yanghong Guo, Yanchi Liu, Haifeng Chen, Cong Liu
联合实体和关系提取是使用单个模型识别实体对及其关系的过程。我们专注于在远程标记数据上训练这些模型的问题，这些数据是通过将文本语料库中的实体提及与知识库中相应的实体和关系类型对齐而生成的。这里的一个关键挑战是存在噪声标签，这些标签由实体和关系注释产生，并显着损害监督学习应用程序的有效性。然而，现有的研究主要只针对一种类型的噪声，从而限制了降噪的有效性。为了填补这一空白，我们引入了一种新的噪声鲁棒方法，该方法 1 将预训练的 GPT 2 纳入序列标记方案中，以同时进行实体和关系检测，2 采用噪声鲁棒学习框架，其中包括一个新的损失函数，用于惩罚不一致性具有重要的关系模式和实体关系依赖性，以及迭代选择和训练高质量实例的自适应学习步骤。

TopicAdapt- An Inter-Corpora Topics Adaptation Approach
Authors Pritom Saha Akash, Trisha Das, Kevin Chen Chuan Chang
主题模型是用于检测文本语料库中潜在语义主题的流行统计工具。它们已被用于不同领域的各种应用中。然而，传统的主题模型有一些局限性，包括对用户指导不敏感、对数据的数量和质量敏感，以及无法将学习的主题从一个语料库适应到另一个语料库。为了应对这些挑战，本文提出了一种神经主题模型 TopicAdapt，它可以适应相关源语料库中的相关主题，并在目标语料库中发现源语料库中不存在的新主题。所提出的模型提供了一种有前途的方法来提高实际场景中的主题建模性能。

MULTISCRIPT: Multimodal Script Learning for Supporting Open Domain Everyday Tasks
Authors Jingyuan Qi, Minqian Liu, Ying Shen, Zhiyang Xu, Lifu Huang
自动生成脚本，即视频演示中文本描述的关键步骤序列，以及对后续步骤的推理，对于现代人工智能虚拟助手指导人类完成日常任务（尤其是不熟悉的任务）至关重要。然而，当前的生成脚本学习方法严重依赖于文本和/或图像中描述的结构良好的先前步骤，或者仅限于某个领域，导致与现实世界的用户场景存在差异。为了解决这些限制，我们提出了一个新的基准挑战 MultiScript，其中有两个关于面向任务的多模式脚本学习的新任务：1 多模式脚本生成，以及 2 后续步骤预测。对于这两个任务，输入均由目标任务名称和说明完成目标任务已完成操作的视频组成，预期输出为 1 基于演示视频的文本结构化步骤描述序列，以及 2分别对后续步骤进行文字描述。 MultiScript 基于 WikiHow 构建，涵盖视频和文本描述中的多模式脚本，涵盖 19 个不同领域的超过 6,655 项人类日常任务。为了建立 MultiScript 的基准性能，我们提出了两种知识引导的多模式生成框架，其中包含来自大型语言模型（例如 Vicuna）提示的任务相关知识。

Exploring the Usage of Chinese Pinyin in Pretraining
Authors Baojun Wang, Kun Xu, Lifeng Shang
与字母语言不同，中文的拼写和发音都不同。汉字和拼音在汉语理解中都起着重要作用。在中文NLP任务中，我们几乎采用字符或单词作为模型输入，很少有工作研究如何使用拼音。然而，拼音在很多场景下都是必不可少的，比如对ASR引入的错误进行纠错和容错。此类错误大多是由相同或相似发音单词引起的，我们将此类错误简称为SSP相同或相似发音错误。在这项工作中，我们探索了在预训练模型中使用拼音的各种方式，并提出了一种称为 PmBERT 的新预训练方法。我们的方法并行使用汉字和拼音进行预训练。通过精细的预训练任务，将汉字和拼音表示进行融合，可以增强对SSP错误的容错能力。我们进行了全面的实验和消融测试，以探索如何构建强大的语音增强中文模型。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com