【AI视野·今日NLP 自然语言处理论文速览第五十八期】Thu, 19 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 19 Oct 2023
Totally 74 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Understanding Retrieval Augmentation for Long-Form Question Answering
Authors Hung Ting Chen, Fangyuan Xu, Shane A. Arora, Eunsol Choi
我们提出了一项关于长形式问答的检索增强语言模型 LM 的研究。我们通过比较使用相同证据文档时模型生成的答案来分析检索增强如何影响不同的 LM，以及不同质量的检索文档集如何影响同一 LM 生成的答案。我们研究生成的答案的各种属性，例如流畅性、长度、方差，重点是生成的长格式答案对上下文证据文档的归因。我们收集答案归因的人工注释并评估自动判断归因的方法。我们的研究提供了关于检索增强如何影响 LM 的长知识丰富文本生成的新见解。我们进一步确定长文本生成的归因模式，并分析归因错误的主要原因。

Pseudointelligence: A Unifying Framework for Language Model Evaluation
Authors Shikhar Murty, Orr Paradise, Pratyusha Sharma
随着大型语言模型在越来越多的基准测试中超越人类的表现，我们必须采取有原则的方法来有针对性地评估模型能力。受伪随机性的启发，我们提出了伪智能，它抓住了“情人眼里出西施”这一格言。也就是说，只有当评估者被考虑在内时，智力的主张才有意义。具体来说，我们提出了模型评估的复杂性理论框架，将其视为模型和学习评估器之间的动态交互。

A Tale of Pronouns: Interpretability Informs Gender Bias Mitigation for Fairer Instruction-Tuned Machine Translation
Authors Giuseppe Attanasio, Flor Miriam Plaza del Arco, Debora Nozza, Anne Lauscher
最近的指令微调模型可以在提示时解决多个 NLP 任务，其中机器翻译 MT 是一个突出的用例。然而，当前的研究往往侧重于标准绩效基准，而忽视了令人信服的公平和道德考虑。在机器翻译中，这可能会导致性别翻译错误，从而导致刻板印象和偏见的延续等危害。在这项工作中，我们通过调查此类模型在机器翻译中是否表现出性别偏见以及在多大程度上表现出性别偏见以及我们如何减轻这种偏见来解决这一差距。具体来说，我们计算了 WinoMT 语料库上从英语到德语和西班牙语的既定性别偏见指标。我们发现 IFT 模型默认采用男性屈折翻译，甚至无视女性职业刻板印象。接下来，使用可解释性方法，我们发现模型系统地忽略了性别错误翻译中指示目标职业性别的代词。

Harnessing Dataset Cartography for Improved Compositional Generalization in Transformers
Authors Osman Batur nce, Tanin Zeraati, Semih Yagcioglu, Yadollah Yaghoobzadeh, Erkut Erdem, Aykut Erdem
神经网络彻底改变了语言建模，并在各种下游任务中表现出色。然而，这些模型在多大程度上实现了与人类认知能力相当的组合概括仍然是一个有争议的话题。虽然该领域的现有方法主要集中在新颖的架构和替代学习范式上，但我们引入了一种利用数据集制图力量的开创性方法 Swayamdipta 等人，2020。通过使用这种方法战略性地识别成分泛化数据的子集，我们在模型准确性方面取得了显着的进步，在 CFQ 和 COGS 数据集上获得了高达 10 的增强。值得注意的是，我们的技术将数据集制图作为课程学习标准，消除了超参数调整的需要，同时始终实现卓越的性能。我们的研究结果强调了数据集制图在释放 Transformer 模型中组合泛化的全部功能方面尚未开发的潜力。

Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Authors Yaqing Wang, Jialin Wu, Tanmaya Dabral, Jiageng Zhang, Geoff Brown, Chun Ta Lu, Frederick Liu, Yi Liang, Bo Pang, Michael Bendersky, Radu Soricut
大型语言模型 LLM 和视觉语言模型 VLM 通过将参数计数从 O 10 9 扩展到 O 10 12 级别甚至更高，在各种任务上展示了出色的性能。这些大规模使得在给定感兴趣的任务的情况下不可能适应和部署完全专业的模型。参数有效的微调 PEFT 成为解决此类大型模型的适应和服务挑战的一个有前途的方向。我们将 PEFT 技术分为侵入式和非侵入式两种。侵入式 PEFT 技术直接改变模型的内部架构。尽管更加灵活，但它们给训练和服务带来了极大的复杂性。非侵入式 PEFT 技术保持内部架构不变，仅调整模型外部参数，例如输入的嵌入。在这项工作中，我们将 AdaLink 描述为一种非侵入式 PEFT 技术，与 SoTA 侵入式 PEFT LoRA 和全模型微调 FT 相比，它在各种任务上实现了具有竞争力的性能。

Unveiling the Siren's Song: Towards Reliable Fact-Conflicting Hallucination Detection
Authors Xiang Chen, Duanzheng Song, Honghao Gui, Chengxi Wang, Ningyu Zhang, Fei Huang, Chengfei Lv, Dan Zhang, Huajun Chen
大型语言模型 LLM，例如 ChatGPT GPT 4，由于其无数的实际应用而引起了广泛的关注，但它们的采用却受到网络平台上事实冲突幻觉问题的限制。法学硕士对文本事实性的评估仍然没有得到充分的探索，不仅扩展到普通事实的判断，还包括对多跳等复杂推理任务中出现的事实错误的评估。作为回应，我们引入了 FactCHD ，一个专为法学硕士精心设计的事实冲突幻觉检测基准。作为评估查询响应上下文中的事实性的关键工具，我们的基准同化了大规模数据集，封装了广泛的事实性模式，例如普通、多跳、比较和集合操作模式。我们的基准的一个显着特点是它纳入了基于事实的证据链，从而促进了整个评估过程中全面且有益的事实推理。我们评估了多个法学硕士，证明了基准的有效性，而当前的方法无法忠实地检测事实错误。此外，我们提出了 TRUTH TRIANGULATOR，它通过基于 Llama2 的工具增强型 ChatGPT 和 LoRA 调整来综合反思性考虑，旨在通过预测结果和证据的合并产生更可信的检测。

Towards Safer Operations: An Expert-involved Dataset of High-Pressure Gas Incidents for Preventing Future Failures
Authors Shumpei Inoue, Minh Tien Nguyen, Hiroki Mizokuchi, Tuan Anh D. Nguyen, Huu Hiep Nguyen, Dung Tien Le
本文介绍了一种用于安全预防的新 IncidentAI 数据集。与之前通常包含单个任务的语料库不同，我们的数据集包含三个任务：实体识别、因果提取和信息检索。该数据集由具有至少六年高压气体保护管理者实践经验的领域专家注释。我们验证了数据集在安全预防场景中的贡献。这三个任务的初步结果表明，NLP 技术有利于分析事件报告以防止未来发生故障。该数据集有助于 NLP 和事件管理社区的未来研究。

SPEED: Speculative Pipelined Execution for Efficient Decoding
Authors Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Hasan Genc, Kurt Keutzer, Amir Gholami, Sophia Shao
基于 Transformer 架构的生成式大语言模型法学硕士最近已成为各种自然语言处理任务的主导基础模型。然而，由于与这些模型相关的显着的推理延迟，它们在实时场景中的应用受到了高度限制。由于生成式 LLM 推理的自回归性质，这一点尤其明显，其中令牌是按顺序生成的，因为每个令牌都依赖于所有先前的输出令牌。因此，实现任何令牌级并行性都具有挑战性，这使得推理受到极大的内存限制。在这项工作中，我们提出了 SPEED，它通过使用基于早期层隐藏状态的预测值与当前令牌并行地推测执行多个未来令牌，从而提高推理效率。对于采用参数共享的 Transformer 解码器，可以分摊并行执行的令牌的内存操作，这使我们能够加速生成式 LLM 推理。

Code Book for the Annotation of Diverse Cross-Document Coreference of Entities in News Articles
Authors Jakob Vogel
本文提出了一种在新闻文章中注释共指的方案，通过考虑邻近同一性和桥接关系，超越了传统的同一性关系。它包括如何设置 Inception（相应的注释工具）、如何注释新闻文章中的实体、如何将它们与不同的共指关系连接起来，以及如何将它们跨文档链接到 Wikidata 的全局知识图谱。这种多层注释方法是在媒体偏见问题的背景下讨论的。

Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education
Authors Duc Vu Nguyen, Quoc Nam Nguyen
在本文中，我们评估了大型语言模型 LLM 在零样本、单样本和少量样本设置下执行多项选择符号绑定 MCSB 的能力，以执行多项选择问答 MCQA 任务。我们专注于越南语，其具有挑战性的 MCQA 数据集比英语少。现有的两个数据集 ViMMRC 1.0 和 ViMMRC 2.0 侧重于文献。越南自然语言处理 NLP 的最新研究主要集中在 2019 年至 2023 年越南国家高中毕业考试 VNHSGE 上，以评估 ChatGPT。然而，这些研究主要集中在ChatGPT如何逐步解决VNHSGE。我们的目标是通过提供用于输入数学、物理、化学和生物学 LaTeX 公式的结构化指南来创建新颖且高质量的数据集。该数据集可用于评估 LLM 和较小语言模型 LM 的 MCSB 能力，因为它是以严格的 LaTeX 风格输入的。我们专注于在给定问题上下文的情况下预测最有可能回答问题的字符 A、B、C 或 D。我们在 ViMMRC 1.0 和 ViMMRC 2.0 基准上对六个著名的 LLM（即 BLOOMZ 7.1B MT、LLaMA 2 7B、LLaMA 2 70B、GPT 3、GPT 3.5 和 GPT 4.0）进行了评估，我们提出的数据集在 MCSB 上显示了有希望的结果越南语法学硕士的能力。

Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scaling of Texts with Large Language Models
Authors Patrick Y. Wu, Jonathan Nagler, Joshua A. Tucker, Solomon Messing
现有的文本缩放方法通常需要大型语料库，难以处理短文本，或者需要标记数据。我们开发了一种文本缩放方法，该方法利用生成式大型语言模型法学硕士的模式识别功能。具体来说，我们提出了概念引导的思想链 CGCoT，它使用旨在总结想法并识别文本中的目标方的提示来生成概念特定的细分，在许多方面类似于人类编码器内容分析的指导。 CGCoT 有效地将成对文本比较从推理问题转变为模式识别问题。然后，我们使用法学硕士成对比较概念特定的细分。我们使用这些成对比较的结果来使用 Bradley Terry 模型来估计规模。我们使用这种方法来衡量 Twitter 上的情感言论。与 Wordfish 等替代方法相比，我们的测量方法与人类判断的相关性更强。除了用于开发 CGCoT 提示的一小组试点数据外，我们的措施不需要额外的标记数据，并生成与对数千条人类标记推文进行微调的 RoBERTa Large 模型相当的二进制预测。

CORE: A Few-Shot Company Relation Classification Dataset for Robust Domain Adaptation
Authors Philipp Borchert, Jochen De Weerdt, Kristof Coussement, Arno De Caigny, Marie Francine Moens
我们引入了 CORE，一个专注于公司关系和商业实体的少量镜头关系分类 RC 的数据集。 CORE 包括 12 种关系类型的 4,708 个实例，以及从公司维基百科页面提取的相应文本证据。由于与之相关的信息丰富多样，公司名称和商业实体对少数射击 RC 模型构成了挑战。例如，公司名称可能代表法律实体、产品、人员或业务部门，具体取决于上下文。因此，推导实体之间的关系类型高度依赖于文本上下文。为了评估最先进的 RC 模型在 CORE 数据集上的性能，我们在少数镜头域适应设置中进行了实验。我们的结果揭示了巨大的性能差距，证实了在不同领域训练的模型很难适应 CORE。有趣的是，我们发现在 CORE 上训练的模型展示了域外性能的提高，这凸显了高质量数据对于稳健域适应的重要性。具体来说，业务实体中嵌入的信息丰富性使模型能够专注于上下文的细微差别，从而减少对诸如关系特定动词之类的表面线索的依赖。

Gold: A Global and Local-aware Denoising Framework for Commonsense Knowledge Graph Noise Detection
Authors Zheye Deng, Weiqi Wang, Zhaowei Wang, Xin Liu, Yangqiu Song
常识知识图 CSKG 对于常识推理至关重要，但通过人工注释构建它们可能成本高昂。因此，人们提出了各种自动方法来构建具有更大语义覆盖范围的 CSKG。然而，这些无监督方法会引入杂散噪声，从而降低生成的 CSKG 的质量，由于 CSKG 中节点和结构的独特特征，现有的去噪算法无法轻松解决这一问题。为了解决这个问题，我们提出了 Gold Global and Local recognize Denoising ，这是一种 CSKG 的去噪框架，其中包含来自 CSKG 的实体语义信息、全局规则和局部结构信息。实验结果表明，Gold 在合成噪声 CSKG 基准上的噪声检测任务中优于所有基线方法。

Multi-view Contrastive Learning for Entity Typing over Knowledge Graphs
Authors Zhiwei Hu, V ctor Guti rrez Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan
知识图实体类型 KGET 旨在推断知识图中合理的实体类型。现有的 KGET 方法重点关注如何更好地将实体的邻居和类型提供的知识编码到其表示中。然而，他们忽略了类型聚集在一起的方式所提供的语义知识。在本文中，我们提出了一种称为多视图对比学习的知识图实体类型MCLET新方法，该方法有效地将集群提供的粗粒度知识编码为实体和类型嵌入。 MCLET 由三个模块组成 i 多视图生成和编码器模块，对来自实体类型、实体簇和簇类型视图的结构化信息进行编码 ii 跨视图对比学习模块，鼓励不同视图协作改进实体和类型的视图特定表示 iii实体类型预测模块，集成了多头注意力和专家混合策略来推断缺失的实体类型。

InfoDiffusion: Information Entropy Aware Diffusion Process for Non-Autoregressive Text Generation
Authors Renzhi Wang, Jing Li, Piji Li
扩散模型在文本生成领域引起了相当大的兴趣。一些研究探索了具有不同结构的文本传播模型，并将其应用于各种任务，包括命名实体识别和摘要。然而，当前扩散模型的简单首次文本生成过程与人类的关键词优先自然文本生成过程之间存在显着差异，受到的关注有限。为了弥补这一差距，我们提出了 InfoDiffusion，一种非自回归文本扩散模型。我们的方法引入了 keyinfo 第一代策略，并结合了基于文本信息量的噪声计划。此外，InfoDiffusion 将自我调节与新提出的部分噪声模型结构相结合。

Filling in the Gaps: Efficient Event Coreference Resolution using Graph Autoencoder Networks
Authors Loic De Langhe, Orph e De Clercq, Veronique Hoste
我们引入了一种新颖且有效的事件共指解析 ECR 方法，应用于资源较低的语言领域。通过将 ECR 构建为图重建任务，我们能够将深度语义嵌入与结构共指链知识相结合，创建参数高效的图自动编码器模型系列 GAE 。在大型荷兰事件共指语料库上，我们的方法在总体得分、效率和训练速度方面显着优于经典提及对方法。

AMR Parsing with Causal Hierarchical Attention and Pointers
Authors Chao Lou, Kewei Tu
基于翻译的 AMR 解析器最近因其简单性和有效性而受到欢迎。他们将线性化图预测为自由文本，避免显式结构建模。然而，这种简单性忽略了 AMR 图中的结构局部性，并引入了不必要的标记来表示共指。在本文中，我们介绍了 AMR 解析的新目标形式和一种新颖的模型 CHAP，该模型配备了因果层次注意力和指针机制，能够将结构集成到 Transformer 解码器中。我们根据经验探索各种替代建模选项。

Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences
Authors Yanming Kang, Giang Tran, Hans De Sterck
基于 Transformer 的模型在许多领域都实现了最先进的性能。然而，自注意力相对于输入长度的二次复杂度阻碍了基于 Transformer 的模型对长序列的适用性。为了解决这个问题，我们提出了快速多极注意力，一种新的注意力机制，它使用分而治之的策略来减少长度为 n 的序列的注意力时间和内存复杂性，从数学 O n 2 到数学 On log n 或 O n ，同时保留全局感受野。分层方法将查询、键和值分组为数学 O log n 级别的分辨率，其中距离较远的组的大小越来越大，并且可以学习计算组数量的权重。因此，以较低的分辨率以有效的分层方式考虑彼此远离的令牌之间的交互。快速多极注意力的整体复杂度是 mathcal On 或 mathcal On log n ，具体取决于查询是否被下采样。这种多级分治策略的灵感来自于 n 体物理学的快速求和方法和快速多极子方法。我们对自回归和双向语言建模任务进行评估，并将我们的快速多极注意力模型与中等规模数据集上的其他有效注意力变体进行比较。我们根据经验发现，快速多极变压器在内存大小和准确性方面比其他高效变压器表现得更好。

Emptying the Ocean with a Spoon: Should We Edit Models?
Authors Yuval Pinter, Michael Elhadad
我们对最近流行的直接模型编辑方法作为纠正法学硕士世代中事实错误的一种方法提出了质疑。我们将模型编辑与三种相似但不同的方法进行对比，这些方法追求更明确的目标 1 基于检索的架构，它将事实记忆与法学硕士中体现的推理和语言能力分离 2 概念擦除方法，旨在防止生成文本中的系统偏见和 3 归因方法，其目的是让几代人扎根于确定的文本来源。我们认为，不能相信直接模型编辑可以作为解决法学硕士固有缺点的系统性补救措施，虽然它已被证明在提高模型可解释性方面具有潜力，但它通过强化模型的真实性可以被信任的观念而带来了风险。

MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
Authors Dingyao Yu, Kaitao Song, Peiling Lu, Tianyu He, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian
人工智能支持的音乐处理是一个多元化的领域，涵盖数十种任务，从生成任务（例如音色合成）到理解任务（例如音乐分类）。对于开发者和业余爱好者来说，掌握所有这些任务来满足他们在音乐处理方面的要求是非常困难的，特别是考虑到各种任务之间音乐数据的表示和跨平台的模型适用性的巨大差异。因此，有必要建立一个系统来组织和整合这些任务，从而帮助从业者自动分析他们的需求并调用合适的工具作为解决方案来满足他们的需求。受到最近大型语言模型法学硕士在任务自动化方面取得的成功的启发，我们开发了一个名为 MusicAgent 的系统，它集成了众多音乐相关工具和自主工作流程来满足用户需求。更具体地说，我们构建了 1 个工具集，收集来自不同来源的工具，包括 Hugging Face、GitHub 和 Web API 等。 2 由 LLM（例如 ChatGPT）支持的自主工作流程，用于组织这些工具并自动将用户请求分解为多个子任务和调用相应的音乐工具。该系统的主要目标是将用户从复杂的人工智能音乐工具中解放出来，使他们能够专注于创意方面。

Grounded and Well-rounded: A Methodological Approach to the Study of Cross-modal and Cross-lingual Grounding
Authors Timothee Mickus, Elaine Zosa, Denis Paperno
基础被认为是开发更完整、真正具有语义能力的人工智能系统的关键组成部分。文献分为两个阵营，虽然一些人认为扎根允许定性上不同的概括，但另一些人则认为它可以通过单模态数据量来补偿。

Investigating semantic subspaces of Transformer sentence embeddings through linear structural probing
Authors Dmitry Nikolaev, Sebastian Pad
基于 Transformer 的语言模型的不同层中编码了哪些类型的语言信息，这一问题引起了 NLP 社区的极大兴趣。然而，现有的工作绝大多数集中在词级表示和具有屏蔽标记训练目标的仅编码器语言模型。在本文中，我们提出了语义结构探测的实验，这是一种通过查找嵌入空间的子空间来研究句子级表示的方法，该子空间提供数据点之间合适的特定于任务的成对距离。我们将我们的方法应用于来自不同系列的语言模型（仅编码器、仅解码器、编码器解码器）以及在语义文本相似性和自然语言推理这两个任务的上下文中不同大小的语言模型。

A Benchmark for Semi-Inductive Link Prediction in Knowledge Graphs
Authors Adrian Kochsiek, Rainer Gemulla
知识图谱 KG 中的半归纳链接预测 LP 是基于上下文信息预测新的、以前未见过的实体的事实的任务。虽然原则上可以通过从头开始重新训练模型来集成新实体，但这种方法对于大规模知识图谱来说是不可行的，因为重新训练的成本很高，而且新实体可能会频繁出现。在本文中，我们提出并描述了评估半电感 LP 模型的大规模基准。该基准测试基于并扩展了 Wikidata5M，它提供了转导式、k shot 和 0 shot LP 任务，每个任务的可用信息从仅 KG 结构到 ii 包括文本提及和 iii 实体的详细描述。我们报告了对最新方法的一项小型研究，发现在所有实验中，半感应 LP 性能与长尾实体的传导性能相去甚远。

Rather a Nurse than a Physician -- Contrastive Explanations under Investigation
Authors Oliver Eberle, Ilias Chalkidis, Laura Cabello, Stephanie Brandl
对比性解释（其中一个决策与另一个决策相对照地进行解释）应该比非对比性解释更接近人类解释决策的方式，非对比性解释（其中决策不一定参考替代方案）。这一说法从未得到过经验验证。我们分析了四个英文文本分类数据集 SST2、DynaSent、BIOS 和 DBpedia Animals。我们从三个不同的模型 RoBERTa、GTP 2 和 T5 中进行微调和提取解释，每个模型都有三种不同的大小，并应用三种事后可解释性方法 LRP、GradientxInput、GradNorm 。我们还收集并发布了 BIOS 数据集中 100 个样本子集的人类基本原理注释，用于对比和非对比设置。在对比和非对比设置中，基于模型的原理和人类注释之间的交叉比较可以在模型和人类的两种设置之间产生高度一致性。此外，在两种设置中计算的基于模型的解释同样符合人类的基本原理。

From Dissonance to Insights: Dissecting Disagreements in Rationale Dataset Construction for Case Outcome Classification
Authors Shanshan Xu, Santosh T.Y.S.S, Oana Ichim, Isabella Risini, Barbara Plank, Matthias Grabmair
在法律NLP中，案例结果分类COC不仅必须准确，而且必须可信且可解释。可解释的 COC 的现有工作仅限于由单个专家进行注释。然而，众所周知，律师对案件事实的评估可能存在分歧。因此，我们收集了一个新的数据集 RAVE Rationale Variation in ECHR1，该数据集是从国际人权法领域的两位专家获得的，我们观察到他们的一致性较差。我们研究他们的分歧，并建立一个两级任务独立分类法，并辅以 COC 特定子类别。据我们所知，这是法律 NLP 中第一个关注人类标签变异的工作。我们定量评估不同的分类类别，发现分歧主要源于法律背景的不明确，鉴于 COC 元数据通常有限的粒度和噪音，这带来了挑战。我们进一步评估了 RAVE 上 SOTA COC 模型的可解释性，并观察到模型和专家之间的一致性有限。

The Curious Case of Hallucinatory Unanswerablity: Finding Truths in the Hidden States of Over-Confident Large Language Models
Authors Aviv Slobodkin, Omer Goldman, Avi Caciularu, Ido Dagan, Shauli Ravfogel
大型语言模型法学硕士已被证明拥有令人印象深刻的能力，同时也引起了对其回答的忠实度的严重担忧。在这种情况下出现的一个主要问题是法学硕士无法回答的问题的管理，这通常会因过度自信而导致幻觉行为。在本文中，我们探讨了法学硕士在遇到无法回答的问题时的行为。我们询问模型 textbf 是否代表了在生成幻觉答案时问题无法回答的事实。我们的结果表明，此类模型对输入查询的可回答性进行了编码，第一个解码令牌的表示通常是一个强有力的指标。这些发现为法学硕士潜在表征中的空间组织提供了新的线索，揭示了这些模型以前未探索过的方面。

AI Nushu: An Exploration of Language Emergence in Sisterhood -Through the Lens of Computational Linguistics
Authors Yuqian Sun, Yuying Tang, Ze Gao, Zhijun Pan, Chuyan Xu, Yurou Chen, Kejiang Qian, Zhigang Wang, Tristan Braud, Chang Hee Lee, Ali Asadipour
本文介绍了AI女书，这是一种受女书女性文字启发的新兴语言系统，女书是一种独特的语言，专门由中国古代女性创造和使用，她们在父权社会下被认为是文盲。在这个交互式装置中，两个人工智能智能体在中文词典和女书语料库中接受训练。通过不断观察环境和沟通，这些智能体合作创建一个标准的书写系统来编码中文。

Text Annotation Handbook: A Practical Guide for Machine Learning Projects
Authors Felix Stollenwerk, Joey hman, Danila Petrelli, Emma Waller , Fredrik Olsson, Camilla Bengtsson, Andreas Horndahl, Gabriela Zarzar Gandler
本手册是关于如何处理文本注释任务的实践指南。它提供了对该主题的温和介绍、理论概念概述以及实用建议。涵盖的主题主要是技术性的，但也涉及商业、道德和监管问题。重点在于可读性和简洁性，而不是完整性和科学严谨性。注释经验和机器学习知识很有用，但不是必需的。

Improving Long Document Topic Segmentation Models With Enhanced Coherence Modeling
Authors Hai Yu, Chong Deng, Qinglin Zhang, Jiaqing Liu, Qian Chen, Wen Wang
主题分割对于获取结构化长文档和改进信息检索等下游任务至关重要。由于能够从大量标记数据中自动探索主题转移线索，最近的监督神经模型极大地促进了长文档主题分割的发展，但语义连贯性和主题分割之间更深层次的关系尚未得到充分探索。因此，本文增强了监督模型从结构和相似性角度捕获连贯性的能力，以进一步提高主题分割性能，包括主题感知句子结构预测 TSSP 和对比语义相似性学习 CSSL 。具体来说，提出了 TSSP 任务，通过学习混乱文档中相邻句子的原始关系来迫使模型理解结构信息，该文档是通过在主题和句子级别共同破坏原始文档而构建的。此外，我们利用主题间和主题内信息来构建对比样本并设计CSSL目标，以确保同一主题中的句子表示具有较高的语义相似性，而不同主题中的句子表示的相似度较低。大量实验表明，采用我们方法的 Longformer 明显优于旧的最先进的 SOTA 方法。我们的方法将旧 SOTA 的 F 1 提高了 3.42 73.74 77.16，并将 WIKI 727K 上的 P k 降低了 1.11 点 15.0 13.89，并在 WikiSection 上的 P k 上平均降低了 0.83 点。

Annotated Job Ads with Named Entity Recognition
Authors Felix Stollenwerk, Niklas Fastlund, Anna Nyqvist, Joey hman
我们训练了一个命名实体识别 NER 模型，该模型可以筛选瑞典招聘广告以获取不同类型的有用信息，例如：求职者所需的技能。它是通过微调 KB BERT 获得的。我们面临的最大挑战是创建标记数据集，这需要手动注释。本文概述了我们所采用的使注释过程更加高效并确保高质量数据的方法。

A Comprehensive Evaluation of Large Language Models on Legal Judgment Prediction
Authors Ruihao Shui, Yixin Cao, Xiang Wang, Tat Seng Chua
大型语言模型法学硕士已经展示了特定领域应用的巨大潜力，例如法律领域。然而，最近关于 GPT 4 法律评估的争议引发了对其在现实世界法律任务中表现的质疑。为了系统地调查他们的法律能力，我们设计了基于法学硕士的实用基线解决方案，并在法律判决预测任务上进行了测试。在我们的解决方案中，法学硕士可以单独回答开放性问题，也可以与信息检索 IR 系统配合，从类似案例中学习或解决简化的多项选择题。我们表明，提示中包含的类似案例和多项选择选项（即标签候选）可以帮助法学硕士回忆对专业法律推理至关重要的领域知识。我们还提出了一个有趣的悖论，其中 IR 系统超越了 LLM IR 的性能，因为较弱的 LLM 从强大的 IR 系统中获得的收益有限。在这种情况下，法学硕士的作用就变得多余了。我们的评估流程可以轻松扩展到其他任务，以促进其他领域的评估。

Quantify Health-Related Atomic Knowledge in Chinese Medical Large Language Models: A Computational Analysis
Authors Yaxin Fan, Feng Jiang, Peifeng Li, Haizhou Li
大型语言模型法学硕士有潜力通过提供直接有效的建议来彻底改变用户通过搜索引擎进行自我诊断的方式。最近的研究主要集中在GPT 4评估的LLM质量或通过医学考试的能力上，没有研究量化LLM记忆中存储的健康相关原子知识的程度，这是LLM提供更事实性建议的基础。在本文中，我们首先构建了一个基准，包括用户自诊断查询中最常见的原子知识类型，共有17种原子类型，总共14, 048条原子知识。然后，我们在基准上评估了通用法学硕士和专业法学硕士。实验结果表明，通用法学硕士在原子知识和指令跟踪能力方面比专业法学硕士表现更好。错误分析表明，通用法学硕士和专业法学硕士都是阿谀奉承的，例如，在涉及未知知识时总是迎合用户的要求。此外，通用法学硕士表现出更强的安全性，专业法学硕士可以通过蒸馏数据来学习这一点。

Chain-of-Thought Tuning: Masked Language Models can also Think Step By Step in Natural Language Understanding
Authors Caoyun Fan, Jidong Tian, Yitian Li, Wenqing Chen, Hao He, Yaohui Jin
Chain of Thought CoT是一种指导大型语言模型法学硕士通过自然语言形式的中间步骤将复杂任务分解为多步骤推理的技术。简而言之，CoT 使法学硕士能够逐步思考。然而，尽管许多自然语言理解 NLU 任务也需要一步步思考，但 LLM 的表现不如小规模 Masked Language Models MLM。为了将 CoT 从 LLM 迁移到 MLM，我们提出了思想链调优 CoTT，这是一种基于即时调优的两步推理框架，用于在 NLU 任务上实现 MLM 的逐步思考。从CoT的角度来看，CoTT的两步框架使MLM能够实现任务分解。CoTT的提示调整允许以自然语言形式使用中间步骤。因此，CoT 的成功可以通过 MLM 扩展到 NLU 任务。

Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning
Authors Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Heng Huang, Jiuxiang Gu, Tianyi Zhou
大型语言模型法学硕士的最新进展扩大了自然语言理解和生成的视野。值得注意的是，LLM 的输出控制和输入对齐可以通过指令调整来完善。然而，正如几项研究所强调的那样，训练集中的低质量数据通常不利于指令调整，导致 LLM 输出不一致甚至误导。我们提出了一种称为反射调整的新方法，它通过法学硕士的自我改进和判断能力来解决这个问题。该方法利用 oracle LLM 通过内省和提高数据中指令和响应的质量来回收原始训练数据。

Enhancing Low-resource Fine-grained Named Entity Recognition by Leveraging Coarse-grained Datasets
Authors Su Ah Lee, Seokjin Oh, Woohwan Jung
命名实体识别 NER 经常遇到标记数据不足的问题，特别是在细粒度的 NER 场景中。尽管可以应用 K shot 学习技术，但当注释数量超过数十个标签时，其性能往往会饱和。为了克服这个问题，我们利用现有的提供大量注释的粗粒度数据集。解决这个问题的一个直接方法是预微调，它使用粗粒度数据进行表示学习。然而，它不能直接利用细粒度实体和粗粒度实体之间的关系，尽管细粒度实体类型可能是粗粒度实体类型的子类别。我们提出了一个细粒度的 NER 模型，具有细到粗的 F2C 映射矩阵，以显式地利用层次结构。此外，我们提出了一种不一致过滤方法来消除与细粒度实体类型不一致的粗粒度实体，以避免性能下降。

Learning Co-Speech Gesture for Multimodal Aphasia Type Detection
Authors Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim, Jinyoung Han
失语症是一种由脑损伤引起的语言障碍，需要准确识别特定的失语症类型，例如布罗卡斯失语症和韦尼克失语症，才能进行有效的治疗。然而，很少有人关注开发检测不同类型失语症的方法。认识到分析语音手势对于区分失语症类型的重要性，我们提出了一种使用语音和相应手势模式检测失语症类型的多模态图神经网络。通过学习每种失语症类型的语音和手势模式之间的相关性，我们的模型可以生成对手势信息敏感的文本表示，从而实现准确的失语症类型检测。大量的实验证明了我们的方法相对于现有方法的优越性，实现了最先进的结果 F1 84.2 。我们还表明手势特征优于声学特征，突出了手势表达在检测失语症类型中的重要性。

MISAR: A Multimodal Instructional System with Augmented Reality
Authors Jing Bi, Nguyen Manh Nguyen, Ali Vosoughi, Chenliang Xu
增强现实 AR 需要视觉、听觉和语言通道的无缝集成，以优化人机交互。虽然听觉和视觉输入有助于实时和上下文用户指导，但大型语言模型法学硕士在这一领域的潜力在很大程度上尚未开发。我们的研究介绍了一种利用法学硕士吸收来自视觉、听觉和情境模式的信息的创新方法。专注于 AR 中任务绩效量化的独特挑战，我们利用以自我为中心的视频、语音和上下文分析。 LLM 的集成有助于增强状态估计，标志着向更具适应性的 AR 系统迈出了一步。

Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
Authors Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan O Arik, Tomas Pfister, Somesh Jha
大型语言模型法学硕士最近在各种任务（包括自然语言理解和生成）方面取得了巨大进步。然而，由于可能出现错误，它们在高风险决策场景中的使用仍然受到限制。选择性预测是一种可用于提高法学硕士可靠性的技术，允许法学硕士在不确定答案时放弃做出预测。在这项工作中，我们提出了一种新颖的自我评估适应框架，以提高法学硕士的选择性预测性能。我们的框架基于使用参数有效调整的思想，使法学硕士适应手头的特定任务，同时提高其执行自我评估的能力。我们在各种问答 QA 数据集上评估我们的方法，并表明它优于最先进的选择性预测方法。

Superiority of Softmax: Unveiling the Performance Edge Over Linear Attention
Authors Yichuan Deng, Zhao Song, Tianyi Zhou
大型 Transformer 模型在众多自然语言处理任务中取得了最先进的结果。

Descriptive Knowledge Graph in Biomedical Domain
Authors Kerui Zhu, Jie Huang, Kevin Chen Chuan Chang
我们提出了一种新颖的系统，可以从生物医学语料库中自动提取并生成信息性和描述性句子，并促进对关系知识的有效搜索。与以前检索未连接段落的搜索引擎或探索系统不同，我们的系统将描述性句子组织为关系图，使研究人员能够探索密切相关的生物医学实体，例如由化学物质治疗的疾病或间接连接的实体，例如治疗疾病的潜在药物。我们的系统还使用 ChatGPT 和微调的关系综合模型，从检索到的信息生成简洁可靠的描述性句子，减少大量人类阅读工作的需要。通过我们的系统，研究人员可以轻松获得高级知识和详细参考资料，并以交互方式引导到感兴趣的信息。

Open-ended Commonsense Reasoning with Unrestricted Answer Scope
Authors Chen Ling, Xuchao Zhang, Xujiang Zhao, Yanchi Liu, Wei Cheng, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao
开放式常识推理被定义为在不提供 1 候选答案的简短列表和 2 预定义答案范围的情况下解决常识问题。由于固有的挑战，将常识问题表述为问答形式或利用外部知识来学习基于检索的方法的传统方法不太适用于开放式环境。在没有预先定义答案范围或几个候选者的情况下，开放式常识推理需要通过在极大的搜索空间中搜索来预测答案。此外，大多数问题都需要隐式多跳推理，这给我们的问题带来了更多挑战。在这项工作中，我们利用预先训练的语言模型来迭代检索外部知识库上的推理路径，这不需要特定于任务的监督。推理路径可以帮助确定常识问题的最精确答案。我们在两个常识性基准数据集上进行了实验。

MixEdit: Revisiting Data Augmentation and Beyond for Grammatical Error Correction
Authors Jingheng Ye, Yinghui Li, Yangning Li, Hai Tao Zheng
事实证明，通过生成伪数据进行数据增强可以有效缓解语法错误纠正 GEC 领域数据稀缺的挑战。各种增强策略已被广泛探索，其中大多数都是受两种启发式启发，即增加伪数据的分布相似性和多样性。然而，人们对这些策略有效性的基本机制仍然知之甚少。在本文中，我们旨在阐明数据增强如何改进 GEC 模型。为此，我们引入了两个可解释且计算高效的度量亲和力和多样性。我们的研究结果表明，具有高亲和力和适当多样性的优秀 GEC 数据增强策略可以更好地提高 GEC 模型的性能。基于这一观察，我们提出了 MixEdit，这是一种数据增强方法，可以战略性地、动态地增强现实数据，而不需要额外的单语语料库。为了验证我们研究结果的正确性和所提出的 MixEdit 的有效性，我们在主流英文和中文 GEC 数据集上进行了实验。

Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning
Authors Hao Zhao, Jie Fu, Zhaofeng He
参数高效微调 PEFT 已显示出其在仅更新少量参数的情况下使预训练语言模型适应下游任务的有效性。尽管取得了成功，但大多数现有方法独立地适应每个任务，而不考虑任务之间的知识转移，并且仅限于低数据范围。为了克服这个问题，我们提出了基于原型的 HyperAdapter PHA，这是一种基于适配器调整和超网络构建的新颖框架。它引入了实例密集检索器和原型超网络，以样本有效的方式生成条件模块。与现有 PEFT 方法相比，这在多任务学习和少量镜头迁移学习方面实现了可比的性能改进。更重要的是，当可用数据量变小时，我们的方法大幅优于其他强基线。

Field-testing items using artificial intelligence: Natural language processing with transformers
Authors Hotaka Maeda
RoBERTa 模型是一种能够理解文本语言的人工智能转换器，它有 5000 个变体，完成了包含 29 道多项选择题的英语读写考试。

Zero-shot Faithfulness Evaluation for Text Summarization with Foundation Language Model
Authors Qi Jia, Siyu Ren, Yizhu Liu, Kenny Q. Zhu
尽管自然语言生成取得了巨大进步，但摘要模型仍然存在不忠实问题。之前的工作要么使用在其他任务或领域合成数据中训练的模型来评估忠实度，要么提示大型模型（例如 ChatGPT）。本文提出简单地使用中等大小的基础语言模型来进行零样本忠实度评估。我们引入了一种新的度量FFLM，它是基于直觉的概率变化的组合，即为与输出一致的文本添加前缀会增加预测输出的概率。实验表明，FFLM 在不一致检测和忠实度评级方面的表现与 ChatGPT 相当，甚至优于 ChatGPT，参数减少了 24 倍。

Systematic Assessment of Factual Knowledge in Large Language Models
Authors Linhao Luo, Thuy Trang Vu, Dinh Phung, Gholamreza Haffari
之前的研究依赖于现有的问答基准来评估大型语言模型法学硕士中存储的知识。然而，这种方法在事实知识覆盖方面存在局限性，因为它主要关注可能与预训练数据重叠的通用领域。本文提出了一个利用知识图谱知识图谱系统地评估法学硕士事实知识的框架。我们的框架根据给定知识图谱中存储的事实自动生成一组问题和预期答案，然后评估法学硕士回答这些问题的准确性。我们系统地评估通用和特定领域中最先进的法学硕士和知识图谱。实验表明，ChatGPT 在所有领域中始终表现最佳。

MAGNIFICo: Evaluating the In-Context Learning Ability of Large Language Models to Generalize to Novel Interpretations
Authors Arkil Patel, Satwik Bhattamishra, Siva Reddy, Dzmitry Bahdanau
人类拥有对语言表达进行新颖解释的非凡能力，使他们能够学习新单词并理解社区特定的含义。然而，大型语言模型法学硕士存在知识截止点，并且反复微调的成本很高。因此，对于法学硕士来说，在上下文中学习新颖的解释至关重要。在本文中，我们系统地分析了法学硕士在情境学习中获得新颖解释的能力。为了方便我们的研究，我们引入了 MAGNIFICo，这是一个在文本到 SQL 语义解析框架中实现的评估套件，它结合了不同的标记和提示设置来模拟现实世界的复杂性。 MAGNIFICo 上的实验结果表明，法学硕士在从自然语言描述以及长时间对话中的讨论中理解新颖的解释方面表现出惊人的强大能力。尽管如此，我们的研究结果也强调了进一步改进的必要性，特别是在解释不熟悉的单词时或在同一示例中同时组成多个新颖的解释时。

Learn Your Tokens: Word-Pooled Tokenization for Language Modeling
Authors Avijit Thawani, Saurabh Ghanekar, Xiaoyuan Zhu, Jay Pujara
语言模型通常使用确定性的、手工设计的启发式方法将文本标记为子词，将字符组合成更长的表面级字符串，例如 ing 或整个单词。最近的文献一再表明这种标记化策略的局限性，特别是对于非英语编写的文档和表示数字的文档。在另一个极端，字节字符级语言模型受到的限制要少得多，但会受到序列描述长度增加以及自注意力计算中随后的二次扩展的影响。最近尝试使用固定大小的卷积来压缩和限制这些上下文长度是有帮助的，但完全忽略了单词边界。本文考虑了另一种学习标记方案，该方案利用单词边界将字节字符池化为单词表示，然后将其馈送到主要语言模型，然后再次并行解码每个单词的单个字符字节。我们发现，与跨数据集的下一个单词预测的内在语言建模指标相比，我们的中等表达力和中等快速的端到端分词器的性能优于 300 多个子词和字节字符模型。

Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach
Authors David Ili
这项研究揭示了语言模型中的一般智力（g）因素，扩展了传统上应用于人类和某些动物物种的心理测量理论。利用对两个广泛数据集的因子分析（包含 1,232 个模型的 Open LLM Leaderboard 和包含 88 个模型的通用语言理解评估 GLUE Leaderboard），我们发现了令人信服的证据，证明单维、高度稳定的 g 因子可以解释模型性能的 85 个方差。研究还发现模型大小和 g 之间存在 0.48 的中等相关性。 g 在语言模型中的发现为模型评估提供了统一的度量，并为更稳健的、基于 g 的模型能力评估开辟了新途径。

Automated Evaluation of Personalized Text Generation using Large Language Models
Authors Yaqing Wang, Jiepu Jiang, Mingyang Zhang, Cheng Li, Yi Liang, Qiaozhu Mei, Michael Bendersky
个性化文本生成提供了一种专门的机制，用于提供特定于用户个人上下文的内容。尽管该领域的研究进展很快，但评估仍然面临挑战。 BLEU 和 ROUGE 等传统自动化指标主要衡量与人类书面参考文献的词汇相似度，无法将个性化与其他微妙的语义方面区分开来，因此无法捕捉个性化生成内容质量的细微差别。另一方面，获得人类判断的成本很高，尤其是在个性化评估领域。受到这些挑战的启发，我们探索使用大型语言模型法学硕士来评估个性化文本生成，并检查他们理解细致入微的用户上下文的能力。我们提出了 AuPEL，一种新颖的评估方法，它提取了生成的文本个性化、质量和相关性的三个主要语义方面，并自动测量这些方面。为了验证 AuPEL 的有效性，我们设计了精心控制的实验，并将法学硕士做出的评估判断的准确性与人类注释者做出的判断的准确性进行比较，并对所提出的指标的一致性和敏感性进行严格分析。我们发现，与现有的评估指标相比，AuPEL 不仅可以更准确地根据模型的个性化能力对模型进行区分和排名，而且在该任务中表现出值得称赞的一致性和效率。

Eliciting Human Preferences with Language Models
Authors Belinda Z. Li, Alex Tamkin, Noah Goodman, Jacob Andreas
可以通过使用标记示例或自然语言提示来指导语言模型 LM 执行目标任务。但是，选择示例或编写提示可能具有挑战性，尤其是在涉及异常边缘情况、需要精确表达模糊偏好或需要准确的 LM 行为心理模型的任务中。我们建议使用 LM 本身来指导任务规范过程。在本文中，我们介绍了生成主动任务诱导 GATE，这是一个学习框架，其中模型通过与用户进行自由形式、基于语言的交互来诱导和推断预期行为。我们在电子邮件验证、内容推荐和道德推理三个领域研究 GATE。在预先注册的实验中，我们表明 LM 提示执行 GATE，例如，通过生成开放式问题或综合信息丰富的边缘案例来引发响应，这些响应通常比用户编写的提示或标签提供更多信息。用户报告说，交互式任务启发比提示或示例标记需要更少的努力，并且会呈现用户最初没有预料到的新颖考虑因素。

BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment in Central Philippine Languages
Authors Joseph Marvin Imperial, Ekaterina Kochmar
目前自动可读性评估 ARA 的研究重点是提高英语等高资源语言模型的性能。在这项工作中，我们引入并发布了 BasahaCorpus，作为旨在扩展菲律宾资源较低语言的可读性评估可用语料库和基线模型的计划的一部分。我们编制了一个用 Hiligaynon、Minasbate、Karay a 和 Rinconada 语言（属于菲律宾中部家谱子组）编写的短篇小说叙述语料库，以使用表面级别、音节模式和 n gram 重叠特征来训练 ARA 模型。我们还提出了一种新的分层跨语言建模方法，该方法利用语言在族谱中的位置来增加可用训练数据的数量。

What is a good question? Task-oriented asking with fact-level masking
Authors Matthew Toles, Yukun Huang, Zhou Yu, Luis Gravano
提出问题是现实生活中推理任务（例如回答问题）协作的一个重要元素。例如，如果没有有关用户情况的具体信息，法律助理聊天机器人可能无法做出准确的建议。然而，大型语言模型通常被部署来直接解决推理任务，而不向用户或第三方询问后续问题。我们将此问题称为面向任务的询问 TOA。零镜头聊天模型可以执行 TOA，但它们的训练主要基于下一个令牌预测，而不是问题是否有助于成功协作。为了能够训练和评估 TOA 模型，我们提出了面向自然语言任务的提问的定义和框架，即生成对推理任务有用的答案的问题。我们还提出了事实级别屏蔽 FLM，这是一种通过省略特定关键事实将自然语言数据集转换为自监督 TOA 数据集的过程。最后，我们使用 FLM 从 HotpotQA 数据集生成 TOA 数据集，并在其上评估几个零样本语言模型。我们的实验表明，与人类注释者相比，当前的零样本模型很难提出检索有用信息的问题。

Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging
Authors Joel Jang, Seungone Kim, Bill Yuchen Lin, Yizhong Wang, Jack Hessel, Luke Zettlemoyer, Hannaneh Hajishirzi, Yejin Choi, Prithviraj Ammanabrolu
虽然基于人类反馈的强化学习 RLHF 使大型语言模型法学硕士与一般的、总体的人类偏好保持一致，但它对于学习多样化的个人观点来说并不是最佳选择。在这项工作中，我们研究了个性化人类反馈 RLPHF 问题的强化学习，其中法学硕士通过将对齐建模为多目标强化学习 MORL 问题来与多个有时相互冲突的偏好对齐。与强大的单一目标基线相比，我们表明我们可以通过将偏好分解为多个维度来实现个性化调整。这些尺寸是根据用户声称需要的个性化来定义的。在这项工作中，我们表明它们可以以分布式方式进行有效的独立训练，并通过参数合并进行有效的事后组合。

MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and Phonetic Domains for Speech Representation Learning
Authors No Tits
在本文中，我们提出了一种语言特征提取方法，特别关注自动音节化多种语言的单词，其设计与强制对齐工具蒙特利尔强制对齐器 MFA 兼容。在文本和语音领域，我们的方法侧重于从文本、重音标记中提取语音转录，以及文本和语音领域中的统一自动音节划分。该系统是使用开源组件和资源构建的。通过消融研究，我们证明了我们的方法在自动对英语、法语和西班牙语等多种语言的单词进行音节化方面的有效性。

Multi-stage Large Language Model Correction for Speech Recognition
Authors Jie Pu, Thai Son Nguyen, Sebastian St ker
在本文中，我们研究了大型语言模型法学硕士的使用，以提高竞争性语音识别系统的性能。与专注于单一数据领域的传统语言模型不同，法学硕士的兴起为我们带来了突破最先进的 ASR 性能极限的机会，同时实现更高的鲁棒性和跨多个领域的有效泛化。受此启发，我们提出了一种新颖的多阶段方法，将传统语言模型重新评分和 LLM 提示相结合。具体来说，所提出的方法有两个阶段：第一阶段使用语言模型对 N 个最佳 ASR 假设列表进行重新评分并运行置信度检查第二阶段使用 LLM 提示对第一阶段不太置信度的结果执行 ASR 纠错阶段。

Automatic News Summerization
Authors Kavach Dheer, Arpit Dhankhar
自然语言处理在现实世界中的应用正在蓬勃发展，其中之一是包括新闻文章在内的大型文本的文本摘要。本研究论文对新闻文本摘要的提取和抽象方法进行了广泛的比较评估，重点是 ROUGE 评分分析。该研究采用了 CNN Daily Mail 数据集，其中包含新闻文章和人工生成的参考摘要。该评估采用 ROUGE 分数来评估生成的摘要的有效性和质量。

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
Authors Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
尽管大型语言模型法学硕士拥有卓越的能力，但由于它们仅依赖于所封装的参数知识，因此它们经常会产生包含事实不准确的响应。检索增强生成 RAG 是一种通过检索相关知识来增强 LM 的临时方法，可以减少此类问题。然而，不加区别地检索和合并固定数量的检索到的段落，无论检索是否必要，或者段落是否相关，都会降低 LM 的多功能性或可能导致生成无用的响应。我们引入了一个名为“自我反思检索增强生成自我 RAG”的新框架，它通过检索和自我反思来增强 LM 的质量和事实性。我们的框架训练一个任意的 LM，该 LM 可以根据需要自适应地检索段落，并使用特殊标记（称为反射标记）生成并反映检索到的段落及其自己的生成。生成反射令牌使 LM 在推理阶段可控，使其能够根据不同的任务要求调整其行为。实验表明，Self RAG 7B 和 13B 参数在各种任务上显着优于最先进的 LLM 和检索增强模型。

CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations
Authors Myra Cheng, Tiziano Piccardi, Diyi Yang
最近的工作旨在通过使用法学硕士来模拟社会科学实验和民意调查等环境中特定人口统计数据的反应，从而捕捉人类行为的细微差别。然而，目前还没有既定的方法来讨论或评估此类法学硕士模拟的质量。此外，人们越来越担心这些法学硕士模拟是他们旨在模拟的人物角色的扁平化漫画，未能捕捉到人的多维性并延续刻板印象。为了弥补这些差距，我们提出了 CoMPosT，这是一个使用上下文、模型、角色和主题四个维度来描述 LLM 模拟特征的框架。我们使用这个框架来衡量开放式法学硕士模拟对漫画的敏感性，通过个性化和夸张两个标准来定义。我们评估了现有法学硕士模拟工作中场景的讽刺程度。

Simple Mechanisms for Representing, Indexing and Manipulating Concepts
Authors Yuanzhi Li, Raghu Meka, Rina Panigrahy, Kulin Shah
深度网络通常通过分类器学习概念，这涉及建立模型并通过梯度下降对其进行训练以适应概念标记数据。相反，我们认为学习一个概念可以通过查看其矩统计矩阵来生成该概念的具体表示或签名来完成。这些签名可用于发现概念集的结构，并且可以通过从这些签名中学习该结构来递归地生成更高级别的概念。当概念相交时，概念的签名可用于在多个相关的相交概念中查找共同主题。

DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
Authors Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal
文本到图像 T2I 一代在过去几年中出现了显着增长。尽管如此，使用 T2I 模型生成图表的工作却很少。图表是一种符号示意表示，它使用结构丰富且空间复杂的可视化来解释信息，例如相关对象、文本标签、方向箭头、连接线等的密集组合。现有最先进的 T2I 模型在图表生成时经常失败，因为当许多对象通过复杂关系（例如箭头线）密集连接时，它们缺乏细粒度的对象布局控制，并且通常无法呈现可理解的文本标签。为了解决这一差距，我们提出了 DiagrammerGPT，这是一种新颖的两阶段文本到图表生成框架，它利用 LLM 的布局指导功能（例如 GPT 4）来生成更准确的开放域、开放平台图表。在第一阶段，我们使用 LLM 在规划者审核员反馈循环中生成并迭代完善图表计划，该循环描述所有实体对象和文本标签、它们的关系箭头或线条以及它们的边界框布局。在第二阶段，我们使用图表生成器DiagramGLIGEN和文本标签渲染模块来按照图表计划生成图表。为了对文本到图表生成任务进行基准测试，我们引入了 AI2D Caption，这是一个构建在 AI2D 数据集之上的密集注释图表数据集。我们定量和定性地表明，我们的DiagrammerGPT 框架可以生成更准确的图表，优于现有的T2I 模型。我们还提供全面的分析，包括开放域图生成、不同平台中的矢量图形图生成、人在环图计划编辑以及多模式规划审核员法学硕士（例如 GPT 4Vision）。

SHARCS: Efficient Transformers through Routing with Dynamic Width Sub-networks
Authors Mohammadreza Salehi, Sachin Mehta, Aditya Kusupati, Ali Farhadi, Hannaneh Hajishirzi
我们引入 SHARCS 进行自适应推理，考虑输入样本的难度。 SARCS 可以在任何变压器网络上训练路由器，使模型能够将不同的样本引导到不同宽度的子网络。我们的实验表明，1 SHARCS 在准确性与 FLOP 方面优于或补充了跨各种分类任务的现有每样本自适应推理方法 2 SHARCS 可以跨不同架构进行推广，甚至可以应用于压缩且高效的 Transformer 编码器，以进一步提高其效率 3 SHARCS

On the Benefit of Generative Foundation Models for Human Activity Recognition
Authors Zikang Leng, Hyeokhyen Kwon, Thomas Pl tz
在人类活动识别 HAR 中，注释数据的有限可用性提出了重大挑战。受到生成式人工智能最新进展（包括大型语言模型法学硕士和运动合成模型）的启发，我们相信生成式人工智能可以通过从文本描述自主生成虚拟 IMU 数据来解决这种数据稀缺问题。除此之外，我们还重点关注了几个可以从社区生成人工智能中受益的有前途的研究途径，包括生成基准数据集、开发特定于 HAR 的基础模型、探索 HAR 中的层次结构、分解复杂的活动以及在

LoHoRavens: A Long-Horizon Language-Conditioned Benchmark for Robotic Tabletop Manipulation
Authors Shengqiang Zhang, Philipp Wicke, L tfi Kerem enel, Luis Figueredo, Abdeldjallil Naceri, Sami Haddadin, Barbara Plank, Hinrich Sch tze
具身代理和大型语言模型法学硕士的融合为具身指令遵循带来了重大进步。特别是，法学硕士强大的推理能力使机器人能够执行长期任务，而无需昂贵的注释演示。然而，用于测试语言条件机器人在各种场景下的长视野推理能力的公共基准仍然缺失。为了填补这一空白，这项工作重点关注桌面操作任务，并发布了一个模拟基准，textit LoHoRavens，它涵盖了跨越颜色、大小、空间、算术和参考等各种长视域推理方面。此外，对于法学硕士的长视野操作任务，存在一个关键的模态桥接问题，即如何将机器人执行期间的观察反馈纳入法学硕士的闭环规划，但之前的工作对此研究较少。我们研究了两种桥接模态间隙字幕生成和可学习接口的方法，分别将显式和隐式观察反馈纳入法学硕士。这些方法作为我们提出的基准的两个基线。实验表明，这两种方法都难以解决某些任务，这表明长范围操作任务对于当前流行的模型来说仍然具有挑战性。

Sociotechnical Safety Evaluation of Generative AI Systems
Authors Laura Weidinger, Maribeth Rauh, Nahema Marchal, Arianna Manzini, Lisa Anne Hendricks, Juan Mateos Garcia, Stevie Bergman, Jackie Kay, Conor Griffin, Ben Bariach, Iason Gabriel, Verena Rieser, William Isaac
生成式人工智能系统会产生一系列风险。为了确保生成人工智能系统的安全，必须评估这些风险。在本文中，我们为建立此类评估做出了两个主要贡献。首先，我们提出了一个三层框架，采用结构化的社会技术方法来评估这些风险。该框架包含能力评估，这是当前安全评估的主要方法。然后，它进一步建立在系统安全原则的基础上，特别是上下文决定给定功能是否可能造成伤害的洞察力。为了考虑相关背景，我们的框架添加了人类互动和系统影响作为额外的评估层。其次，我们调查了生成式人工智能系统安全评估的现状，并创建了现有评估的存储库。该分析中出现了三个显着的评价差距。我们提出了缩小这些差距的方法，概述了实际步骤以及不同参与者的角色和责任。

From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers
Authors Shaoxiong Duan, Yining Shi
自推出以来，Transformer 模型在各种任务中都表现出了出色的性能。然而，关于长度泛化仍然存在未解决的问题，特别是在算法任务中。在本文中，我们研究了 Transformer 模型在学习算术算法（例如加法和乘法）方面的固有能力。通过实验和注意力分析，我们确定了实现最佳长度泛化的许多关键因素。我们证明，在有针对性的注意力偏差的帮助下，变压器模型能够泛化到较长的长度。然后，我们引入注意力偏差校准 ABC，这是一个校准阶段，使模型能够自动学习适当的注意力偏差，我们将其与相对位置编码中的机制联系起来。

From Neural Activations to Concepts: A Survey on Explaining Concepts in Neural Networks
Authors Jae Hee Lee, Sergio Lanza, Stefan Wermter
在本文中，我们回顾了解释神经网络概念的最新方法。一旦识别出神经学习系统使用的概念，概念就可以充当学习和推理之间的自然联系，人们可以将这些概念与推理系统集成以进行推理，或者使用推理系统对其采取行动以改进或增强学习系统。另一方面，知识不仅可以从神经网络中提取，概念知识也可以插入到神经网络架构中。

Language Agents for Detecting Implicit Stereotypes in Text-to-image Models at Scale
Authors Qichao Wang, Tian Bian, Yian Yin, Tingyang Xu, Hong Cheng, Helen M. Meng, Zibin Zheng, Liang Chen, Bingzhe Wu
最近扩散模型研究的激增加速了文本到图像模型在各种人工智能生成内容 AIGC 商业产品中的采用。虽然这些卓越的 AIGC 产品越来越受到消费者的认可并激发了消费者的热情，但有关这些模型是否、何时以及如何无意中强化现有社会刻板印象的问题在很大程度上仍未得到解决。受语言代理最新进展的推动，我们在这里介绍一种专为文本到图像模型中的刻板印象检测而定制的新颖代理架构。这种多功能代理架构能够适应自由形式的检测任务，并且可以自主调用各种工具来促进整个过程，从生成相应的指令和图像到检测刻板印象。我们基于多个开放文本数据集构建了刻板印象相关基准，并将该架构应用于商业产品和流行的开源文本到图像模型。我们发现，当涉及到有关个人特征、社会文化背景和犯罪相关方面的某些提示时，这些模型常常表现出严重的刻板印象。总之，这些实证研究结果强调了跨社会维度（包括性别、种族和宗教）普遍存在的刻板印象，这不仅验证了我们提出的方法的有效性，而且强调了解决新兴领域中潜在道德风险的迫切必要性AIGC 的。

Bias in Emotion Recognition with ChatGPT
Authors Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
该技术报告探讨了 ChatGPT 从文本中识别情感的能力，这可以成为交互式聊天机器人、数据注释和心理健康分析等各种应用的基础。虽然之前的研究已经显示了 ChatGPT 在情感分析方面的基本能力，但其在更细致的情感识别方面的表现尚未得到探索。在这里，我们进行了实验来评估其在不同数据集和情感标签上的情感识别性能。我们的研究结果表明其性能具有合理的可重复性，并且通过微调有显着的改进。然而，性能随着不同的情感标签和数据集而变化，突出了固有的不稳定性和可能的偏差。数据集和情感标签的选择显着影响 ChatGPT 的情感识别性能。

Investigating Uncertainty Calibration of Aligned Language Models under the Multiple-Choice Setting
Authors Guande He, Peng Cui, Jianfei Chen, Wenbo Hu, Jun Zhu
尽管对齐语言模型 LM 的实际应用取得了重大进展，但与相应的预训练 LM 相比，它们往往对输出答案过于自信。在这项工作中，我们系统地评估了多重选择设置下对齐过程对基于 Logit 的 LM 不确定性校准的影响。我们首先进行了一项深思熟虑的实证研究，研究对齐的 LM 在校准方面与预先训练的对应模型有何不同。实验结果表明，在多项选择设置下，语言模型存在两种不同的不确定性，分别影响语言模型的答案决策和格式偏好。然后，我们通过简单的合成对齐方案中的微调来研究这两种不确定性对对齐 LM 校准的作用，并得出结论，对齐 LM 过度自信的原因之一是这两种类型的不确定性的合并。此外，我们研究了对齐 LM 的常见事后校准方法的实用性，并提出了一种易于实施和采样有效的方法来校准对齐 LM。

SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents
Authors Xuhui Zhou, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis Philippe Morency, Yonatan Bisk, Daniel Fried, Graham Neubig, Maarten Sap
人类是社会动物，我们在日常互动中追求社会目标，这是社会智力的一个重要方面。然而，人工智能系统在这一领域的能力仍然难以捉摸。我们提出 SOTOPIA，一个开放式环境，用于模拟人工智能体之间复杂的社交互动并评估他们的社交智能。在我们的环境中，智能体在各种场景下进行角色扮演和交互，他们相互协调、协作、交换和竞争，以实现复杂的社会目标。我们在这个任务空间内模拟基于 LLM 的代理和人类之间的角色扮演交互，并使用名为 SOTOPIA Eval 的整体评估框架评估他们的表现。通过 SOTOPIA，我们发现这些模型在社交智能方面存在显着差异，并且我们确定了 SOTOPIA 场景的一个子集，SOTOPIA 困难，这通常对所有模型都具有挑战性。我们发现，在这个子集上，GPT 4 的目标完成率明显低于人类，并且难以展现社会常识推理和战略沟通技巧。

Language Models as Zero-Shot Trajectory Generators
Authors Teyun Kwon 1 , Norman Di Palo 1 , Edward Johns 1 1 Imperial College London
大型语言模型法学硕士最近在获得一系列低水平技能时显示出作为机器人高级规划者的希望。然而，人们通常认为法学硕士不具备足够的知识来用于低水平轨迹本身。在这项工作中，我们彻底解决了这个假设，并研究了当仅访问对象检测和分割视觉模型时，LLM GPT 4 是否可以直接预测操作技能的末端执行器姿势的密集序列。我们研究了一个与任务无关的提示，在没有任何上下文示例、运动基元或外部轨迹优化器的情况下，可以在 26 种基于现实世界语言的任务中执行得如何，例如打开瓶盖和用海绵擦拭盘子，并且我们调查该提示中的哪些设计选择是最有效的。我们的结论提出了机器人学法学硕士的假设限制，并且我们首次揭示法学硕士确实拥有足以完成一系列常见任务的低水平机器人控制的理解，并且他们还可以检测故障，然后重新规划轨迹因此。

Group Preference Optimization: Few-Shot Alignment of Large Language Models
Authors Siyan Zhao, John Dang, Aditya Grover
大型语言模型法学硕士的许多应用，从聊天机器人到创意写作，都需要细致入微的主观判断，而这些判断在不同群体之间可能存在显着差异。现有的对齐算法对于每个组的对齐成本可能很高，需要大量的组特定偏好数据和现实世界用例的计算。我们引入了群体偏好优化 GPO，这是一种对齐框架，可以通过少量的方式将语言模型引导到各个群体的偏好。在 GPO 中，我们用一个独立的变压器模块来增强基础 LLM，该模块经过训练可以预测 LLM 世代的群体偏好。对于少数镜头学习，我们将该模块参数化为上下文自回归变压器，并通过多个组的元学习对其进行训练。我们通过使用不同规模的法学硕士对三项人类意见适应任务进行严格评估，实证验证了 GPO 的有效性。这些任务涉及适应美国人口群体、全球国家和个人用户的偏好。

BaitBuster-Bangla: A Comprehensive Dataset for Clickbait Detection in Bangla with Multi-Feature and Multi-Modal Analysis
Authors Abdullah Al Imran, Md Sakib Hossain Shovon, M. F. Mridha
本研究提出了一个大型多模态孟加拉 YouTube 点击诱饵数据集，其中包含通过使用 YouTube API 和 Python Web 自动化框架的自动化流程收集的 253,070 个数据点。该数据集包含 18 个不同的特征，分为元数据、主要内容、参与统计数据以及来自 58 个 Bangla YouTube 频道的各个视频的标签。采用严格的预处理步骤对特征进行去噪、去重和消除偏差，确保分析的公正性和可靠性。作为迄今为止孟加拉语最大、最强大的点击诱饵语料库，该数据集为寻求推进低资源语言中点击诱饵现象建模的自然语言处理和数据科学研究人员提供了重要价值。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com