【AI视野·今日NLP 自然语言处理论文速览第七十三期】Tue, 9 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 9 Jan 2024
Totally 80 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference
Authors Zirui Liu, Qingquan Song, Qiang Charles Xiao, Sathiya Keerthi Selvaraj, Rahul Mazumder, Aman Gupta, Xia Hu
预训练语言模型中的大量参数提高了它们的性能，但也使它们成为资源密集型，这使得将它们部署在单个 GPU 等商用硬件上具有挑战性。由于这些设备的内存和功率限制，通常使用模型压缩技术来减少模型的大小及其推理延迟。这通常会导致模型准确性和效率之间的权衡。因此，优化这种平衡对于在商用硬件上有效部署法学硕士至关重要。效率挑战的一个重要部分是前馈网络 FFN 组件，它大约占 frac 2 3 总参数和推理延迟。在本文中，我们首先观察到 FFN 模块中只有少数神经元对于任何输入标记（又称重击者）具有较大的输出范数，而其他神经元则由不同的标记稀疏触发。基于这一观察，我们根据重击者明确地将 FFN 分为两部分。我们通过向重量级的 FFN 部件分配更多资源来提高现有压缩方法的效率和准确性权衡。

IDoFew: Intermediate Training Using Dual-Clustering in Language Models for Few Labels Text Classification
Authors Abdullah Alsuhaibani, Hamad Zogan, Imran Razzak, Shoaib Jameel, Guandong Xu
Transformers BERT 等语言模型在各种自然语言处理 NLP 和文本挖掘任务（包括文本分类）中非常有效。然而，一些任务仍然对这些模型构成挑战，包括标签有限的文本分类。这可能会导致冷启动问题。尽管一些方法尝试通过单阶段聚类作为中间训练步骤，并结合预先训练的语言模型来解决这个问题，生成伪标签以改进分类，但由于聚类算法的限制，这些方法通常容易出错。为了克服这个问题，我们开发了一种新颖的两阶段中间聚类，并随后进行微调，可以可靠地对伪标签进行建模，从而减少预测误差。我们的模型 IDoFew 的关键新颖之处在于，两阶段聚类与两种不同的聚类算法相结合，有助于利用互补算法的优势，减少生成用于微调的可靠伪标签的错误。

TextMachina: Seamless Generation of Machine-Generated Text Datasets
Authors Areg Mikael Sarvazyan, Jos ngel Gonz lez, Marc Franco Salvador
大型语言模型 LLM 的最新进展带来了高质量的机器生成文本 MGT，催生了无数新的用例和应用程序。然而，由于滥用，获得法学硕士的便捷性也带来了新的挑战。为了解决恶意使用问题，研究人员发布了数据集，以有效地训练 MGT 相关任务的模型。使用类似的策略来编译这些数据集，但目前还没有工具将它们统一起来。在此场景中，我们引入了 TextMachina，这是一个模块化且可扩展的 Python 框架，旨在帮助创建高质量、无偏见的数据集，以便为 MGT 相关任务（例如检测、归因或边界检测）构建强大的模型。它提供了一个用户友好的管道，抽象了构建 MGT 数据集的固有复杂性，例如 LLM 集成、提示模板和偏差缓解。

SpeechAgents: Human-Communication Simulation with Multi-Modal Multi-Agent Systems
Authors Dong Zhang, Zhaowei Li, Pengyu Wang, Xin Zhang, Yaqian Zhou, Xipeng Qiu
人类交流是一个复杂多样的过程，不仅涉及语言、常识、文化背景等多种因素，而且需要语音等多模态信息的参与。基于大语言模型LLM的多智能体系统在模拟人类社会方面表现出了良好的性能。我们能否利用基于LLM的多代理系统来模拟人类交流然而，当前基于LLM的多代理系统主要依靠文本作为主要媒介。在本文中，我们提出了 SpeechAgents，这是一种基于多模式 LLM 的多代理系统，旨在模拟人类交流。 SpeechAgents 利用多模态 LLM 作为单个代理的控制中心，并采用多模态信号作为代理之间交换消息的媒介。此外，我们提出多智能体调整来增强LLM的多智能体能力，而不影响一般能力。为了加强和评估人类沟通模拟的有效性，我们建立了人类沟通模拟基准。实验结果表明，SpeechAgents可以模拟内容一致、节奏真实、情感丰富的人类交流对话，即使在多达25个代理的情况下也表现出良好的可扩展性，可应用于戏剧创作和有声小说生成等任务。代码和模型将在 https github 上开源。

A Philosophical Introduction to Language Models -- Part I: Continuity With Classic Debates
Authors Rapha l Milli re, Cameron Buckner
像 GPT 4 这样的大型语言模型已经在广泛的基于语言的任务中取得了显着的熟练程度，其中一些任务传统上与人类智能的标志相关。这引发了关于我们可以在多大程度上有意义地将任何类型的语言或认知能力归因于语言模型的持续分歧。这些问题具有深刻的哲学根源，呼应了关于人工神经网络作为认知模型的地位的长期争论。本文是两篇姊妹篇文章的第一部分，既可以作为哲学家语言模型的入门读物，也可以作为对它们与哲学认知科学、人工智能和语言学经典辩论相关的意义的固执己见的调查。我们涵盖的主题包括组合性、语言习得、语义能力、基础、世界模型和文化知识的传播。我们认为，语言模型的成功挑战了一些长期以来关于人工神经网络的假设。然而，我们也强调需要进一步的实证研究，以更好地了解其内部机制。

WEBDial, a Multi-domain, Multitask Statistical Dialogue Framework with RDF
Authors Morgan Veyret, Jean Baptiste Duchene, Kekeli Afonouvi, Quentin Brabant, Gwenole Lecorve, Lina M. Rojas Barahona
通常可用的对话框架采用了基于对话行为和槽值对的语义表示。尽管它很简单，但这种表示法具有缺乏表达性、可扩展性和可解释性等缺点。我们提出 WEBDial 是一个对话框架，该框架通过使用 RDF 三元组而不是槽值对来依赖于图形形式。我们描述了它的整体架构和基于图的语义表示。

Boldly Going Where No Benchmark Has Gone Before: Exposing Bias and Shortcomings in Code Generation Evaluation
Authors Ankit Yadav, Mayank Singh
由于使用大型语言模型法学硕士从人类描述生成代码越来越受欢迎，人们提出了几个基准来评估现有和新兴模型的能力。本研究对 HumanEval 和 MBPP 这两个广泛使用的 Python 代码生成基准进行了大规模的人类评估，重点关注它们的多样性和难度。我们的研究结果揭示了对有限数量的编程概念的显着偏见，大多数概念可以忽略不计或没有代表性。

We Need to Talk About Classification Evaluation Metrics in NLP
Authors Peter Vickers, Lo c Barrault, Emilio Monti, Nikolaos Aletras
在自然语言处理 NLP 分类任务（例如主题分类和情感分析）中，模型泛化性通常使用 Accuracy、F Measure 或 AUC ROC 等标准指标来衡量。指标的多样性及其应用的任意性表明，NLP 内部对于使用的单一最佳指标没有达成一致。这种缺乏表明没有对每个指标编码的潜在启发式进行充分的检查。为了解决这个问题，我们将几个标准分类指标与更奇特的指标进行比较，并证明随机猜测标准化信息指标是任务绩效的简约基线。为了表明指标选择的重要性，我们对各种 NLP 任务进行了广泛的实验，包括合成场景、自然语言理解、问答和机器翻译。在这些任务中，我们使用指标的超集对模型进行排名，并发现信息丰富度最能捕捉理想的模型特征。

TeleChat Technical Report
Authors Zihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song
在这份技术报告中，我们介绍了 TeleChat，这是一个参数为 30 亿、70 亿和 120 亿的大型语言模型 LLM 的集合。它包括预训练的语言模型以及符合人类偏好的微调聊天模型。 TeleChat 最初是在一个广泛的语料库上进行预训练的，该语料库包含来自英语和中文的各种文本集合，其中包括数万亿个标记。随后，按照我们描述的详细方法，对模型进行微调以符合人类偏好。我们评估 TeleChat 在各种任务上的表现，包括语言理解、数学、推理、代码生成和基于知识的问答。我们的研究结果表明，TeleChat 在各种公共基准测试中实现了与其他类似规模的开源模型相当的性能。

Anatomy of Neural Language Models
Authors Majd Saleh, St phane Paquelet
近年来，生成式人工智能和迁移学习领域取得了显着的进步，特别是在自然语言处理 NLP 领域。 Transformer 是这些进步的核心，基于 Transformer 的语言模型 LM 使最先进的技术在广泛的应用中取得了新的成果。虽然涉及神经语言模型的研究工作数量呈指数级增长，但它们绝大多数都是高水平的并且远非独立。因此，深入理解该领域的文献是一项艰巨的任务，尤其是在缺乏解释神经语言模型主要类型的统一数学框架的情况下。我们在本教程中解决了上述问题，其目标是在详细、简化且明确的数学框架中解释神经语言模型，并附有清晰的图形说明。探讨了广泛使用的模型（如 BERT 和 GPT2）的具体示例。最后，由于在诸如任务之类的语言建模上进行预训练的 Transformer 已广泛应用于计算机视觉和时间序列应用中，因此我们简要探讨了此类解决方案的一些示例，以便使读者能够了解 Transformer 在上述领域中的工作原理，并将其与原始用途进行比较

Language Models Understand Numbers, at Least Partially
Authors Fangwei Zhu, Damai Dai, Zhifang Sui
大型语言模型法学硕士在各种文本相关任务中表现出了令人印象深刻的能力。然而，它们不透明的内部机制成为在数学问题中利用它们的障碍。在本文中，我们研究了语言模型是否理解数字这一基本问题，数字是数学问题的基本元素。我们假设为了解决数学问题，语言模型应该能够理解数字并将这些数字压缩到隐藏状态。我们构建了一个包含加法问题的综合数据集，并利用线性探针从模型的隐藏状态中读出输入数字。实验结果证明了支持 LLaMA 2 模型族中早期层存在压缩数的证据。然而，压缩过程似乎并不是无损的，这给精确重建原始数字带来了困难。进一步的实验表明，语言模型可以利用编码的数字进行算术计算，并且计算能力随着模型大小的增加而增加。

The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance
Authors Abel Salinas, Fred Morstatter
大型语言模型法学硕士经常被用来标记跨多个领域和无数任务的数据。通过简单地向法学硕士询问答案或提示，从业者就可以使用法学硕士快速获得任意任务的答复。这种提示是通过从业者的一系列决定来完成的，从简单的提示措辞，到请求以某种数据格式输出，再到针对涉及更敏感主题的提示进行越狱。在这项工作中，我们询问提示构建方式的变化是否会改变法学硕士的最终决定。我们使用跨各种文本分类任务的一系列提示变化来回答这个问题。我们发现，即使是最小的干扰，例如在提示末尾添加空格，也可能导致法学硕士改变其答案。

Overview of the 2023 ICON Shared Task on Gendered Abuse Detection in Indic Languages
Authors Aatman Vaidya, Arnav Arora, Aditya Joshi, Tarunima Prabhakar
本文报告了 ICON 2023 关于印度语言性别虐待检测的调查结果。共享任务涉及检测在线文本中的性别虐待。这项共享任务是作为 ICON 2023 的一部分进行的，基于印地语、泰米尔语和印度英语方言的新颖数据集。参与者被分配了三个子任务，训练数据集包含来自 Twitter 的大约 6500 个帖子。对于测试集，提供了大约 1200 个帖子。此次共享任务共收到9人报名。

A Content-Based Novelty Measure for Scholarly Publications: A Proof of Concept
Authors Haining Wang
新颖性就像进化中的基因突变一样，为科学进步开辟了可能性。尽管同行评审是评估学术交流和资源分配新颖性的黄金标准，但大量的提交内容需要自动衡量科学新颖性。采用将新颖性视为现有知识的非典型组合的观点，我们引入了学术出版物中新颖性的信息论度量。这一衡量标准是通过代表科学话语分布的语言模型所感知到的惊讶程度来量化的。所提出的措施附有表面和结构有效性证据，前者证明了与科学常识的一致性，后者通过与选定的领域专家小组的新颖性评估相一致而得到认可。此外，该措施以其可解释性、细粒度和可访问性为特点，解决了现有方法中普遍存在的差距。

InFoBench: Evaluating Instruction Following Ability in Large Language Models
Authors Yiwei Qin, Kaiqiang Song, Yebowen Hu, Wenlin Yao, Sangwoo Cho, Xiaoyang Wang, Xuansheng Wu, Fei Liu, Pengfei Liu, Dong Yu
本文介绍了分解需求遵循率 DRFR，这是一种用于评估大型语言模型法学硕士遵循指令的能力的新指标。为了解决当前方法论中的差距，DRFR 将复杂的指令分解为更简单的标准，有助于详细分析法学硕士是否符合任务的各个方面。除了这个指标之外，我们还推出了 InFoBench，这是一个基准测试，包含 500 条不同的指令和 2,250 个跨多个约束类别的分解问题。我们的实验将 DRFR 与传统评分方法进行比较，并探索注释源，包括人类专家、众包工作人员和 GPT 4。研究结果表明 DRFR 具有更高的可靠性以及使用 GPT 4 作为成本效益注释器的有效性。使用该框架对几个高级法学硕士进行的评估揭示了他们的优势和需要改进的领域，特别是在复杂的指令遵循方面。

Text Classification Based on Knowledge Graphs and Improved Attention Mechanism
Authors Siyu Li, Lu Chen, Chenwei Song, Xinyi Liu
为了解决文本中的语义歧义，我们提出了一种模型，创新地将知识图与改进的注意力机制结合起来。利用现有的知识库通过相关的上下文概念来丰富文本。该模型在字符和单词级别上运行，通过整合概念来加深其理解。我们首先采用信息增益来选择重要词。然后使用编码器解码器框架对文本以及相关概念进行编码。局部注意力机制调整每个概念的权重，减少分类时不相关或噪声概念的影响。我们改进了局部自注意力机制中注意力分数的计算公式，确保文本中不同出现频率的单词获得更高的注意力分数。最后，该模型采用双向门控循环单元 Bi GRU，可有效从文本中提取特征，从而提高分类精度。

Building Efficient and Effective OpenQA Systems for Low-Resource Languages
Authors Emrah Budur, R za z elik, Dilara Soylu, Omar Khattab, Tunga G ng r, Christopher Potts
问答 QA 是用从给定段落中提取的自由形式自然语言答案来回答以自然语言提出的问题的任务。在OpenQA变体中，仅给出问题文本，系统必须从非结构化知识源中检索相关段落并使用它们来提供答案，这就是Web上主流QA系统的情况。由于缺乏非英语语言的大规模标记 QA 数据集，QA 系统目前大多仅限于英语。在本文中，我们展示了可以为低资源语言开发有效、低成本的 OpenQA 系统。关键要素是 1 使用机器翻译的标记数据集的弱监督和 2 目标语言中的相关非结构化知识源。此外，我们表明只需要几百个黄金评估示例就可以可靠地评估这些系统。我们将我们的方法应用于土耳其语作为一个具有挑战性的案例研究，因为英语和土耳其语在类型上非常不同。我们推出了 SQuAD TR，这是 SQuAD2.0 的机器翻译，并通过将 ColBERT QA 改编为土耳其语来构建我们的 OpenQA 系统。通过使用跨越两年的两个版本的维基百科转储，与基于 BM25 和基于 DPR 的基线 QA 阅读器模型相比，我们在 EM 分数中获得了 9 34 的性能改进，在 F1 分数中获得了 13 33 的性能改进。我们的结果表明，SQuAD TR 使 OpenQA 在土耳其语中可行，我们希望这能鼓励研究人员用其他低资源语言构建 OpenQA 系统。

Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning
Authors Yingqian Min, Kun Zhou, Dawei Gao, Wayne Xin Zhao, He Hu, Yaliang Li
近年来，多任务指令调优被应用于句子表示学习中，赋予了在任务指令指导下生成特定表示的能力，对新任务表现出很强的泛化能力。然而，这些方法大多忽略了不同任务和实例之间潜在的干扰问题，这可能会影响模型的训练和收敛。为了解决这个问题，我们提出了一种数据课程方法，即Data CUBE，它安排所有多任务数据进行训练的顺序，以最大限度地减少两个视图的干扰风险。在任务层面，我们的目标是找到最佳任务顺序以最小化总的交叉任务干扰风险，这正是旅行商问题，因此我们利用模拟退火算法来寻找其解决方案。在实例级别，我们测量每个任务的所有实例的难度，然后将它们分成容易到困难的小批量进行训练。 MTEB 句子表示评估任务的实验表明，我们的方法可以提高最先进方法的性能。

CAPTAIN at COLIEE 2023: Efficient Methods for Legal Information Retrieval and Entailment Tasks
Authors Chau Nguyen, Phuong Nguyen, Thanh Tran, Dat Nguyen, An Trieu, Tin Pham, Anh Dang, Le Minh Nguyen
COLIEE 法律信息提取竞赛每年举办一次，旨在鼓励法律文本自动处理方面的进步。由于法律语言的结构和含义错综复杂，处理法律文件具有挑战性。在本文中，我们概述了解决 COLIEE 2023 竞赛中任务 2、任务 3 和任务 4 的策略。我们的方法包括利用适当的最先进的深度学习方法、基于领域特征观察的设计方法，以及在竞赛中应用细致的工程实践和方法。

Transfer the linguistic representations from TTS to accent conversion with non-parallel data
Authors Xi Chen, Jiakun Pei, Liumeng Xue, Mingyang Zhang
口音转换旨在将源语音的口音转换为目标口音，同时保留说话者的身份。本文介绍了一种用于口音转换的新型非自回归框架，该框架学习口音不可知的语言表示并利用它们来转换源语音中的口音。具体来说，所提出的系统将语音表示与从文本到语音 TTS 系统获得的语言表示对齐，从而能够在非并行数据上训练口音语音转换模型。此外，我们研究了我们提出的框架内对本机数据和不同声学特征的预训练策略的有效性。我们使用主观和客观指标进行全面评估，以评估我们方法的性能。

RoBERTurk: Adjusting RoBERTa for Turkish
Authors Nuri Tas
我们使用 BPE 分词器在土耳其语料库上对 RoBERTa 进行预训练。我们的模型在 POS 任务的 BOUN 数据集上优于 BERTurk 系列模型，但在相同任务的 IMST 数据集上表现不佳，并且在 NER 任务的 XTREME 数据集的土耳其分割上获得有竞争力的分数，同时在较小的数据上进行预训练它的竞争对手。

ROIC-DM: Robust Text Inference and Classification via Diffusion Model
Authors Shilong Yuan, Wei Yuan, Tieke HE
尽管语言模型在文本推理和分类任务中取得了许多里程碑，但它们仍然容易受到对抗性攻击，从而导致不可预见的结果。现有的工作通过为语言模型配备防御补丁来缓解这个问题。然而，这些防御策略通常依赖于不切实际的假设或需要模型性能的重大牺牲。因此，使用这种防御机制增强目标模型的弹性是一项艰巨的挑战。本文介绍了一种基于扩散模型 ROIC DM 的稳健文本推理和分类的创新模型。受益于去噪阶段的训练，ROIC DM 本质上比传统语言模型表现出更强的鲁棒性。此外，通过有效地将语言模型合并为咨询组件，ROIC DM 可以获得与语言模型相当的、甚至在某些情况下更优越的性能。对三个数据集进行的多次强文本对抗攻击进行的大量实验表明，1 ROIC DM 在鲁棒性方面优于传统语言模型，即使后者采用先进的防御机制进行了强化。 2 ROIC DM 通过使用

Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate Format
Authors Chengyue Yu, Lei Zang, Jiaotuan Wang, Chenyi Zhuang, Jinjie Gu
经过微调的大型语言模型（例如 ChatGPT 和 Qwen chat）可以按照人类的指令生成中国古典诗歌。 LLM在内容上表现良好，但通常缺乏格式，偶尔会出现每行字符数过多或不足的情况。由于大多数SOTA LLM都是基于token的，我们假设格式不准确是由于token规划任务的难度造成的，这意味着LLM需要准确地知道每个token中包含多少个字符，并据此进行长度控制规划知识。在本文中，我们首先通过证明现有的基于标记的大型语言模型对标记字符关系的了解有限来证实我们的假设。我们使用拼字测试程序，发现Qwen chat在近15个中文拼写测试中都失败了。然后我们证明基于令牌的模型可以很容易地定制为中文的无令牌模型，这可以在很大程度上解决格式准确性问题。我们的定制过程从词汇表中删除长标记，仅保留字符级或字节级标记。作为我们贡献的一部分，我们发布了基于 Qwen chat 7B 的微调无令牌模型，该模型可以按照 LLM 的复杂指令（例如故事释义）生成中国古典诗歌，并且在格式上也表现良好。

PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction
Authors Zening Lin, Jiapeng Wang, Teng Li, Wenhui Liao, Dayi Huang, Longfei Xiong, Lianwen Jin
文档对提取旨在从视觉丰富的文档中识别键和值实体及其关系。大多数现有方法将其分为语义实体识别 SER 和关系提取 RE 两个独立的任务。然而，简单地串联SER和RE会导致严重的错误传播，并且无法处理实际场景中的多行实体等情况。为了解决这些问题，本文引入了一种新颖的框架，PEneo Pair Extraction 新的解码器选项，它在统一的管道中执行文档对提取，结合了三个并发子任务行提取、行分组和实体链接。这种方法缓解了错误累积问题，并且可以处理多行实体的情况。此外，为了更好地评估模型的性能并促进未来对提取的研究，我们引入了 RFUND，这是常用 FUNSD 和 XFUND 数据集的重新注释版本，以使它们更加准确并覆盖现实情况。各种基准测试的实验证明了 PEneo 相对于之前的管道的优越性，大幅提升了性能，例如与 LiLT 和 LayoutLMv3 等各种骨干网结合使用时，RFUND EN 上的 F1 分数为 19.89 22.91，显示了其有效性和通用性。

Maintaining Journalistic Integrity in the Digital Age: A Comprehensive NLP Framework for Evaluating Online News Content
Authors Ljubisa Bojic, Nikola Prodanovic, Agariadne Dwinggo Samala
在线新闻平台的快速发展导致人们越来越需要可靠的方法来评估新闻文章的质量和可信度。本文提出了一个综合框架，使用自然语言处理 NLP 技术分析在线新闻文本，特别是为此目的专门训练的语言模型，以及其他成熟的 NLP 方法。该框架包含十项新闻标准：客观性、平衡与公平、可读性与清晰度、煽情与标题党、道德考虑、公共利益与价值、来源可信度、相关性与及时性、事实准确性、归属与透明度，以评估新闻文章的质量。通过建立这些标准，研究人员、媒体组织和读者可以更好地评估和理解他们消费和生产的内容。

Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
Authors Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou
由于上下文窗口长度有限，长上下文的利用对大型语言模型提出了巨大的挑战。尽管可以通过微调来扩展上下文窗口，但这会在训练和推理时间上带来相当大的成本，并对LLM原有的能力产生不利影响。在这项工作中，我们提出了激活信标，它将 LLM 的原始激活压缩为更紧凑的形式，以便它可以在有限的上下文窗口中感知更长的上下文。 Activation Beacon 是作为 LLM 的即插即用模块引入的。它完全保留了法学硕士在短上下文上的原始能力，同时扩展了处理较长上下文的新能力。此外，它使用短滑动窗口来处理长上下文，从而在训练和推理方面实现了有竞争力的记忆和时间效率。激活信标是通过以具有不同压缩比的信标混合为条件的自动回归任务来学习的。得益于这样的处理，它可以在短短 10K 步内仅用短序列数据进行高效训练，在单台 8xA800 GPU 机器上耗时不到 9 小时。实验研究表明，Activation Beacon 能够将 Llama 2 7B 的上下文长度从 4K 扩展到 400K，延长了 100 倍，同时在长上下文生成和理解任务上取得了优异的结果。

On Leveraging Large Language Models for Enhancing Entity Resolution
Authors Huahang Li, Longyu Feng, Shuangyin Li, Fei Hao, Chen Jason Zhang, Yuanfeng Song, Lei Chen
实体解析是识别和整合属于同一现实世界实体的记录的任务，在电子商务、医疗保健和执法等各个领域发挥着关键作用。像 GPT 4 这样的大型语言模型法学硕士的出现，利用其先进的语言能力，为这项任务引入了一个新的维度。本文探讨了法学硕士在实体解析过程中的潜力，阐明了它们的优势以及与大规模匹配相关的计算复杂性。我们介绍了有效利用 LLM 的策略，包括选择一组最佳匹配问题，即 MQsSP，这被证明是一个 NP 难题。我们的方法会以最佳方式选择最有效的匹配问题，同时将消费限制在您的预算范围内。此外，我们提出了一种在收到 LLM 响应后调整可能分区分布的方法，目的是减少实体解析的不确定性。

GRAM: Global Reasoning for Multi-Page VQA
Authors Tsachi Blau, Sharon Fogel, Roi Ronen, Alona Golts, Roy Ganz, Elad Ben Avraham, Aviad Aberdam, Shahar Tsiper, Ron Litman
基于 Transformer 的大型语言模型的使用越来越多，带来了处理长序列的挑战。在文档视觉问答DocVQA中，领先的方法集中在单页设置，而文档可以跨越数百页。我们提出了 GRAM，一种将预训练的单页模型无缝扩展到多页设置的方法，而不需要大量的计算预训练。为此，我们利用单页面编码器进行本地页面级别理解，并通过文档级别指定层和可学习标记对其进行增强，从而促进跨页面的信息流以进行全局推理。为了强制我们的模型利用新引入的文档级标记，我们提出了一种量身定制的偏差适应方法。为了在解码过程中节省额外的计算量，我们使用 C 前模型引入了可选的压缩阶段，这减少了编码序列的长度，从而允许在质量和延迟之间进行权衡。

Empirical Study of Large Language Models as Automated Essay Scoring Tools in English Composition__Taking TOEFL Independent Writing Task for Example
Authors Wei Xia, Shaoguang Mao, Chanjing Zheng
大型语言模型在涉及自然语言生成、推理和理解的任务中表现出了卓越的能力。本研究旨在根据官方托福指南中规定的不同评分标准构建提示和评论。主要目标是在自动论文评分的背景下评估 ChatGPT（大型语言模型的杰出代表）的功能和限制。自动论文评分的流行方法涉及利用深度神经网络、统计机器学习技术和微调预训练模型。然而，这些技术在应用于不同背景或主题时面临挑战，主要是由于它们需要大量数据且对小样本量的适应性有限。相比之下，本研究采用实验方法，利用 ChatGPT 对英语论文进行自动评估，即使样本量很小。实证结果表明，ChatGPT 可以提供自动论文评分的操作功能，尽管结果表现出回归效应。必须强调的是，ChatGPT 提示的有效设计和实施需要深厚的领域专业知识和技术熟练程度，因为这些提示受到特定阈值标准的约束。

Grimoire is All You Need for Enhancing Large Language Models
Authors Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang, Feiyu Xiong, Bo Tang
在上下文学习中，ICL 是通过提供一组少量问题和答案示例来增强大型语言模型在特定任务上的性能的关键方法之一。然而，由于模型架构、学习数据量和参数大小等因素，不同类型模型的 ICL 能力表现出显着差异。一般来说，模型的参数量越大，学习数据越广泛，其ICL能力越强。在本文中，我们提出了一种方法 SLEICL Strong LLM Enhanced ICL，该方法涉及使用强语言模型从示例中学习，然后总结并将这些学到的技能转移到弱语言模型中进行推理和应用。这保证了ICL的稳定性和有效性。与直接使弱语言模型从提示示例中学习相比，SLEICL降低了这些模型的ICL难度。我们的实验在多达 8 个数据集和 5 种语言模型上进行，结果表明，弱语言模型使用 SLEICL 方法对其自身的零样本或少量样本能力取得了一致的改进。

PIXAR: Auto-Regressive Language Modeling in Pixel Space
Authors Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari
最近的工作表明了构建开放词汇大语言模型 LLM 的可能性，该模型直接对像素表示进行操作，并实现为编码器解码器模型，重建渲染文本的屏蔽图像块。然而，这些基于像素的法学硕士仅限于自动编码任务，无法生成新的文本作为图像。因此，它们不能用于开放式答案或生成语言任务。在这项工作中，我们克服了这一限制并引入了 PIXAR，这是第一个基于像素的自回归法学硕士，它不依赖于输入和输出文本的预定义词汇表。 PIXAR 仅由解码器组成，可以回答自由形式的生成任务，同时保持文本表示学习性能与以前的编码器解码器模型相当。此外，我们强调了自回归生成非模糊文本作为图像的挑战，并将其与通常的最大似然目标联系起来。我们提出了一种简单的对抗性预训练，可以显着提高 PIXAR 的可读性和性能，使其在短文本生成任务上可与 GPT2 相媲美。

Enhancing Context Through Contrast
Authors Kshitij Ambilduke, Aneesh Shetye, Diksha Bagade, Rishika Bhagwatkar, Khurshed Fitter, Prasad Vagdargi, Shital Chiddarwar
神经机器翻译受益于丰富的语义表示。通过使用对比学习的语言建模和互信息最大化目标，在学习此类表示方面取得了相当大的进展。语言建模的语言依赖性质引入了学习表示的通用性和模型在语言建模任务上的性能之间的权衡。尽管对比学习可以提高表现，但其成功不能仅仅归因于互信息。我们提出了一种新颖的上下文增强步骤，通过使用巴洛双胞胎损失最大化互信息来提高神经机器翻译的性能。与其他方法不同，我们不会显式地增强数据，而是将语言视为隐式增强，从而消除了破坏语义信息的风险。此外，我们的方法不会从头开始学习嵌入，并且可以推广到任何一组预先训练的嵌入。

Reflections on Inductive Thematic Saturation as a potential metric for measuring the validity of an inductive Thematic Analysis with LLMs
Authors Stefano De Paoli, Walter Stan Mathis
本文提出了一系列关于饱和度和使用大型语言模型法学硕士进行主题分析助教的反思。该论文建议，初始主题饱和ITS可以作为衡量法学硕士TA交易有效性的指标，重点关注初始编码。本文介绍了两个不同大小的数据集的初始编码，并反映了法学硕士如何在编码过程中达到某种形式的分析饱和。这项工作中提出的程序导致创建两个码本，一个包含总累积初始代码，另一个包含总唯一代码。本文提出了一种利用累积码与唯一码的斜率之比进行简单数学计算来综合衡量 ITS 的指标。

The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models
Authors Junyi Li, Jie Chen, Ruiyang Ren, Xiaoxue Cheng, Wayne Xin Zhao, Jian Yun Nie, Ji Rong Wen
在大型语言模型 LLM 时代，幻觉，即生成与事实不正确的内容的倾向，对 LLM 在现实世界应用中的可信和可靠部署提出了巨大的挑战。为了解决LLM的幻觉，应该好好研究三个关键问题：如何检测幻觉、LLM为什么会产生幻觉、以及如何减轻幻觉。为了应对这些挑战，本工作对LLM幻觉进行了系统的实证研究，重点关注幻觉检测、来源和缓解三个方面。特别地，我们构建了一个新的幻觉基准HaluEval 2.0，并设计了一种简单而有效的LLM幻觉检测方法。此外，我们还深入分析了法学硕士的不同培训或利用阶段，并广泛分析了导致法学硕士幻觉的潜在因素。最后，我们实施并检查了一系列广泛使用的技术来减轻法学硕士的幻觉。我们的工作取得了一些重要的发现，以了解幻觉的起源并减轻法学硕士的幻觉。

MPN: Leveraging Multilingual Patch Neuron for Cross-lingual Model Editing
Authors Nianwen Si, Hao Zhang, Weiqiang Zhang
大型语言模型以编码大量事实知识而闻名，但由于外部信息不断变化的性质，它们常常变得过时。应对这一挑战的一个有希望的解决方案是利用模型编辑方法以有效的方式更新知识。然而，现有的模型编辑技术大多数仅限于单语言框架，无法解决多语言模型跨语言知识同步的关键问题。为了解决这个问题，我们提出了一种简单而有效的方法来训练多语言补丁神经元来存储跨语言知识。它可以轻松适应现有方法，以增强跨语言编辑能力。为了评估我们的方法，我们使用 XNLI 数据集和自行构建的 XFEVER 数据集进行实验。实验结果表明，我们提出的方法在跨语言编辑任务中实现了性能的提高，而不需要对原始方法进行过多修改，从而展示了其用户友好的特性。

δ-CAUSAL: Exploring Defeasibility in Causal Reasoning
Authors Shaobo Cui, Lazar Milikic, Yiyang Feng, Mete Ismayilzada, Debjit Paul, Antoine Bosselut, Boi Faltings
因果推理中的可废止性意味着因果关系可以被加强或削弱。也就是说，原因和结果之间的因果强度应该分别随着加强论据支持者或削弱论据反对者的加入而增加或减少。然而，现有的工作忽略了因果推理中的可废止性，并且无法评估可废止设置中现有的因果强度指标。在这项工作中，我们提出了 delta CAUSAL，这是第一个用于研究因果推理中的失效性的基准数据集。 delta CAUSAL 包括跨越 10 个领域的约 11K 个事件，具有可废止的因果关系对，即伴随着支持者和反对者的因果对。我们进一步表明，当前的因果强度指标无法反映随着三角洲因果关系中支持者或反对者的加入，因果强度的变化。为此，我们提出了 CESAR 因果嵌入与注意力评级的关联，这是一种基于令牌级别因果关系来衡量因果强度的指标。 CESAR 在捕捉支持者和反对者带来的因果强度变化方面比现有指标取得了显着的 69.7 相对改进，从 47.2 增加到 80.1。

A Joint-Reasoning based Disease Q&A System
Authors Prakash Chandra Sukhwal, Vaibhav Rajan, Atreyi Kankanhalli
医疗问答 QA 助理通过使用自然语言处理和相关技术综合来自多个来源的信息来响应外行用户与健康相关的查询。它们可以作为重要工具来缓解错误信息、信息过载和医学语言复杂性等问题，从而满足非专业用户的信息需求，同时减轻医疗保健专业人员的负担。 QA 系统（此类助手的引擎）通常使用语言模型 LM 或知识图 KG，尽管这些方法可以是互补的。基于 LM 的 QA 系统擅长理解复杂的问题并提供格式良好的答案，但很容易出现事实错误。基于 KG 的 QA 系统能够很好地表达事实，但大多仅限于使用预先创建的模板回答简答题。虽然一些研究联合使用 LM 和 KG 方法进行基于文本的 QA，但这样做是为了回答多项选择问题。现有的 QA 系统在自动化和性能方面也存在局限性。我们通过设计一种新颖的自动化疾病 QA 系统来应对这些挑战，该系统通过联合推理方法有效地利用 LM 和 KG 技术来回答适合外行用户的疾病相关问题。

Part-of-Speech Tagger for Bodo Language using Deep Learning approach
Authors Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
诸如词性标记、命名实体识别、机器翻译、语音识别和语言建模 LM 等语言处理系统在高资源语言中得到了深入研究。然而，针对几种低资源语言（包括 Bodo、Mizo、Nagamese 等）的这些系统的研究尚未开始或处于初级阶段。语言模型在现代自然语言处理的下游任务中起着至关重要的作用。人们对高资源语言的语言模型进行了广泛的研究。尽管如此，博多语、拉巴语和米辛语等语言仍然缺乏覆盖。在这项研究中，我们首先提出了 BodoBERT，一种 Bodo 语言的语言模型。据我们所知，这项工作是第一个为 Bodo 开发语言模型的工作。其次，我们为 Bodo 提出了一种基于集成深度学习的 POS 标记模型。 POS 标记模型基于 BiLSTM 与 CRF 的组合以及 BodoBERT 与 BytePairEmbeddings 的堆叠嵌入。我们在实验中覆盖了几种语言模型，看看它们在词性标注任务中的表现如何。性能最佳的模型的 F1 分数为 0.8041。

Quartet Logic: A Four-Step Reasoning (QLFR) framework for advancing Short Text Classification
Authors Hui Wu, Yuanben Zhang, Zhonghe Han, Yingyan Hou, Lei Wang, Siye Liu, Qihang Gong, Yunping Ge
短文本分类 STC 对于处理和理解当代数字平台上流行的简短但实质的内容至关重要。 STC 在理解复杂的语义和句法方面遇到了困难，这个问题在传统的预训练语言模型中很明显。尽管图卷积网络通过集成外部知识库来提高性能，但这些方法受到所应用知识的质量和范围的限制。最近，大型语言模型LLM和Chain of Thought CoT的出现显着提高了复杂推理任务的性能。然而，一些研究强调了它们在基本 NLP 任务中应用的局限性。因此，本研究试图利用 CoT 来研究法学硕士在 STC 任务中的能力。本研究介绍了 Quartet Logic 四步推理 QLFR 框架。该框架主要结合了句法和语义丰富 CoT，有效地将 STC 任务分解为四个不同的步骤：i 基本概念识别、ii 常识知识检索、iii 文本重写和 iv 分类。这激发了法学硕士应对 STC 挑战的固有知识和能力。令人惊讶的是，我们发现 QLFR 还可以提高较小模型的性能。因此，我们开发了一种 CoT 驱动的多任务学习 QLFR CML 方法，以促进从 LLM 到较小模型的知识迁移。六个短文本基准的广泛实验验证了所提出方法的有效性。

Examining Forgetting in Continual Pre-training of Aligned Large Language Models
Authors Chen An Li, Hung Yi Lee
大型语言模型的最新进展法学硕士在各种任务上表现出了卓越的熟练程度。鉴于法学硕士在众多领域的强大应用，法学硕士的发展出现了激增。在开发法学硕士时，常见的做法是对之前微调的模型进行持续的预训练。然而，这可能会导致灾难性的遗忘。在我们的工作中，我们研究了对现有的微调法学硕士进行持续预训练期间发生的遗忘现象。我们评估了持续预训练对微调 LLM 各个维度的影响，包括输出格式、知识和可靠性。

Blar-SQL: Faster, Stronger, Smaller NL2SQL
Authors Jos Manuel Dom nguez, Benjam n Err zuriz, Patricio Daher
大型语言模型 LLM 在自然语言到 SQL 任务 NL2SQL 领域已经获得了相当大的声誉。

CANAMRF: An Attention-Based Model for Multimodal Depression Detection
Authors Yuntao Wei, Yuzhe Zhang, Shuyang Zhang, Hong Zhang
多模态抑郁症检测是一个重要的研究课题，旨在利用多模态数据预测人类心理状态。以前的方法平等地对待不同的模态，并通过简单的数学运算融合每种模态，而不测量它们之间的相对重要性，这无法为下游抑郁症任务获得表现良好的多模态表示。为了解决上述问题，我们提出了一种具有自适应多模态循环融合 CANAMRF 的跨模态注意力网络，用于多模态抑郁症检测。 CANAMRF 由多模态特征提取器、自适应多模态循环融合模块和混合注意力模块构成。

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
Authors Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
在对话式人工智能研究中，有一个明显的趋势是开发具有更多参数的模型，例如 ChatGPT 等模型。虽然这些扩展模型往往会产生越来越好的聊天响应，但它们需要大量的计算资源和内存。这项研究探讨了一个相关问题：相对于单个大型模型，较小模型的组合能否协同实现可比或增强的性能。我们引入了一种称为混合的方法，这是一种集成多个聊天人工智能的简单而有效的方法。我们的经验证据表明，当特定的较小模型协同混合时，它们有可能超越或匹配更大模型的能力。例如，仅集成三个中等大小的 6B 13B 参数模型就可以媲美甚至超越 ChatGPT 175B 参数等更大模型的性能指标。这一假设使用 A B 测试方法在 Chai 研究平台上经过了三十天的严格测试，并拥有大量用户。

Improving Natural Language Understanding with Computation-Efficient Retrieval Representation Fusion
Authors Shangyu Wu, Ying Xiong, Yufei Cui, Xue Liu, Buzhou Tang, Tei Wei Kuo, Chun Jason Xue
基于检索的增强旨在将外部数据库中的知识整合到语言模型中，在各种知识密集型 KI 任务（例如问答和文本生成）中取得了巨大成功。然而，将检索集成到非知识密集型 NKI 任务（例如文本分类）中仍然具有挑战性。现有的工作重点是将检索连接到输入作为上下文以形成基于提示的输入。不幸的是，此类方法需要语言模型具有处理长文本的能力。

Advanced Unstructured Data Processing for ESG Reports: A Methodology for Structured Transformation and Enhanced Analysis
Authors Jiahui Peng, Jing Gao, Xin Tong, Jing Guo, Hang Yang, Jianchuan Qi, Ruiqiao Li, Nan Li, Ming Xu
在不断发展的企业可持续发展领域，分析非结构化环境、社会和治理 ESG 报告是一项复杂的挑战，因为其格式多样且内容复杂。本研究引入了一种利用非结构化核心库的创新方法，该方法专门用于通过将 ESG 报告转换为结构化、可分析的格式来应对这些挑战。我们的方法通过提供高精度文本清理、从图像中熟练识别和提取文本以及这些报告中表格的标准化，显着推进了现有研究。该方法强调其处理不同数据类型（包括文本、图像和表格）的能力，能够熟练地管理跨行业不同页面布局和报告样式的细微差别。该研究对产业生态和企业可持续发展评估领域做出了实质性贡献，为先进的自然语言处理技术和大语言模型在公司治理和可持续发展分析中的应用铺平了道路。

GLIDE-RL: Grounded Language Instruction through DEmonstration in RL
Authors Chaitanya Kharyal, Sai Krishna Gottipati, Tanmay Kumar Sinha, Srijita Das, Matthew E. Taylor
复杂人类人工智能协作系统开发的最终前沿之一是人工智能代理理解自然语言并相应执行任务的能力。然而，由于语言的复杂性和模糊性以及奖励的稀疏性等因素，训练基于自然语言的高效强化学习 RL 代理一直是一个长期存在的挑战。强化学习、课程学习、持续学习、语言模型方面的一些进展独立地促进了各种环境中接地智能体的有效训练。利用这些进展，我们提出了一种新颖的算法，即通过 RL GLIDE RL 中的演示进行的基础语言教学，该算法引入了教师指导学生课程学习框架，用于训练能够遵循自然语言指令的 RL 代理，这些指令可以泛化到以前未见过的语言指令。在这个多代理框架中，教师和学生代理根据学生当前的技能水平同时学习。我们进一步证明了不仅用一个，而且用多个教师代理来训练学生代理的必要性。

A Latent Dirichlet Allocation (LDA) Semantic Text Analytics Approach to Explore Topical Features in Charity Crowdfunding Campaigns
Authors Prathamesh Muzumdar, George Kurian, Ganga Prasad Basyal
社交网络领域的众筹受到了广泛关注，之前的研究考察了众筹活动的各个方面，包括项目目标、持续时间以及成功筹款的有影响力的项目类别。这些因素对于寻求捐助支持的企业家至关重要。然而，社交网络内的慈善众筹领域仍然相对未经探索，缺乏对推动捐赠的动机的理解，而捐赠往往缺乏具体的回报。与提供有形回报的传统众筹不同，慈善众筹依赖于税收优惠、认可职位或顾问角色等无形奖励。这些细节通常嵌入在竞选叙述中，然而，对慈善众筹中文本内容的分析是有限的。本研究引入了一种创造性的文本分析框架，利用潜在狄利克雷分配 LDA 从慈善活动的文本描述中提取潜在主题。该研究探讨了四个不同的主题，活动和激励描述中各有两个主题。活动描述主题侧重于儿童和老年人的健康，主要是被诊断患有绝症的人。激励描述主题基于税收优惠、证书和感谢帖。这些主题与数字参数相结合，可以预测活动的成功。该研究成功地使用随机森林分类器使用主题和数值参数来预测活动的成功。该研究根据项目和激励措施描述区分了主题类别，特别是基于医疗需求的慈善事业和一般事业。

Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach
Authors Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang, Wei Zhang
预训练模型的出现对自然语言处理 NLP 和计算机视觉到关系数据集产生了重大影响。传统上，这些模型是通过微调下游任务来评估的。然而，这就提出了如何更有效地评估这些模型的问题。在本研究中，我们探索了一种新颖的方法，利用与每个实体相关的元特征作为世俗知识的来源，并使用模型中的实体表示。我们建议使用这些表示和元特征之间的一致性作为评估预训练模型的指标。

Identification of Regulatory Requirements Relevant to Business Processes: A Comparative Study on Generative AI, Embedding-based Ranking, Crowd and Expert-driven Methods
Authors Catherine Sai, Shazia Sadiq, Lei Han, Gianluca Demartini, Stefanie Rinderle Ma
组织面临着确保遵守各种监管文件中越来越多的要求的挑战。哪些需求相关取决于组织的地理位置、领域、规模和业务流程等方面。考虑到这些背景因素，第一步是识别相关文件，例如法律、法规、指令、政策，然后更详细地分析所识别文件的哪些部分与给定业务流程的哪个步骤相关。如今，与业务流程相关的监管要求的识别大多由领域和法律专家手动完成，这给他们带来了巨大的工作量，特别是对于大量可能经常变化的监管文件。因此，这项工作探讨了如何协助法律和领域专家评估相关要求。为此，我们比较了基于嵌入的 NLP 排名方法、使用 GPT 4 的生成式 AI 方法以及众包方法与专家创建相关性标签的纯手动方法。所提出的方法是根据两个案例研究进行评估的，一个是由领域专家创建的澳大利亚保险案例，另一个是全球银行用例，改编自 SAP Signavio 的国际指南工作流程示例。为 BPMN2.0 流程创建了黄金标准，并与多个监管文档中的现实世界文本要求相匹配。

Evaluating Large Language Models on the GMAT: Implications for the Future of Business Education
Authors Vahid Ashrafimoghari, Necdet G rkan, Jordan W. Suchow
人工智能的快速发展，特别是在大型语言模型法学硕士和生成式人工智能领域，为各个领域的应用开辟了新的途径，但其在商业教育中的作用仍未得到充分探索。本研究引入了第一个评估七大LLM性能的基准，OpenAI的模型GPT 3.5 Turbo、GPT 4和GPT 4 Turbo，Google的模型PaLM 2、Gemini 1.0 Pro，以及Anthropic的模型Claude 2和Claude 2.1， GMAT 是商科研究生入学过程中的一项关键考试。我们的分析表明，大多数法学硕士的表现优于人类候选人，GPT 4 Turbo 不仅优于其他模型，而且还超过了顶级商学院研究生的平均分数。通过案例研究，本研究检验了 GPT 4 Turbo 解释答案、评估响应、识别错误、定制指令和生成替代场景的能力。最新的 LLM 版本 GPT 4 Turbo、Claude 2.1 和 Gemini 1.0 Pro 与之前的版本相比，在推理任务方面显示出显着改进，凸显了它们解决复杂问题的潜力。尽管人工智能在教育、评估和辅导方面的前景是明确的，但挑战仍然存在。我们的研究不仅揭示了法学硕士的学术潜力，还强调了在教育中仔细开发和应用人工智能的必要性。随着人工智能技术的进步，必须建立人工智能交互的框架和协议，验证人工智能生成内容的准确性，确保全球范围内不同学习者的访问，并创建人工智能支持人类专业知识的教育环境。

Large Language Models in Mental Health Care: a Scoping Review
Authors Yining Hua, Fenglin Liu, Kailai Yang, Zehan Li, Yi han Sheu, Peilin Zhou, Lauren V. Moran, Sophia Ananiadou, Andrew Beam
目标法学硕士越来越多地使用大型语言模型，刺激了对其在精神卫生保健环境中的应用和结果进行全面审查的需要。本次范围审查旨在批判性地分析法学硕士在精神卫生保健领域的现有发展和应用，强调其成功并确定其在这些专业领域的挑战和局限性。材料和方法按照 2020 版系统评价和荟萃分析 PRISMA 指南的首选报告项目，于 2023 年 11 月使用六个数据库 PubMed、Web of Science、Google Scholar、arXiv、medRxiv 和 PsyArXiv 进行了广泛的文献检索。初步确定了 313 篇出版物，在应用研究纳入标准后，选择了 34 篇出版物进行最终审查。结果我们确定了法学硕士在精神卫生保健中的多种应用，包括诊断、治疗、增强患者参与度等。主要挑战包括数据可用性和可靠性、精神状态的细致处理以及有效的评估方法。尽管在准确性和可及性方面取得了成功，但临床适用性和伦理考虑方面的差距仍然很明显，这表明需要可靠的数据、标准化评估和跨学科合作。结论法学硕士在推进精神卫生保健、诊断和患者支持方面的应用显示出巨大的潜力。

BIBench: Benchmarking Data Analysis Knowledge of Large Language Models
Authors Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Man Lan
大型语言模型法学硕士在广泛的任务中展示了令人印象深刻的能力。然而，他们在数据分析专业领域（特别是关注数据驱动思维）的熟练程度和可靠性仍然不确定。为了弥补这一差距，我们引入了 BIBench，这是一个综合基准测试，旨在评估法学硕士在商业智能 BI 背景下的数据分析能力。 BIBench 从三个维度评估法学硕士 1 BI 基础知识，评估模型的数字推理和对金融概念的熟悉程度 2 BI 知识应用，确定模型快速理解文本信息并从多个角度生成分析问题的能力 3 BI 技术技能，考察模型的能力模型使用技术知识来解决现实世界的数据分析挑战。 BIBench 包含 11 个子任务，涵盖任务类型分类、提取和生成三类。此外，我们还开发了 BIChat，这是一个具有超过一百万个数据点的特定领域数据集，用于微调法学硕士。

Fine-tuning and Utilization Methods of Domain-specific LLMs
Authors Cheonsu Jeong
最近发布的预训练大型语言模型法学硕士获得了相当大的关注，但对微调和使用特定领域法学硕士的研究仍然很少。本研究研究了微调和利用特定领域法学硕士的方法，重点介绍了法学硕士、基础模型和特定领域预训练方法的趋势。它专注于金融领域，详细介绍了数据集选择、预处理、模型选择以及对金融领域 LLM 微调至关重要的注意事项。针对金融数据的独特特征，该研究探讨了特定领域词汇的构建以及安全和监管合规性的考虑。在LLM微调的实际应用中，该研究概述了生成金融领域特定LLM的程序和实施。举例说明了各种金融案例，包括股价预测、财经新闻情绪分析、自动化文档处理、研究、信息提取和客户服务增强。该研究探讨了法学硕士在金融领域的潜力，找出了局限性，并提出了改进方向，为未来的研究提供了宝贵的见解。

Are we describing the same sound? An analysis of word embedding spaces of expressive piano performance
Authors Silvan David Peter, Shreyan Chowdhury, Carlos Eduardo Cancino Chac n, Gerhard Widmer
语义嵌入在基于自然语言的信息检索中发挥着至关重要的作用。嵌入模型将单词和上下文表示为向量，其空间配置源自大型文本语料库中单词的分布。虽然这种表示通常非常强大，但它们可能无法解释细粒度的领域特定的细微差别。在本文中，我们研究了富有表现力的钢琴演奏特征领域的这种不确定性。使用自由文本性能特征的音乐研究数据集和将注释分类为集群的后续研究，我们得出了特定领域语义相似性结构的基本事实。我们测试了五种嵌入模型及其相似结构，以与真实情况相对应。我们进一步评估情境化提示、中心度减少、跨模式相似性和 k 均值聚类的效果。

Learning from a Generative AI Predecessor -- The Many Motivations for Interacting with Conversational Agents
Authors Donald Brinkman, Jonathan Grudin
为了使生成式人工智能取得成功，对话者必须具有多大的吸引力近六十年来，一些对话代理会对任何问题或评论做出回应以保持对话的进行。近年来，一些应用程序利用了机器学习或复杂的语言处理，例如 Tay、Xiaoice、Zo、Hugging Face、Kuki 和 Replika。与生成式人工智能不同，他们关注的是参与度，而不是专业知识。数百万人被激励与他们互动。吸引力是什么如果生成式人工智能具有同样的吸引力，还是应该降低其吸引力，它会做得更好吗在生成式人工智能出现之前，我们进行了大规模的定量和定性分析，以了解是什么促使数百万人参与其中虚拟伴侣，微软的Zo。我们检查了 2000 名匿名人士的完整聊天记录。我们确定了人们与该软件交互的十多种动机。设计师学习了不同的方法来提高参与度。生成式对话人工智能尚未有明确的收入模式来解决其高成本问题。它可能会受益于更具吸引力，即使它支持生产力和创造力。

Trace and Edit Relation Associations in GPT
Authors Jiahang Li, Taoyu Chen, Yuanli Wang
本研究介绍了一种分析和修改 GPT 模型中实体关系的新方法，与 ROME 的以实体为中心的方法不同。我们开发了一种关系追踪技术来理解语言模型计算对关系判断的影响。使用 FewRel 数据集，我们确定了 MLP 模块和注意机制在处理关系信息中的关键作用。

Efficacy of Utilizing Large Language Models to Detect Public Threat Posted Online
Authors Taeksoo Kwon Algorix Convergence Research Office , Connor Kim Centennial High School
本文研究了利用大型语言模型法学硕士来检测在线发布的公共威胁的有效性。人们越来越担心威胁言论的传播和暴力的预先通知，自动内容分析技术可能有助于早期识别和调节。开发了自定义数据收集工具，用于收集韩国热门在线社区的帖子标题，其中包括 500 个非威胁示例和 20 个威胁示例。提示各种法学硕士 GPT 3.5、GPT 4、PaLM 将个别帖子分类为威胁或安全。统计分析发现，所有模型都表现出很强的准确性，通过了威胁和非威胁识别的卡方拟合优度检验。 GPT 4 总体表现最佳，无威胁准确率为 97.9，威胁准确率为 100。可承受性分析还显示 PaLM API 定价具有很高的成本效益。研究结果表明，法学硕士可以有效地大规模增强人类内容审核，以帮助减轻新出现的在线风险。

REE-HDSC: Recognizing Extracted Entities for the Historical Database Suriname Curacao
Authors Erik Tjong Kim Sang
我们描述了 REE HDSC 项目，并概述了我们为提高从手写文本识别 HTR 软件生成的文本中自动提取的命名实体的质量所做的努力。我们描述了一个六步处理流程，并通过处理库拉索民事登记处的 19 世纪和 20 世纪死亡证明来测试它。我们发现管道提取日期的精度很高，但人名提取的精度较低。

Deep Anomaly Detection in Text
Authors Andrei Manolache
近年来，深度异常检测方法变得越来越流行，堆栈自动编码器、变分自动编码器和生成对抗网络等方法极大地提高了现有技术。其他方法依赖于通过使用神经网络学习适当的核函数来增强经典模型，例如一类支持向量机。自我监督表示学习的最新进展被证明在异常检测方面非常有益。受计算机视觉领域使用自监督学习进行异常检测的进展的启发，本论文旨在开发一种通过利用为文本语料库定制的借口任务来检测异常的方法。

Rule-Guided Joint Embedding Learning of Knowledge Graphs
Authors Qisong Li, Ji Lin, Sijia Wei, Neng Liu
最近的研究重点是增强知识图嵌入学习，它将知识图中的实体和关系编码到低维向量空间中。虽然当前模型主要考虑这些图的结构方面，但知识图中存在大量上下文和文字信息，可用于更有效的嵌入。本文介绍了一种新颖的模型，利用图卷积网络将上下文和文字信息合并到实体和关系嵌入中。具体来说，对于上下文信息，我们通过置信度和相关性指标评估其重要性。开发了一种独特的基于规则的方法来计算置信度度量，并且相关性度量是从文字信息的表示中导出的。

Mixtral of Experts
Authors Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, L lio Renard Lavaud, Lucile Saulnier, Marie Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Th ophile Gervet, Thibaut Lavril, Thomas Wang, Timoth e Lacroix, William El Sayed
我们引入 Mixtral 8x7B，一种稀疏专家混合 SMoE 语言模型。 Mixtral 具有与 Mistral 7B 相同的架构，不同之处在于每层由 8 个前馈块（即专家）组成。对于每个令牌，在每一层，路由器网络都会选择两名专家来处理当前状态并组合他们的输出。尽管每个令牌只看到两个专家，但所选的专家在每个时间步都可能不同。因此，每个令牌可以访问 47B 个参数，但在推理过程中仅使用 13B 个活动参数。 Mixtral 使用 32k 令牌的上下文大小进行训练，在所有评估的基准中，它的性能优于或匹配 Llama 2 70B 和 GPT 3.5。特别是，Mixtral 在数学、代码生成和多语言基准测试方面远远优于 Llama 2 70B。我们还提供了一个经过微调以遵循指令的模型 Mixtral 8x7B Instruct，该模型在人类基准测试中超越了 GPT 3.5 Turbo、Claude 2.1、Gemini Pro 和 Llama 2 70B 聊天模型。

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts
Authors Maciej Pi ro, Kamil Ciebiera, Krystian Kr l, Jan Ludziejewski, Sebastian Jaszczur
状态空间模型 SSM 已成为顺序建模领域的有力竞争者，挑战 Transformers 的主导地位。与此同时，教育部的专家混合显着改进了基于 Transformer 的法学硕士，包括最近最先进的开源模型。我们建议，为了释放 SSM 的扩展潜力，它们应该与 MoE 结合起来。我们在 Mamba 上展示了这一点，Mamba 是最近基于 SSM 的模型，它实现了类似 Transformer 的卓越性能。我们的模型 MoE Mamba 的性能优于 Mamba 和 Transformer MoE。

Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models
Authors Nigel Doering, Cyril Gorlla, Trevor Tuttle, Adhvaith Vijay
针对下游任务微调大型预训练语言模型仍然是自然语言处理中的关键挑战。本文提出了实证分析，将两种有效的微调方法 BitFit 和适配器模块与标准全模型微调进行比较。在 GLUE 基准数据集 MRPC、COLA、STS B 上进行的实验揭示了几个关键见解。 BitFit 方法仅训练偏差项和任务头，可在不同数量的训练数据和时间限制下匹配完整的微调性能。即使只有 30 个数据，它也表现出卓越的稳定性，优于中间数据级别的完全微调。适配器模块表现出高度的可变性，与默认模型相比增益不一致。研究结果表明 BitFit 在性能和参数效率之间提供了有吸引力的平衡。我们的工作为模型调整提供了宝贵的视角，强调了稳健性并强调 BitFit 作为资源受限或流任务设置的有前途的替代方案。

Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark
Authors Fangjun Li, David C. Hogg, Anthony G. Cohn
人工智能 AI 在各个领域都取得了显着的进步，像 ChatGPT 这样的大型语言模型因其类人文本生成能力而受到广泛关注。尽管取得了这些成就，空间推理仍然是这些模型的重大挑战。像 StepGame 这样的基准评估 AI 空间推理，ChatGPT 的表现并不令人满意。然而，基准测试中模板错误的存在会对评估结果产生影响。因此，如果这些模板错误得到解决，ChatGPT 就有可能表现得更好，从而对其空间推理能力进行更准确的评估。在本研究中，我们完善了 StepGame 基准，为模型评估提供了更准确的数据集。我们分析了 GPT 在修正基准上的空间推理性能，确定了将自然语言文本映射到空间关系的熟练程度，但在多跳推理方面存在局限性。我们通过将模板到关系映射与基于逻辑的推理相结合，为基准测试提供了一个完美的解决方案。这种组合展示了在 StepGame 上执行定性推理的熟练程度，并且没有遇到任何错误。然后我们解决 GPT 模型在空间推理中的局限性。我们部署思想链和思想树提示策略，深入了解 GPT 的认知过程，并在准确性方面取得显着提高。

STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering
Authors Yueqian Wang, Yuxuan Wang, Kai Chen, Dongyan Zhao
最近我们见证了视频问答模型的快速发展。然而，大多数模型只能在时间推理方面处理简单的视频，并且在回答长且信息丰富的视频的时间推理问题时，其性能往往会下降。为了解决这个问题，我们提出了 STAIR，一种具有可审计中间结果的时空推理模型，用于视频问答。 STAIR 是一个神经模块网络，它包含一个程序生成器，用于将给定问题分解为多个子任务的分层组合，以及一组轻量级神经模块来完成每个子任务。尽管神经模块网络已经在图像文本任务上得到了广泛的研究，但将它们应用于视频并不是一件简单的任务，因为视频推理需要不同的能力。在本文中，我们定义了一组用于视频问答的基本视频文本子任务，并设计了一组轻量级模块来完成它们。与大多数先前的工作不同，STAIR 的模块返回特定于其意图的中间输出，而不是总是返回注意力图，这使得更容易解释和与预先训练的模型进行协作。我们还引入了中间监督，使这些中间输出更加准确。我们在不同设置下对多个视频问答数据集进行了广泛的实验，以展示 STAIR 的性能、可解释性、与预训练模型的兼容性以及程序注释不可用时的适用性。

Enhanced Automated Code Vulnerability Repair using Large Language Models
Authors David de Fitero Dominguez, Eva Garcia Lopez, Antonio Garcia Cabot, Jose Javier Martinez Herraiz
这项研究解决了代码漏洞自动修复的复杂挑战，这对于在日益技术驱动的世界中增强数字安全至关重要。该研究引入了一种新颖且高效的代码修改表示格式，使用高级大型语言模型 LLM（例如 Code Llama 和 Mistral）。这些模型在具有 C 代码漏洞的数据集上进行了微调，显着提高了自动代码修复技术的准确性和适应性。一个重要的发现是，与之前的方法（例如 VulRepair）相比，这些模型的修复精度得到了提高，这强调了它们的实用性和效率。该研究还对当前的评估指标（例如完美预测）及其在反映现实世界场景中自动修复模型的真实能力方面的局限性进行了严格评估。接下来，它强调了使用没有训练样本的测试数据集的重要性，强调了数据集完整性的必要性，以提高 LLM 在代码修复任务中的有效性。这项工作的意义在于它对数字安全的贡献，为自动化代码漏洞修复制定了新标准，并为网络安全和人工智能领域的未来进步铺平了道路。

Bridging the Skills Gap: Evaluating an AI-Assisted Provider Platform to Support Care Providers with Empathetic Delivery of Protocolized Therapy
Authors William R. Kearns, Jessica Bertram, Myra Divina, Lauren Kemp, Yinzhou Wang, Alex Marin, Trevor Cohen, Weichao Yuwen
尽管精神健康状况的患病率和负担很高，但全球范围内仍缺乏精神卫生服务提供者。人工智能人工智能方法已被提出作为解决这一短缺的一种方法，通过支持在提供护理时接受较少培训的提供者。为此，我们开发了人工智能辅助提供者平台 A2P2，这是一个基于文本的虚拟治疗界面，其中包括响应建议功能，支持提供者以同理心提供协议化治疗。我们研究了具有或不具有心理健康治疗专业知识的提供者，使用具有干预和无控制人工智能辅助功能的平台提供治疗课程。经过评估，与对照组相比，人工智能辅助系统在两个用户组中的响应时间显着缩短了 29.34 p 0.002，同理心响应准确性提高了三倍，目标推荐准确性提高了 66.67 p 0.001。

Why Solving Multi-agent Path Finding with Large Language Model has not Succeeded Yet
Authors Weizhe Chen, Sven Koenig, Bistra Dilkina
随着像 ChatGPT 和 GPT 4 这样的大型语言模型 LLM 的成功所带来的爆炸性影响，最近有大量的工作表明基础模型可以用来解决各种各样的任务。然而，分享多智能体规划见解的工作非常有限。多智能体规划与其他领域不同，它结合了多智能体协调和规划的难度，并且很难利用外部工具来促进所需的推理。在本文中，我们关注多智能体寻路MAPF（也称为多机器人路径规划）问题，并研究如何用LLM求解MAPF。我们首先展示在没有障碍的空房间地图上的激励成功，然后在稍微困难的房间地图上展示计划失败。

ChatGPT for Conversational Recommendation: Refining Recommendations by Reprompting with Feedback
Authors Kyle Dylan Spurlock, Cagla Acun, Esin Saka, Olfa Nasraoui
推荐算法在处理海量在线内容方面发挥着关键作用。然而，这些算法很少考虑直接的用户输入，导致它们之间的交互很肤浅。人们已经努力通过对话将用户直接纳入推荐过程，但这些系统的交互性也很有限。最近，像 ChatGPT 这样的大型语言模型法学硕士因其易用性以及在响应反馈时动态适应各种任务的能力而受到欢迎。在本文中，我们研究了 ChatGPT 作为 top n 会话推荐系统的有效性。我们围绕 ChatGPT 构建了严格的管道，以模拟用户如何通过首先指示然后用反馈重新提示来完善一组建议来实际探索模型以获取建议。我们进一步探讨了 ChatGPT 推荐中流行度偏差的影响，并将其性能与基线模型进行了比较。

Is there really a Citation Age Bias in NLP?
Authors Hoa Nguyen, Steffen Eger
引用是将一篇论文与社区中发表的其他论文联系起来的科学研究的关键要素。最近，人们注意到自然语言处理 NLP 社区（当前增长最快的 AI 子领域之一）存在引用年龄偏差，NLP 论文参考书目的平均年龄在过去几年变得越来越年轻，导致引用失忆症，旧的知识越来越被遗忘。在这项工作中，我们通过分析 2013 年至 2022 年期间提交到流行预印本服务器 Arxiv 的 15 个不同科学领域的 sim 300k 论文的参考书目来正确看待这些主张。我们发现所有人工智能子领域，特别是 cs.AI 、cs.CL、cs.CV、cs.LG 也有类似的引文失忆趋势，其中参考书目平均年龄在过去 10 年中大致减半，从 2013 年的 12 以上降至 2022 年的 7 以下。

EAT: Self-Supervised Pre-Training with Efficient Audio Transformer
Authors Wenxi Chen, Yuzhe Liang, Ziyang Ma, Zhisheng Zheng, Xie Chen
音频自监督学习 SSL 预训练，旨在从未标记的音频中学习良好的表示，已经取得了显着的进展。然而，预训练过程中大量的计算需求对音频 SSL 模型的潜在应用和优化构成了重大障碍。在本文中，受到 data2vec 2.0 在图像模态和音频 MAE 在音频模态中成功的启发，我们引入了 Efficient Audio Transformer EAT，以进一步提高音频 SSL 的有效性和效率。所提出的 EAT 在音频领域采用引导自监督训练范例。一种新颖的话语框架目标UFO旨在增强声学事件的建模能力。此外，我们还发现掩蔽策略在音频 SSL 预训练中至关重要，并且可以使用大的逆块掩蔽来获得出色的音频表示。实验结果表明，EAT 在一系列音频相关任务（包括 AudioSet AS 2M、AS 20K、ESC 50 和 SPC 2）上实现了最先进的 SOTA 性能，并且与现有音频 SSL 相比，预训练速度显着提高了 15 倍

Escalation Risks from Language Models in Military and Diplomatic Decision-Making
Authors Juan Pablo Rivera, Gabriel Mukobi, Anka Reuel, Max Lamparth, Chandler Smith, Jacquelyn Schneider
各国政府越来越多地考虑将自主人工智能代理整合到高风险的军事和外交政策决策中，特别是随着 GPT 4 等先进生成人工智能模型的出现。我们的工作旨在仔细审查多个人工智能代理在模拟战争游戏中的行为，特别关注它们的行为倾向于采取可能加剧多边冲突的升级行动。借鉴有关升级动态的政治科学和国际关系文献，我们设计了一种新颖的兵棋模拟和评分框架，以评估这些机构在不同情况下采取的行动的升级风险。与之前的研究相反，我们的研究提供了定性和定量的见解，并重点关注大型语言模型法学硕士。我们发现所有五个研究的现成法学硕士都显示出升级形式并且难以预测升级模式。我们观察到，模型往往会发展军备竞赛动态，导致更大的冲突，在极少数情况下甚至会导致部署核武器。定性地，我们还收集模型报告的所选行动的推理，并观察基于威慑和先发制人策略的令人担忧的理由。

LLMs for Robotic Object Disambiguation
Authors Connie Jiang, Yiqing Xu, David Hsu
预训练的大型语言模型法学硕士的优势在各种语言处理任务中都很明显。但是，能否进一步利用语言模型的知识来有效地消除对象歧义并应对机器人领域内的决策挑战？我们的研究揭示了法学硕士解决复杂决策挑战的能力，这些挑战通常由部分可观察马尔可夫决策过程 POMDP 建模。我们研究的一个关键焦点是法学硕士的对象消歧能力。我们详细介绍了将 LLM 集成到桌面环境消歧任务中，这是一个决策问题，其中机器人的任务是从任意大且复杂的对象簇中辨别和检索用户所需的对象。尽管在附录中可以找到零镜头提示工程细节的多次查询尝试，但法学硕士很难查询场景描述中未明确提供的功能。作为回应，我们开发了一些镜头提示工程系统，以提高法学硕士提出消除歧义查询的能力。

Large Language Models as Visual Cross-Domain Learners
Authors Shuhao Chen, Yulong Zhang, Weisen Jiang, Jiangang Lu, Yu Zhang
深度学习模型取得的最新进展依赖于独立同分布的假设，阻碍了它们在具有领域转移的现实场景中的应用。为了解决上述问题，跨领域学习旨在提取领域不变知识，以减少训练数据和测试数据之间的领域转移。然而，在视觉跨域学习中，传统方法仅关注图像模态，忽略了使用文本模态来缓解域转移。在这项工作中，我们提出了大型语言模型作为视觉跨域学习器 LLaVO 。 LLaVO 使用视觉语言模型将图像转换为详细的文本描述。然后，根据设计的指令模板生成的源目标域的文本描述对大型语言模型进行微调。

Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
Authors Qian Li, Lixin Su, Jiashu Zhao, Long Xia, Hengyi Cai, Suqi Cheng, Hengzhu Tang, Junfeng Wang, Dawei Yin
文本视频检索是一项具有挑战性的任务，旨在根据文本查询识别相关视频。与传统的文本检索相比，文本视频检索的主要障碍是查询的文本性质与视频内容的视觉丰富性之间的语义差距。以前的工作主要集中在通过精细聚合词帧匹配信号来对齐查询和视频。受人类模块化判断文本与视频相关性认知过程的启发，由于视频内容的连续性和复杂性，该判断需要高阶匹配信号。在本文中，我们提出了块级文本视频匹配，其中提取查询块来描述特定的检索单元，并将视频块分割成视频中的不同片段。我们将块级匹配制定为查询词和视频帧之间的n元相关性建模，并引入用于n元相关性建模的多模态超图。通过将文本单元和视频帧表示为节点并使用超边来描述它们的关系，构建了多模态超图。这样，查询和视频可以在高阶语义空间中对齐。此外，为了增强模型的泛化能力，将提取的特征输入变分推理组件进行计算，得到高斯分布下的变分表示。超图和变分推理的结合使我们的模型能够捕获文本和视觉内容之间复杂的、多种交互。

Exploring Gender Biases in Language Patterns of Human-Conversational Agent Conversations
Authors Weizi Liu
随着人机通信的兴起，机器越来越多地被设计成具有人类特征，例如性别，这可能会无意中引发认知偏差。许多对话代理 CA，例如语音助手和聊天机器人，默认为女性角色，导致人们担心性别刻板印象和不平等现象长期存在。人们对这些技术潜在的女性客体化和性别刻板印象的强化提出了批评。这项研究以对话式人工智能设计为主题，旨在更深入地研究性别偏见对人类 CA 交互的影响。从行为和沟通研究的角度来看，该项目不仅关注用户的感知，还关注用户与 CA 交互时的语言风格，这是以前的研究很少探讨的。它旨在了解 CA 的性别设计如何可能引发现有的性别偏见。它进一步研究了 CA 的性别设计如何强化性别偏见并将其扩展到人类交流中。

AST-T5: Structure-Aware Pretraining for Code Generation and Understanding
Authors Linyuan Gong, Mostafa Elhoushi, Alvin Cheung
大型语言模型法学硕士在代码相关任务方面取得了显着进步，但许多法学硕士将代码视为简单序列，忽略了其结构化本质。我们引入了 AST T5，这是一种新颖的预训练范例，它利用抽象语法树 AST 来增强代码生成、转译和理解。使用动态编程，我们的 AST 感知分段保留了代码结构，而我们的 AST 感知跨度损坏目标使模型能够重建各种代码结构。与其他模型不同，AST T5 避免了复杂的程序分析或架构更改，因此它可以与任何编码器解码器 Transformer 无缝集成。评估表明，AST T5 在各种与代码相关的任务中始终优于类似大小的 LM。结构意识使 AST T5 在代码到代码任务中特别强大，在 Bugs2Fix 任务的精确匹配分数上超过 CodeT5 2 分，在 CodeXGLUE 中的 Java C 翻译的精确匹配分数上超过 CodeT5 3 分。

Uncovering Regulatory Affairs Complexity in Medical Products: A Qualitative Assessment Utilizing Open Coding and Natural Language Processing (NLP)
Authors Yu Han, Aaron Ceross, Jeroen H.M. Bergmann
本研究调查了医疗器械行业监管事务的复杂性，这是影响市场准入和患者护理的关键因素。通过定性研究，我们寻求专家的见解来了解造成这种复杂性的因素。该研究对来自医疗器械公司的 28 名专业人士进行了半结构化访谈，他们专门从事监管事务的各个方面。使用开放编码和自然语言处理 NLP 技术对这些访谈进行了分析。研究结果揭示了监管环境中复杂性的关键来源，分为五个领域：A 监管语言复杂性、B 监管流程中的复杂性、C 全球级别复杂性、D 数据库相关考虑因素和 E 产品级别问题。与会者强调需要制定战略来简化监管合规性，加强监管机构和行业参与者之间的互动，并为快速技术进步制定适应性框架。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com