【AI视野·今日NLP 自然语言处理论文速览第六十八期】Tue, 2 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 2 Jan 2024
Totally 48 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

A Computational Framework for Behavioral Assessment of LLM Therapists
Authors Yu Ying Chiu, Ashish Sharma, Inna Wanyin Lin, Tim Althoff
ChatGPT 和其他大型语言模型法学硕士的出现大大增加了利用法学硕士作为治疗师来支持与心理健康挑战作斗争的个人的兴趣。然而，由于缺乏系统的研究，我们对法学硕士治疗师的行为方式（即他们对客户的回应方式）的理解非常有限。了解他们在各种客户和情况下的行为对于准确评估他们在心理健康高风险环境中的能力和局限性至关重要，在这种情况下，不良行为可能会导致严重后果。在本文中，我们提出了 BOLT，这是一种新颖的计算框架，用于研究法学硕士作为治疗师时的对话行为。我们开发了一种情境学习方法，基于 13 种不同的心理治疗技术（包括反思、问题、解决方案、正常化和心理教育）来定量测量法学硕士的行为。随后，我们将法学硕士治疗师的行为与高质量和低质量人类治疗的行为进行比较，并研究如何调节他们的行为以更好地反映在高质量治疗中观察到的行为。我们对 GPT 和 Llama 变体的分析表明，这些法学硕士通常类似于低质量治疗而不是高质量治疗中更常见的行为，例如当客户分享情绪时提供更高程度的问题解决建议，这与典型的建议背道而驰。与此同时，与低质量的治疗不同，法学硕士更多地反映了客户的需求和优势。

If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents
Authors Ke Yang, Jiateng Liu, John Wu, Chaoqi Yang, Yi R. Fung, Sha Li, Zixuan Huang, Xu Cao, Xingyao Wang, Yiquan Wang, Heng Ji, Chengxiang Zhai
当今著名的大型语言模型法学硕士与过去的语言模型的不同之处不仅在于大小，而且在于它们是在自然语言和形式语言代码的组合上进行训练的。代码作为人与计算机之间的媒介，将高层目标转化为可执行的步骤，具有语法标准、逻辑一致性、抽象性和模块化的特点。在本次调查中，我们概述了将代码集成到法学硕士培训数据中的各种好处。具体来说，除了增强法学硕士在代码生成方面的能力外，我们观察到代码的这些独特属性有助于解锁法学硕士的推理能力，使其能够应用到一系列更复杂的自然语言任务，引导法学硕士产生结构化和精确的中间步骤，这然后可以通过函数调用连接到外部执行端，并利用代码编译和执行环境，这也为模型改进提供了多样化的反馈。此外，我们还追踪了法学硕士由代码带来的这些深厚能力如何导致他们作为智能代理 IAs 的出现，在这种情况下，理解指令、分解目标、计划和执行行动以及从反馈中进行改进的能力对于他们来说至关重要。下游任务的成功。

PerSHOP -- A Persian dataset for shopping dialogue systems modeling
Authors Keyvan Mahmoudi, Heshaam Faili
如今，对话系统已应用于工业和研究的许多领域。这些系统有成功的实例，例如 Apple Siri、Google Assistant 和 IBM Watson。面向任务的对话系统是其中的一类，用于特定任务。他们可以执行预订机票或预订餐厅等任务。购物是这些系统上最受欢迎的区域之一。该机器人取代了人类销售人员，通过说话与客户互动。为了在这些系统的幕后训练模型，需要带注释的数据。在本文中，我们通过众包开发了波斯语对话数据集。我们注释了这些对话来训练模型。该数据集包含 15 个不同领域的近 22k 个话语和 1061 个对话。这是该领域最大的波斯语数据集，免费提供，以便未来的研究人员可以使用它。此外，我们还提出了一些用于自然语言理解 NLU 任务的基线模型。这些模型执行 NLU 意图分类和实体提取两项任务。

Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models
Authors Terry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries, Qian Liu, Niklas Muennighoff
大型语言模型LLM的全参数微调FFT的高昂成本催生了一系列参数高效微调PEFT方法。然而，目前尚不清楚哪些方法可以在不同模型规模下提供最佳的性价比权衡。我们推出了 Astraios，这是一套由 28 条指令调整的 OctoCoder 模型，使用 7 种调整方法和 4 种模型大小，最多 160 亿个参数。通过对 5 个任务和 8 个不同数据集（包括代码理解和代码生成任务）的调查，我们发现 FFT 通常会在所有规模上带来最佳的下游性能，而 PEFT 方法的功效根据模型规模而显着不同。 LoRA 通常提供成本和性能之间最有利的权衡。进一步研究这些方法对模型稳健性和代码安全性的影响表明，较大的模型往往会表现出较低的稳健性和较低的安全性。最后，我们探讨了更新参数、交叉熵损失和任务性能之间的关系。

Temporal Validity Change Prediction
Authors Georg Wenzel, Adam Jatowt
时间有效性是文本的一个重要属性，对于许多下游应用程序非常有用，例如推荐系统、对话式人工智能或故事理解。现有的基准测试任务通常需要模型来识别单个语句的时间有效性持续时间。然而，在许多情况下，可以从可用的文本流中收集额外的上下文信息，例如故事中的句子或社交媒体配置文件上的帖子。此上下文信息可能会极大地改变声明预期有效的持续时间。我们提出了时间有效性变化预测，这是一种自然语言处理任务，对机器学习模型检测引起此类变化的上下文语句的能力进行基准测试。我们创建一个数据集，其中包含来自 Twitter 的时间目标语句和众包样本上下文语句。然后，我们在数据集上对一组基于 Transformer 的语言模型进行基准测试。

Machine Translation Testing via Syntactic Tree Pruning
Authors Quanjun Zhang, Juan Zhai, Chunrong Fang, Jiawei Liu, Weisong Sun, Haichuan Hu, Qingyu Wang
机器翻译系统已广泛应用于我们的日常生活中，使生活变得更加轻松便捷。不幸的是，错误的翻译可能会导致严重的后果，例如经济损失。这就需要提高机器翻译系统的准确性和可靠性。然而，由于底层神经模型的复杂性和难处理性，测试机器翻译系统具有挑战性。为了应对这些挑战，我们提出了一种新颖的变质测试方法，通过句法树修剪 STP 来验证机器翻译系统。我们的主要见解是，与原始句子相比，修剪后的句子应该具有相似的关键语义。具体来说，STP 1 通过基本句子结构和句法树表示层面的依存关系提出了保留核心语义的剪枝策略 2 基于变质关系生成源句对 3 报告可疑问题，其翻译通过词袋破坏了一致性属性模型。我们进一步在两种最先进的机器翻译系统（即 Google Translate 和 Bing Microsoft Translator）上评估 STP，并以 1,200 个源句子作为输入。结果表明，与最先进的技术相比，STP 可以准确地找到 Google 翻译中的 5,073 个独特的错误翻译和 Bing Microsoft Translator 中的 5,100 个独特的错误翻译 400 个，精度分别为 64.5 和 65.4。所报告的错误翻译种类繁多，其中 90 多个错误翻译无法通过最先进的技术找到。 STP 特有的翻译错误有 9,393 个，比最先进的技术多出 711.9 个。

ToolEyes: Fine-Grained Evaluation for Tool Learning Capabilities of Large Language Models in Real-world Scenarios
Authors Junjie Ye, Guanyu Li, Songyang Gao, Caishuang Huang, Yilong Wu, Sixian Li, Xiaoran Fan, Shihan Dou, Qi Zhang, Tao Gui, Xuanjing Huang
现有的工具学习评估主要集中于验证大型语言模型法学硕士所选工具与预期结果的一致性。然而，这些方法依赖于一组有限的场景，在这些场景中可以预先确定答案，这偏离了真正的需求。此外，仅仅强调结果忽视了法学硕士有效利用工具所必需的复杂能力。为了解决这个问题，我们提出了 ToolEyes，这是一个专为评估真实场景中法学硕士工具学习能力而定制的细粒度系统。该系统仔细检查了七个现实世界场景，分析了对法学硕士至关重要的五个维度：工具学习格式对齐、意图理解、行为规划、工具选择和答案组织。此外，ToolEyes 还包含一个拥有大约 600 个工具的工具库，充当法学硕士和现实世界之间的中介。涉及三个类别的十名法学硕士的评估揭示了对特定场景的偏好和工具学习中有限的认知能力。有趣的是，扩大模型规模甚至加剧了工具学习的障碍。这些发现提供了旨在推进工具学习领域的指导性见解。

Large Language Models aren't all that you need
Authors Kiran Voderhobli Holla, Chaithanya Kumar, Aryan Singh
本文描述了为解决 SemEval 2023 任务 2 MultiCoNER II 多语言复杂命名实体识别 1 而构建的架构和系统。我们评估了两种方法：传统的条件随机场模型和使用定制头进行微调的大型语言模型 LLM，并对这两种方法进行了比较。探索的新颖想法是 1 用残差衰减辅助损失，我们在粗粒度 NER 的辅助任务上训练模型，并将该任务作为损失函数的一部分 2 三元组令牌混合，我们探索混合相邻令牌嵌入的方法在预测 3 任务最佳头部之前的最终 NER 层中，我们探索 LLM 最后一层的各种自定义头部和学习率。我们还探索了包括 GPT 3 在内的多个 LLM，并尝试了各种 dropout 和其他超参数设置，然后得出最终模型，该模型在开发上实现了 0.85 0.84 的微观宏观 f1，在测试数据上实现了 0.67 0.61 的微观宏观 f1。我们表明，虽然预先训练的 LLM 本身与传统模型相比可以带来分数的大幅提高，但我们还证明，通过使用所述的附加特征损失模型工程技术增强 LLM 可以对 Macro F1 分数进行切实的改进

Benchmarking Large Language Models on Controllable Generation under Diversified Instructions
Authors Yihan Chen, Benfeng Xu, Quan Wang, Yi Liu, Zhendong Mao
虽然大型语言模型法学硕士表现出了令人印象深刻的指令跟踪能力，但仍不清楚它们是否以及在多大程度上能够响应各种指令中可能包含的明确约束。作为法学硕士对齐的一个重要方面，制定这样一套专门的指令并研究法学硕士的行为非常重要。为了解决这一空缺，我们提出了一个新的基准 CoDI Eval，以系统、全面地评估法学硕士对具有各种约束的指令的反应。我们构建了大量的约束属性指令作为专注于泛化和覆盖范围的测试套件。具体来说，我们提倡指令多样化过程来综合多种形式的约束表达，并用更细粒度的子类别来审议候选任务分类法。最后，我们将整个评估过程自动化，以促进进一步的开发。与现有的可控文本生成研究不同，CoDI Eval 首次将范围扩展到流行的指令遵循范式。我们对 CoDI Eval 上的代表性 LLM（例如 ChatGPT、Vicuna）进行了广泛的评估，揭示了它们在遵循特定约束的指令方面的局限性，并且开源和商业闭源 LLM 之间仍然存在显着差距。我们相信这个基准将促进研究提高法学硕士对指令响应的可控性。

Large language model for Bible sentiment analysis: Sermon on the Mount
Authors Mahek Vora, Tom Blau, Vansh Kachhwal, Ashu M. G. Solo, Rohitash Chandra
通过大型语言模型进行的自然语言处理革命推动了其在包括社会科学和人文学科，更具体地说是比较宗教在内的多学科领域的使用。情感分析提供了一种研究文本中表达的情感的机制。最近，情感分析已被用来研究和比较《薄伽梵歌》的翻译，《薄伽梵歌》是一部基本且神圣的印度教文本。在这项研究中，我们使用情感分析来研究圣经的选定章节。这些章节被称为登山宝训。我们利用预先训练的语言模型进行情感分析，通过审查《登山宝训》的五种翻译，其中包括 King James 版本、新国际版本、新修订标准版本、Lamsa 版本和基础英语版本。我们使用情感和语义分析进行逐章、逐节的比较，并回顾所表达的主要情感。我们的结果突出了章节和诗句中不同的情感。我们发现各个译本的词汇有显着差异。

Predicting Anti-microbial Resistance using Large Language Models
Authors Hyunwoo Yoo, Bahrad Sokhansanj, James R. Brown, Gail Rosen
在抗生素耐药性增加和像 COVID 19 这样的传染病传播的时期，对与抗生素耐药性相关的基因进行分类非常重要。随着基于 Transformer 的语言模型自然语言处理的进步，许多学习核苷酸序列特征的语言模型也出现了。这些模型在对核苷酸序列的各种特征进行分类方面表现出良好的性能。当对核苷酸序列进行分类时，不仅利用序列本身，还利用各种背景知识。在本研究中，我们不仅使用基于核苷酸序列的语言模型，还使用基于 PubMed 文章的文本语言模型，以在模型中反映更多的生物学背景知识。我们提出了一种基于抗生素抗性基因的各种数据库微调核苷酸序列语言模型和文本语言模型的方法。我们还提出了一种基于 LLM 的增强技术来补充数据，并提出了一种集成方法来有效地结合这两个模型。我们还提出了评估模型的基准。

A Survey of Personality, Persona, and Profile in Conversational Agents and Chatbots
Authors Richard Sutcliffe
我们对神经会话代理 CA（也称为聊天机器人）的个性进行了回顾。首先，我们定义个性、角色和概况。我们解释了 CA 中使用的所有个性方案，并列出了他们使用的方案下的模型。其次，我们描述了最近 CA 人格研究中开发的 21 个数据集。第三，我们定义了在 CA 中体现个性的方法，并回顾了最近使用它们的模型。第四，我们调查了一些关于 CA、个性和相关主题的相关评论。

State of What Art? A Call for Multi-Prompt LLM Evaluation
Authors Moran Mizrahi, Guy Kaplan, Dan Malkin, Rotem Dror, Dafna Shahaf, Gabriel Stanovsky
大型语言模型法学硕士的最新进展导致了各种评估基准的开发。这些基准通常依赖于单个指令模板来评估特定任务的所有法学硕士。在本文中，我们全面分析了通过 650 万个实例的单次提示评估获得的结果的脆弱性，涉及 20 个不同的法学硕士和来自 3 个基准的 39 项任务。为了提高分析的稳健性，我们建议用一组不同的提示来评估法学硕士。我们讨论针对特定用例的定制评估指标，例如法学硕士开发人员与对特定下游任务感兴趣的开发人员，确保对法学硕士能力进行更可靠和更有意义的评估。

An Analysis of Embedding Layers and Similarity Scores using Siamese Neural Networks
Authors Yash Bingi, Yiqiao Yin
大型语言模型法学硕士在各种用例中越来越受欢迎，从语言理解和写作到应用程序开发协助。法学硕士最佳功能的最重要方面之一是嵌入层。词嵌入是连续向量空间中词的分布式表示。在法学硕士的背景下，使用特定于模型的独特算法将输入文本中的单词或标记转换为高维向量。我们的研究考察了业界领先公司的嵌入算法，例如 OpenAI、Google 的 PaLM 和 BERT。使用医学数据，我们分析了每个嵌入层的相似性分数，观察每个算法之间的性能差异。为了增强每个模型并提供额外的编码层，我们还实现了暹罗神经网络。在观察添加模型后性能的变化后，我们测量了每个训练周期的碳足迹。与大型语言模型法学硕士相关的碳足迹是一个重要问题，在为各种用例选择算法时应考虑到这一点。

Exploring the Effectiveness of Instruction Tuning in Biomedical Language Processing
Authors Omid Rohanian, Mohammadmahdi Nouriborji, David A. Clifton
大型语言模型法学硕士，特别是类似于 ChatGPT 的法学硕士，对自然语言处理 NLP 领域产生了重大影响。虽然这些模型在一般语言任务中表现出色，但它们在特定领域的下游任务（例如生物医学和临床命名实体识别 NER、关系提取 RE 和医学自然语言推理 NLI）中的性能仍在不断发展。在这种背景下，我们的研究调查了生物医学语言处理指令调整的潜力，将该技术应用于两个大规模的通用法学硕士。我们提出了一个基于指令的综合模型，该模型在包含大约 200,000 个以指令为中心的样本的数据集上进行训练。该数据集是对现有数据精心策划的汇编，经过精心调整和重新格式化，以符合我们基于指令的任务的具体要求。这一举措代表了利用此类模型取得与 BioBERT 和 BioClinicalBERT 等专用编码器模型相同的结果的重要一步，用于各种经典的生物医学 NLP 任务。我们的工作包括分析数据集的组成及其对模型性能的影响，从而深入了解指令调整的复杂性。

Neural Networks Against (and For) Self-Training: Classification with Small Labeled and Large Unlabeled Sets
Authors Payam Karisani
我们提出了一种基于自我训练的半监督文本分类器，使用神经网络的一个正向和一个负向属性。自训练的弱点之一是语义漂移问题，其中噪声伪标签在迭代中累积，从而导致错误率飙升。为了应对这一挑战，我们重塑了伪标签的角色并创建了信息的分层顺序。此外，自训练的一个关键步骤是使用分类器置信度预测来选择最佳候选伪标签。神经网络无法有效地完成此步骤，因为众所周知，它们的输出校准很差。为了克服这一挑战，我们提出了一种混合指标来代替简单的置信度测量。我们的指标通过子采样技术考虑了预测的不确定性。我们在一组五个标准基准中评估我们的模型，并表明它显着优于一组十个不同的基线模型。此外，我们表明，我们的模型所实现的改进可以附加到语言模型预训练，这是一种广泛使用的使用未标记文档的技术。

A Multi-Task, Multi-Modal Approach for Predicting Categorical and Dimensional Emotions
Authors Alex R zvan Ispas, Th o Deschamps Berger, Laurence Devillers
近年来，语音情感识别 SER 在自发对话的背景下受到了广泛的关注。尽管在分类情感和维度情感的情况下，在著名的自然二元对话语料库 IEMOCAP 等数据集上取得了显着的结果，但很少有论文尝试同时预测这两种范式。因此，在这项工作中，我们的目标是通过提出一个预测类别和维度情感的多任务、多模态系统来突出多任务学习的性能贡献。结果强调了两种情绪之间交叉调节的重要性。我们的方法由多任务、多模态架构组成，该架构通过对每种模态的特征进行自我关注来使用并行特征细化。为了融合这些特征，我们的模型引入了一组可学习的桥梁标记，这些标记在交叉注意力的帮助下融合了声学和语言特征。我们对 10 倍验证的分类情绪进行的实验产生了与当前技术水平相当的结果。在我们的配置中，与单独学习每个范式相比，我们的多任务方法提供了更好的结果。

HSC-GPT: A Large Language Model for Human Settlements Construction
Authors Chen Ran, Yao Xueqi, Jiang Xuhui, Han Zhengqi, Guo Jingze, Zhang Xianyue, Lin Chunyu, Liu Chumin, Zhao Jing, Lian Zeke, Zhang Jingjing, Li Keke
人居环境建设领域涵盖一系列空间设计和管理任务，包括城市规划和景观设计。这些任务涉及大量以自然语言呈现的指令和描述，这对于理解设计要求和生成有效的设计解决方案至关重要。最近的研究试图将自然语言处理 NLP 和生成人工智能 AI 整合到人居建设任务中。由于人工智能对数据的高效处理和分析能力，该领域的设计取得了重大成功。然而，这项任务仍然面临几个根本性挑战。涉及的语义信息包括复杂的空间细节、多样的数据源格式、对地域文化的高度敏感性以及工作场景中创新性和严谨性的苛刻要求。这些因素导致在该领域应用通用生成人工智能时受到限制，并且由于缺乏用于模型训练的高质量数据而进一步加剧。

BatchEval: Towards Human-like Text Evaluation
Authors Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Boyuan Pan, Heda Wang, Kan Li
随着大型语言模型法学硕士作为评估者的引入，自动文本评估取得了重大进展。然而，当前的样本评估范式存在以下问题： 1 对提示设计敏感 2 抗噪声能力差 3 静态参考的整体性能较差。受人类将标准定义和样本间比较视为评估参考这一事实的启发，我们提出了 BatchEval，这是一种迭代进行批量评估的范式，以缓解上述问题。我们探索了这种范例下的变体，并确认最佳设置是具有异构批次组成策略和小数评分格式的两阶段程序。 3 个法学硕士针对 4 个文本评估任务的综合实验表明，BatchEval 在 Pearson 相关性方面的性能比最先进的方法高出 10.5，而平均 API 成本仅为 64。

GeoGalactica: A Scientific Large Language Model in Geoscience
Authors Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou
大型语言模型法学硕士因其一般知识和解决自然语言处理 NLP 中广泛任务的能力而取得了巨大成功。由于其令人印象深刻的能力，法学硕士揭示了潜在的跨学科应用，通过使用人工智能 AI for science（AI4S）来促进特定领域的科学发现。与此同时，自然语言处理技术在地球科学研究和实践中的应用广泛而复杂，从知识提取和文档分类到问答和知识发现。在这项工作中，我们迈出了第一步，通过一种相当简单的方法将法学硕士用于科学。我们尝试将法学硕士专业化为地球科学，通过使用大量地球科学文本进一步预训练模型，以及使用我们自定义收集的指令调整数据集对结果模型进行监督微调 SFT。这些努力产生了一个由 300 亿个参数组成的 GeoGalacica 模型。据我们所知，它是地球科学领域最大的语言模型。更具体地说，GeoGalacica 是来自于 Galoida 的进一步预训练。我们使用地球科学相关文本语料库来训练 GeoGalacica，该文本语料库包含从大型科学项目 Deep time Digital Earth DDE 的广泛数据源中精选的 650 亿个令牌，保留为最大的地球科学特定文本语料库。然后，我们使用 100 万对指令调优数据对模型进行微调，这些数据包含需要专业地球科学知识才能回答的问题。在这份技术报告中，我们将详细阐述GeoGalacica的各个方面，包括数据收集、数据清理、基础模型选择、预训练、SFT和评估。

SDIF-DA: A Shallow-to-Deep Interaction Framework with Data Augmentation for Multi-modal Intent Detection
Authors Shijue Huang, Libo Qin, Bingbing Wang, Geng Tu, Ruifeng Xu
多模态意图检测旨在利用各种模态来理解用户的意图，这对于在现实世界场景中部署对话系统至关重要。多模态意图检测的两个核心挑战是1如何有效地对齐和融合模态的不同特征以及2有限的标记多模态意图训练数据。在这项工作中，我们引入了一种具有数据增强 SDIF DA 的从浅到深的交互框架来解决上述挑战。首先，SDIF DA 利用从浅到深的交互模块，逐步有效地对齐和融合文本、视频和音频模式的特征。其次，我们提出了一种基于 ChatGPT 的数据增强方法来自动增强足够的训练数据。实验结果表明，SDIF DA 可以通过实现最先进的性能来有效地对齐和融合多模态特征。

RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models
Authors Yuanhao Wu, Juno Zhu, Siliang Xu, Kashun Shum, Cheng Niu, Randy Zhong, Juntong Song, Tong Zhang
检索增强生成RAG已成为减轻大型语言模型法学硕士幻觉的主要技术。尽管集成了 RAG，法学硕士仍可能对检索到的内容提出不受支持或相互矛盾的主张。为了在 RAG 下制定有效的幻觉预防策略，创建可以测量幻觉程度的基准数据集非常重要。本文介绍了 RAGTruth，这是一个专门用于分析法学硕士应用程序的标准 RAG 框架内各个领域和任务中的单词级幻觉的语料库。 RAGTruth 包含来自不同法学硕士使用 RAG 自然生成的近 18,000 个回答。这些反应在个案和单词层面都经过了细致的手动注释，并结合了幻觉强度的评估。我们不仅对不同法学硕士的幻觉频率进行基准测试，而且还严格评估几种现有幻觉检测方法的有效性。此外，我们表明，与使用最先进的大型语言模型（例如，

FusionMind -- Improving question and answering with external context fusion
Authors Shreyas Verma, Manoj Parmar, Palash Choudhary, Sanchita Porwal
使用预先训练的语言模型 LM 和知识图 KG 回答问题在识别相关知识和执行联合推理方面提出了挑战。我们将针对任务进行微调的 LM 与之前发布的问答 QA 目标的 QAGNN 方法进行了比较，并进一步测量了额外的影响QAGNN 性能的事实背景。 QAGNN 方法使用 LM 来编码 QA 上下文并估计 KG 节点重要性，并使用图神经网络 GNN 有效更新问题选择实体表示。我们进一步尝试通过合并问题主干的相关知识事实来增强 QA 上下文编码。这些模型在 OpenbookQA 数据集上进行训练，该数据集包含 6000 个 4 向多项选择题，被广泛用作 QA 任务的基准。通过我们的实验，我们发现结合知识事实上下文可以显着提高性能。相比之下，将知识图添加到语言模型中仅导致了适度的增长。

Predicting Evoked Emotions in Conversations
Authors Enas Altarawneh, Ameeta Agrawal, Michael Jenkin, Manos Papagelis
理解和预测多方多轮对话中的情绪轨迹具有重要意义。例如，此类信息可用于在人机交互中生成移情响应或为先发制人的毒性检测模型提供信息。在这项工作中，我们介绍了预测下一轮 n 1 对话 PEC 中的情绪的新问题，给定直到第 n 轮的文本和/或情感输入的组合。我们通过对与对话中诱发情绪固有相关的三个维度进行建模来系统地解决该问题，包括 i 序列建模、ii 自依赖建模和 iii 新近度建模。然后将这些建模维度合并到两个深度神经网络架构中，即序列模型和图卷积网络模型。前者旨在捕获对话中的话语序列，而后者捕获多方对话的话语序列和网络形成。我们对解决 PEC 问题的各种提出的模型进行了全面的实证评估。

Improving Text Embeddings with Large Language Models
Authors Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei
在本文中，我们介绍了一种新颖且简单的方法，仅使用合成数据和少于 1k 的训练步骤即可获得高质量的文本嵌入。现有方法通常依赖于使用数十亿个弱监督文本对进行多阶段中间预训练，然后使用一些标记数据集进行微调，与此不同的是，我们的方法不需要构建复杂的训练管道或依赖于手动收集的数据集，而这些数据集通常受到以下因素的限制：任务多样性和语言覆盖范围。我们利用专有的法学硕士为近 100 种语言的数十万个文本嵌入任务生成各种合成数据。然后，我们使用标准对比损失对合成数据上的仅限开源解码器的 LLM 进行微调。实验表明，我们的方法在不使用任何标记数据的情况下，在竞争激烈的文本嵌入基准上取得了出色的性能。

Argumentation in Waltz's "Emerging Structure of International Politics''
Authors Magdalena Wolska, Bernd Fr hlich, Katrin Girgensohn, Sassan Gholiagha, Dora Kiesel, J rgen Neyer, Patrick Riehmann, Mitja Sienknecht, Benno Stein
我们提出了一种针对国际关系理论学术文章的论证和特定领域方面的注释方案。在论证层面，我们确定主张和支持攻击的关系。在领域级别，我们根据理论和数据相关陈述对话语内容进行建模。

Red Teaming for Large Language Models At Scale: Tackling Hallucinations on Mathematics Tasks
Authors Aleksander Buszydlik, Karol Dobiczek, Micha Teodor Oko , Konrad Skublicki, Philip Lippmann, Jie Yang
我们考虑法学硕士在基本计算和代数任务上的红队问题，以评估各种提示技术如何影响输出质量。我们提出了一个框架来按程序生成数字问题和谜题，并比较应用和不应用几种红队技术的结果。

The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness
Authors Neeraj Varshney, Pavel Dolin, Agastya Seth, Chitta Baral
随着大型语言模型法学硕士在自然语言处理应用中发挥着越来越重要的作用，其安全问题成为 NLP 研究的关键领域。本文提出了安全性和过度防御性评估SODE基准，集合了各种安全和不安全提示，并精心设计了评估方法，有助于对安全性和过度防御性进行系统的评估、比较和分析。通过 SODE，我们研究了多个最先进的 LLM 的各种 LLM 防御策略，这揭示了一些有趣且重要的发现，例如广泛流行的自我检查技术确实提高了针对不安全输入的安全性，但这是以成本为代价的b 提供安全指令以及安全和不安全输入的上下文示例，持续提高安全性并减轻模型的过度过度防御，c 提供上下文知识很容易打破安全护栏，使模型更容易产生不安全的响应。

Evaluation is all you need. Prompting Generative Large Language Models for Annotation Tasks in the Social Sciences. A Primer using Open Models
Authors Maximilian Weber, Merle Reichardt
本文探讨了开放式生成大型语言模型法学硕士在社会科学注释任务中的使用。该研究强调了与专有模型相关的挑战，例如有限的可重复性和隐私问题，并提倡采用可以在独立设备上运行的开源模型。提供了两个注释任务的示例，推文中的情感分析和童年愿望论文中的休闲活动识别。该研究评估了不同提示策略和模型神经聊天 7b v3 2、Starling LM 7B alpha、openchat 3.5、zephyr 7b alpha 和 zephyr 7b beta 的性能。结果表明需要仔细验证和量身定制的提示工程。

Boosting Large Language Model for Speech Synthesis: An Empirical Study
Authors Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
大型语言模型法学硕士在自然语言处理方面取得了重大进展，同时将语言能力扩展到其他模式，例如语音和视觉。然而，之前的大部分工作都集中在培养法学硕士的听觉理解等感知能力，而增强法学硕士语音合成能力的有效方法仍然不明确。在本文中，我们通过结合预训练的LLM LLaMA OPT和文本到语音合成模型VALL E，对提升LLM生成语音的能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法，包括直接微调 LLM、LLM 和 VALL E 的叠加层，以及使用 LLM 作为强大的文本编码器耦合 LLM 和 VALL E。实验结果表明，直接使用LoRA方法微调LLM来提升语音合成能力的效果并不理想，而叠加LLM和VALL E可以在说话人相似度和误词率WER两方面提高生成语音的质量。

How to Evaluate Coreference in Literary Texts?
Authors Ana Isabel Duron Tejedor, Pascal Amsili, Thierry Poibeau
在这篇简短的论文中，我们研究了用于评估文本共指的主要指标，并详细说明了它们的一些局限性。我们表明，独特的分数不能代表所涉问题的全部复杂性，因此缺乏信息，甚至具有误导性。我们提出了一种评估共指的新方法，考虑到我们案例的背景，即对虚构作品的分析，尤其是。小说。更具体地说，我们建议区分与主要人物相对应的长共指链、与次要人物相对应的短共指链以及单例孤立元素。

The Problem of Alignment
Authors Tsvetelina Hristova, Liam Magee, Karen Soldatic
大型语言模型产生从大型语料库中作为统计模式学习的序列。为了不重现语料库偏差，初始训练模型必须与人类价值观保持一致，优先选择某些延续而不是其他延续。一致性可以被视为规范结构在统计模型上的叠加，揭示了语言和技术之间冲突且复杂的相互关系。这种关系塑造了语言、语言实践和主观性的理论，这些理论与当前人工生成文本的复杂性尤其相关。我们通过分析 ChatGPT4 如何编辑乔伊斯的《尤利西斯》片段中感知到的异常语言以及即时工程的新语言实践，将这种结构化实践视为用户和模型之间的双向交互。然后，我们从历史上定位这个对齐问题，重新审视战后早期的语言辩论，这些辩论对立了离散结构和连续概率分布的两种意义观点。我们讨论了莫斯科语言学校的大部分闭塞工作，该学校试图调和这种对立。我们对莫斯科学派以及后来塞尔和克里斯蒂娃的相关论点的关注，以一种新的视角看待对齐问题，因为它涉及到对语言实践的社会结构的关注，包括异常的结构，就像乔伊斯的文本一样，这些异常的结构存在于对表达约定。

Principle Interference in Technical and Scientific Translation
Authors Mohammad Ibrahim Qani
在本文中，我将采用描述主义方法探讨翻译中干扰的本质，尤其是技术和科学文本中的干扰。我将简要概述技术和科学翻译中干扰的历史之旅。我的目的是解释这种现象及其原因及其所有悖论，而不是简单地谴责它作为所谓的糟糕翻译的例子。因此，我将重点讨论其在翻译参考书目中的地位、干扰专业翻译的动机和后果，以及支持和反对这种现象的论据的性质。因此，不同社会之间的关系始终是通过翻译行为得以实现的。纵观历史，不同社会之间的知识传播都是通过翻译来实现的。这些社会常常通过翻译意识到技术和科学的进步。因此，翻译在社会和人类之间的技术接触中变得非常重要。

L3Cube-MahaSocialNER: A Social Media based Marathi NER Dataset and BERT models
Authors Harsh Chaudhari, Anuja Patil, Dhanashree Lavekar, Pranav Khairnar, Raviraj Joshi
这项工作介绍了 L3Cube MahaSocialNER 数据集，这是第一个也是最大的专门为马拉地语命名实体识别 NER 设计的社交媒体数据集。该数据集包含 18,000 个手动标记的句子，涵盖八个实体类，解决了社交媒体数据带来的挑战，包括非标准语言和非正式习语。深度学习模型（包括 CNN、LSTM、BiLSTM 和 Transformer 模型）在具有 IOB 和非 IOB 符号的单个数据集上进行评估。结果证明了这些模型在准确识别马拉地语非正式文本中命名实体方面的有效性。 L3Cube MahaSocialNER 数据集提供以用户为中心的信息提取并支持实时应用，为社交媒体平台上的舆情分析、新闻和营销提供宝贵的资源。我们还表明，常规 NER 模型的零样本结果在社交 NER 测试集上很差，因此凸显了对更多社交 NER 数据集的需求。

Mitigating the Impact of False Negatives in Dense Retrieval with Contrastive Confidence Regularization
Authors Shiqi Wang, Yeqin Zhang, Cam Tu Nguyen
在开放域问答 QA 中，密集检索对于查找生成答案的相关段落至关重要。通常，对比学习用于训练将段落和查询映射到同一语义空间的检索模型。目的是让相似的更近，让不同的更远。然而，由于假阴性问题，训练这样的系统具有挑战性，在数据注释过程中可能会错过相关段落。硬负采样通常用于改进对比学习，但会在训练中引入更多噪声。这是因为硬负例是那些更接近给定查询的负例，因此更有可能是假负例。为了解决这个问题，我们提出了一种新颖的对比置信正则化器，用于噪声对比估计 NCE 损失，这是密集检索的常用损失。我们的分析表明，正则化器可以在理论上保证密集检索模型对假阴性的鲁棒性。此外，我们提出了一种与模型无关的方法来过滤数据集中的噪声负面段落，从而改进任何下游密集检索模型。

ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained Language Models for Question Answering over Knowledge Graph
Authors Jinhao Jiang, Kun Zhou, Wayne Xin Zhao, Yaliang Li, Ji Rong Wen
知识图谱问答KGQA旨在从大规模知识图谱知识图谱中寻找自然语言问题的答案实体。为了更好地对 KG 进行推理，最近的工作通常采用预训练的语言模型 PLM 来对问题进行建模，并采用基于图神经网络 GNN 的模块对 KG 进行多跳推理。尽管有效，但由于模型架构的差异，PLM 和 GNN 并未紧密集成，限制了知识共享和细粒度特征交互。为了解决这个问题，我们的目标是简化上述两个模块方法，并开发一个更强大的PLM，可以直接支持KGQA的子图推理，即ReasoningLM。在我们的方法中，我们提出了一种子图感知自注意力机制来模仿 GNN 来执行结构化推理，并采用自适应调整策略来调整模型参数，其中包含 20,000 个带有合成问题的子图。适应后，PLM 可以对下游任务进行参数高效的微调。实验表明，即使更新参数和训练数据较少，ReasoningLM 仍大幅超越了最先进的模型。

Automatic Essay Scoring in a Brazilian Scenario
Authors Felipe Akio Matsuoka
本文提出了一种新颖的自动作文评分 AES 算法，专为巴西国家考试葡萄牙语作文量身定制，解决了传统人工评分系统中的挑战。我们的方法利用先进的深度学习技术，与人类评分标准紧密结合，以评估大量学生论文的效率和可扩展性为目标。

Graph-Convolutional Autoencoder Ensembles for the Humanities, Illustrated with a Study of the American Slave Trade
Authors Tom Lippincott
我们引入了一个图形感知自动编码器集成框架，以及相关的形式和工具，旨在促进人文学科学术的深度学习。通过组合子架构来生成与人文领域同构的模型，我们在保持可解释性的同时为每个子架构选择提供功能签名，从而允许传统和计算研究人员在不破坏既定实践的情况下进行协作。我们展示了我们的方法在美国后大西洋奴隶贸易历史研究中的实际应用，并做出了一些具体的技术贡献：新颖的混合图卷积自动编码器机制、常见图拓扑的批处理策略以及特定用例的屏蔽技术。越来越多的两打研究证明了该框架扩大不同领域参与的有效性，其中包括与人文学者的合作以及机器学习文献中确定的任务，涵盖各种领域和数据模式。

SecFormer: Towards Fast and Accurate Privacy-Preserving Inference for Large Language Models
Authors Jinglong Luo, Yehong Zhang, Jiaqi Zhang, Xin Mu, Hui Wang, Yue Yu, Zenglin Xu
随着越来越多地使用云平台上托管的大型语言模型来提供推理服务，隐私问题不断升级，尤其是投资计划和银行账户详细信息等敏感数据。安全多方计算 SMPC 是保护推理数据和模型参数隐私的一种有前景的解决方案。然而，SMPC 在大型语言模型的隐私保护推理 PPI 中的应用，尤其是基于 Transformer 架构的模型，往往会导致性能显着下降或下降。这很大程度上是由于 Transformer 架构中存在大量非线性操作，这些操作不太适合 SMPC，并且难以有效规避或优化。为了解决这个问题，我们引入了一种名为 SecFormer 的高级优化框架，旨在在 Transformer 模型的 PPI 性能和效率之间取得最佳平衡。通过实施知识蒸馏技术，我们成功消除了 PPI 中的高成本指数和最大操作，而无需牺牲模型性能。此外，我们还开发了一套高效的 SMPC 协议，利用分段多项式和 Goldschmidt 方法来处理 PPI 中的其他复杂非线性函数，例如 GeLU、LayerNorm 和 Softmax。我们广泛的实验表明，SecFormer 在性能上优于 MPCFormer，BERT 文本 BASE 和 BERT 文本 LARGE 分别提高了 5.6 和 24.2。

New Job, New Gender? Measuring the Social Bias in Image Generation Models
Authors Wenxuan Wang, Haonan Bai, Jen tse Huang, Yuxuan Wan, Youliang Yuan, Haoyi Qiu, Nanyun Peng, Michael R. Lyu
图像生成模型可以根据给定文本生成或编辑图像。以 DALL E 和 Midjourney 为代表的图像生成技术的最新进展是突破性的。这些先进的模型尽管具有令人印象深刻的能力，但通常是在大量互联网数据集上进行训练的，这使得它们很容易生成延续社会刻板印象和偏见的内容，这可能会导致严重的后果。先前关于评估图像生成模型中的偏差的研究存在一些缺点，包括准确性有限、依赖大量的人力以及缺乏全面的分析。在本文中，我们提出了 BiasPainter，一种新颖的变质测试框架，可以准确、自动、全面地触发图像生成模型中的社会偏见。 BiasPainter 使用各种个人种子图像，并提示图像生成模型使用性别、种族和年龄中性查询来编辑这些图像。这些查询涵盖 62 个职业、39 种活动、57 种对象和 70 种人格特质。然后，该框架将编辑后的图像与原始种子图像进行比较，重点关注与性别、种族和年龄相关的任何变化。 BiasPainter 采用了一个测试预言，即在受到中性提示时这些特性不应被修改。基于此设计，BiasPainter 可以触发社会偏见并评估图像生成模型的公平性。为了评估 BiasPainter 的有效性，我们使用 BiasPainter 测试了稳定扩散和 Midjourney 等五种广泛使用的商业图像生成软件和模型。

The Earth is Flat? Unveiling Factual Errors in Large Language Models
Authors Wenxuan Wang, Juluan Shi, Zhaopeng Tu, Youliang Yuan, Jen tse Huang, Wenxiang Jiao, Michael R. Lyu
ChatGPT 等大型语言模型法学硕士因其预训练和微调方面的丰富知识而成为各种应用程序的基础。尽管如此，它们很容易产生事实和常识性错误，引发医疗保健、新闻和教育等关键领域的担忧，从而误导用户。目前评估法学硕士准确性的方法受到测试数据泄漏或需要大量人力的限制，阻碍了高效和准确的错误检测。为了解决这个问题，我们引入了一种新颖的自动测试框架 FactChecker，旨在发现法学硕士中的事实错误。该框架涉及三个主要步骤首先，它通过从大规模知识数据库中检索事实三元组来构建事实知识图。然后，利用知识图，FactChecker 采用基于规则的方法生成三种类型的问题：是否、多项选择和涉及单跳和多跳关系的 WH 问题以及正确答案。最后，它使用针对每种问题类型量身定制的匹配策略来评估法学硕士回答的准确性。我们对六个著名的 LLM（包括 text davinci 002、text davinci 003、ChatGPT gpt 3.5 Turbo、gpt 4、Vicuna 和 LLaMA 2）进行了广泛的测试，结果表明 FactChecker 可以在这些模型中的多达 45 个问题中触发事实错误。此外，我们证明 FactChecker 的测试用例可以通过上下文学习和微调来提高 LLM 的事实准确性，例如 llama 2 13b 聊天的准确性从 35.3 增加到 68.5 。

A & B == B & A: Triggering Logical Reasoning Failures in Large Language Models
Authors Yuxuan Wan, Wenxuan Wang, Yiliu Yang, Youliang Yuan, Jen tse Huang, Pinjia He, Wenxiang Jiao, Michael R. Lyu
大型语言模型法学硕士的最新进展将人工智能 AI 推向了新的高度，在写作辅助、代码生成和机器翻译等各种任务上取得了突破。高级法学硕士（例如 ChatGPT）的一个显着区别是他们表现出的推理能力。然而，评估法学硕士的推理能力仍然是一个挑战，因为大多数现有评估侧重于其对下游任务的准确性，而不是直接评估其推理过程。人们已经努力制定基准和指标来评估法学硕士的推理，但它们面临数据泄漏或范围有限的问题。在本文中，我们介绍了LogicAsker，这是一种自动方法，可以在一套基于命题和谓词逻辑的原子推理技能下，全面评估和提高法学硕士的逻辑推理能力。结果提供了对法学硕士推理能力的深入了解，并揭示了法学硕士没有学好的逻辑规则。我们在六种广泛部署的 LLM 上评估 LogicAsker，包括 GPT 3、ChatGPT、GPT 4、Bard、Vicuna 和guanaco。结果表明，LogicAsker 的测试用例可以发现不同 LLM 中的逻辑推理失败，率为 25 94 。此外，LogicAsker的测试用例还可以进一步用于设计情景学习的演示实例，有效提高LLM的逻辑推理能力，例如GPT 4为10。据我们所知，我们的工作是第一个根据测试结果创建提示，有效提高法学硕士的形式推理能力。

Digger: Detecting Copyright Content Mis-usage in Large Language Model Training
Authors Haodong Li, Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu, Guoai Xu, Guosheng Xu, Haoyu Wang
预训练利用广泛且多样的数据集，是大型语言模型法学硕士在众多应用程序中取得成功的关键因素。然而，这些数据集的详细组成通常不会公开，导致人们担心数据安全和潜在的滥用。

Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws
Authors Nikhil Sardana, Jonathan Frankle
大型语言模型 LLM 缩放法则是经验公式，用于估计由于参数数量和训练数据增加而导致的模型质量变化。然而，这些公式，包括流行的 DeepMind Chinchilla 缩放法则，忽略了推理成本。我们修改 Chinchilla 缩放法则来计算最佳 LLM 参数计数和预训练数据大小，以训练和部署给定质量和推理需求的模型。

Investigating Zero-Shot Generalizability on Mandarin-English Code-Switched ASR and Speech-to-text Translation of Recent Foundation Models with Self-Supervision and Weak Supervision
Authors Chih Kai Yang, Kuan Po Huang, Ke Han Lu, Chun Yi Kuan, Chi Yuan Hsiao, Hung yi Lee
这项工作在三个代码交换语料库上评估了几种基于自监督或弱监督的前沿大规模基础模型，包括 SeamlessM4T、SeamlessM4T v2 和 Whisper Large v3。我们发现自监督模型可以达到接近监督模型的性能，表明多语言自监督预训练的有效性。我们还观察到，这些模型仍然有改进的空间，因为它们不断犯类似的错误，并且在建模句子内代码切换方面的表现并不令人满意。

Is Knowledge All Large Language Models Needed for Causal Reasoning?
Authors Hengrui Cai, Shengjie Liu, Rui Song
本文探讨了大型语言模型法学硕士的因果推理，以增强其在推进人工智能方面的可解释性和可靠性。尽管法学硕士精通一系列任务，但他们理解因果关系的潜力还需要进一步探索。我们提出了一种新颖的因果归因模型，利用 do 运算符构建反事实场景，使我们能够系统地量化输入数值数据和法学硕士现有知识对其因果推理过程的影响。我们新开发的实验装置评估法学硕士对各个领域的背景信息和固有知识的依赖。我们的评估表明，法学硕士的因果推理能力取决于所提供的背景和特定领域的知识，并支持这样的论点：知识确实是法学硕士进行合理因果推理的主要要求。

ChatEd: A Chatbot Leveraging ChatGPT for an Enhanced Learning Experience in Higher Education
Authors Kevin Wang, Jason Ramos, Ramon Lawrence
随着自然语言处理 NLP 的快速发展，像 ChatGPT 这样的大型语言模型法学硕士已经成为能够改变各个领域的强大工具。他们庞大的知识库和动态交互能力代表了通过作为个性化助手来改善教育的巨大潜力。然而，在教育环境中部署法学硕士时，产生错误、有偏见或无益答案的可能性是需要解决的关键挑战。这项工作引入了一种创新架构，将 ChatGPT 的优势与基于传统信息检索的聊天机器人框架相结合，为高等教育中的学生提供增强的支持。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com