【AI视野·今日NLP 自然语言处理论文速览第四十七期】Wed, 4 Oct 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Wed, 4 Oct 2023
Totally 73 papers
👉上期速览✈更多精彩请移步主页

Daily Computation and Language Papers

Contrastive Post-training Large Language Models on Data Curriculum
Authors Canwen Xu, Corby Rosset, Luciano Del Corro, Shweti Mahajan, Julian McAuley, Jennifer Neville, Ahmed Hassan Awadallah, Nikhil Rao
对齐是引导大型语言模型法学硕士迎合人类偏好的重要一步。在本文中，我们通过从不同强度的多个模型（例如 InstructGPT、ChatGPT 和 GPT 4）自动构建偏好对来探索用于对齐的对比后训练技术。我们仔细比较了 SLiC 和 DPO 与 SFT 基线的对比技术，发现即使在 SFT 持续饱和之后，DPO 也提供了阶跃函数改进。我们还探索了一种用于对比后训练的数据课程学习方案，该方案首先从较容易的配对中学习，然后过渡到较难的配对，从而进一步提高一致性。最后，我们扩大了实验规模，使用更多数据和更大的模型（例如 Orca）进行训练。

Harnessing Pre-Trained Sentence Transformers for Offensive Language Detection in Indian Languages
Authors Ananya Joshi, Raviraj Joshi
在我们日益互联的数字世界中，社交媒体平台已成为传播仇恨言论和攻击性内容的强大渠道。这项工作深入研究了仇恨言论检测领域，特别重点关注三种资源匮乏的印度语言孟加拉语、阿萨姆语和古吉拉特语。该挑战被定义为文本分类任务，旨在辨别推文是否包含攻击性内容或非攻击性内容。利用 HASOC 2023 数据集，我们对预训练的 BERT 和 SBERT 模型进行了微调，以评估它们在识别仇恨言论方面的有效性。我们的研究结果强调了单语句子 BERT 模型的优越性，特别是在孟加拉语中，我们获得了最高排名。然而，阿萨姆语和古吉拉特语的表现意味着持续的增强机会。

Who's Harry Potter? Approximate Unlearning in LLMs
Authors Ronen Eldan, Mark Russinovich
大型语言模型法学硕士接受过大量互联网语料库的培训，这些语料库通常包含受版权保护的内容。这给这些模型的开发者和用户以及原始作者和出版商带来了法律和道德挑战。

Automatic Quality Assessment of Wikipedia Articles -- A Systematic Literature Review
Authors Pedro Miguel Mo s, Carla Teixeira Lopes
维基百科是世界上最大的在线百科全书，但通过协作保持文章质量具有挑战性。维基百科设计了一个质量量表，但由于这样的手动评估过程，许多文章仍然未经评估。我们回顾了自动测量维基百科文章质量的现有方法，识别和比较机器学习算法、文章特征、质量指标和使用的数据集，检查 149 项不同的研究，并探索它们的共性和差距。文献非常广泛，并且这些方法遵循过去的技术趋势。

Extraction of Medication and Temporal Relation from Clinical Text by Harnessing Different Deep Learning Models
Authors Hangyu Tu, Lifeng Han, Goran Nenadic
以电子病历EMR为代表的临床文本包含丰富的医疗信息，对于疾病预测、个性化信息推荐、临床决策支持以及用药模式挖掘和测量至关重要。药物提及和时间信息之间的关系提取可以进一步帮助临床医生更好地了解患者的治疗史。为了评估深度学习 DL 和大型语言模型 LLM 在药物提取和时间关系分类中的性能，我们使用 BiLSTM CRF 和 CNN BiLSTM 等多种先进学习结构对 textbf MedTem 项目进行了实证研究，用于名为实体识别 NER 的临床领域，以及用于时间关系提取 RE 的 BERT CNN，此外还探索了不同的词嵌入技术。此外，我们还设计了一组后处理角色来生成药物和时间关系的结构化输出。我们的实验表明，在 i2b2 2009 临床 NER 任务中，CNN BiLSTM 略微胜过 BiLSTM CRF 模型，使用 Macro Average 获得准确率、召回率和 F1 分数分别为 75.67、77.83 和 78.17。 BERT CNN 模型还使用 Macro Avg 在 i2b2 2012 挑战赛的时间关系提取测试集上为 P R F1 生成了合理的评估分数 64.48、67.17 和 65.03。

Think before you speak: Training Language Models With Pause Tokens
Authors Sachin Goyal, Ziwei Ji, Ankit Singh Rawat, Aditya Krishna Menon, Sanjiv Kumar, Vaishnavh Nagarajan
语言模型通过立即连续地生成一系列标记来生成响应，第 K 个标记是每层操作 K 个隐藏向量的结果，每个前面的标记一个向量。相反，如果我们让模型在输出第 K 1 个标记之前操纵 K 10 个隐藏向量，我们可以通过使用可学习的 textit 暂停标记对语言模型进行训练和推理来操作这个想法，并附加一个序列到输入前缀。然后，我们延迟提取模型的输出，直到看到最后一个暂停标记，从而允许模型在提交答案之前处理额外的计算。我们根据经验评估了仅在 1B 和 130M 参数的解码器模型上进行的 textit 暂停训练，并在 C4 上进行了因果预训练，以及涵盖推理、问答、一般理解和事实回忆的下游任务。我们的主要发现是，当模型经过预训练和延迟微调时，推理时间延迟会有所增加。对于 1B 模型，我们看到 9 项任务中的 8 项取得了进步，最突出的是，在 SQuAD 的 QA 任务上获得了 18 的 EM 分数，在 CommonSenseQA 上获得了 8 分，在 GSM8k 的推理任务上获得了 1 的准确度。

Can Language Models be Instructed to Protect Personal Information?
Authors Yang Chen, Ethan Mendes, Sauvik Das, Wei Xu, Alan Ritter
事实证明，大型多模态语言模型在众多应用中具有变革性。然而，这些模型已被证明会记忆和泄露预训练数据，引发严重的用户隐私和信息安全问题。虽然应该防止数据泄露，但检查所提出方法的隐私保护和模型效用之间的权衡也至关重要。在本文中，我们引入了 PrivQA 多模式基准，用于在指示模型在模拟场景中保护特定类别的个人信息时评估这种隐私效用权衡。我们还提出了一种迭代自我调节响应的技术，这显着提高了隐私性。然而，通过一系列红队实验，我们发现对手也可以通过文本和/或图像输入的简单越狱方法轻松绕过这些保护。我们相信 PrivQA 有潜力支持开发具有改进的隐私保护以及这些保护的对抗稳健性的新模型。

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement
Authors Qiming Xie, Zengzhi Wang, Yi Feng, Rui Xia
随着像 ChatGPT 这样的生成式会话大语言模型法学硕士的出现，作为各个领域的虚拟助手，他们的反应的稳定性和可靠性变得至关重要。然而，在使用过程中，人们发现，当用户提出怀疑或不同意的后续问题时，这些模型的判断往往会动摇。在这项工作中，我们从教育中的提问策略中汲取灵感，提出了一个文本后续提问机制以及两个评估指标来评估法学硕士在遭受干扰之前和之后的判断一致性。我们在八个推理基准上评估了该机制下 ChatGPT、PaLM2 Bison 和 Vicuna 13B 的判断一致性。实证结果表明，即使最初的答案是正确的，当法学硕士面临质疑、否定或误导等干扰时，判断一致性也会急剧下降。此外，我们研究了这些模型在不同设置采样温度和提示下的判断一致性，以进一步验证这个问题，观察提示语气的影响并进行深入的错误分析以获得更深入的行为洞察。

Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization
Authors Zijun Liu, Yanzhe Zhang, Peng Li, Yang Liu, Diyi Yang
大型语言模型 LLM 代理已被证明在广泛的任务中有效，并且通过集成多个 LLM 代理，它们的性能可以进一步提高。现有的方法采用一组固定的代理在静态架构中相互交互，这限制了它们对各种任务的通用性，并且在设计这些代理时需要强大的人类先验能力。在这项工作中，我们建议构建一个基于任务查询的动态交互架构中进行通信的战略代理团队。具体来说，我们构建了一个名为 Dynamic LLM Agent Network textbf DyLAN 的框架，用于在推理和代码生成等复杂任务上进行 LLM 代理协作。 DyLAN 使代理能够在动态架构中进行多轮交互，并具有推理时间代理选择和提前停止机制，以提高性能和效率。我们进一步设计了一种基于名为 textit Agent Importance Score 的无监督指标的自动代理团队优化算法，从而能够根据每个代理所做的贡献来选择最佳代理。根据经验，我们证明 DyLAN 在推理和代码生成任务中表现良好，计算成本合理。与 GPT 35 Turbo 上的单次执行相比，DyLAN 在 MATH 和 HumanEval 上分别实现了 13.0 和 13.3 的改进。

Editing Personality for LLMs
Authors Shengyu Mao, Ningyu Zhang, Xiaohan Wang, Mengru Wang, Yunzhi Yao, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
本文介绍了一项创新任务，重点是编辑大型语言模型法学硕士的个性特征。该任务旨在调整模型对特定主题的意见相关问题的响应，因为个人的个性通常以他们表达的意见的形式表现出来，从而展示不同的个性特征。具体来说，我们构建了一个新的基准数据集 PersonalityEdit 来解决此任务。借鉴社会心理学的理论，我们分离出三个代表性特征，即神经质、外向性和宜人性，作为我们基准的基础。然后，我们使用 GPT 4 收集数据，生成的响应不仅与特定主题一致，而且体现了目标人格特质。我们进行了涉及各种基线的综合实验，并讨论了法学硕士中人格行为的表征。我们有趣的发现揭示了拟议任务的潜在挑战，并说明了几个遗留问题。我们预计我们的工作可以为 NLP 社区提供见解。

Large Language Models Meet Knowledge Graphs to Answer Factoid Questions
Authors Mikhail Salnikov, Hai Le, Prateek Rajput, Irina Nikishina, Pavel Braslavski, Valentin Malykh, Alexander Panchenko
最近，研究表明，将结构化知识纳入大型语言模型可以显着提高各种 NLP 任务的结果。在本文中，我们提出了一种探索预先训练的文本到文本语言模型的方法，该模型富含来自知识图谱的附加信息，用于回答事实问题。更具体地说，我们提出了一种基于问题实体和候选答案从知识图中提取子图的算法。然后，我们通过提取的子图的线性化，使用基于 Transformer 的模型获取易于解释的信息。

Unveiling the Pitfalls of Knowledge Editing for Large Language Models
Authors Zhoubo Li, Ningyu Zhang, Yunzhi Yao, Mengru Wang, Xi Chen, Huajun Chen
随着微调大型语言模型法学硕士相关的成本持续上升，最近的研究工作已转向开发方法来编辑法学硕士中嵌入的隐性知识。然而，知识编辑是否会引发蝴蝶效应仍是一个乌云，因为目前尚不清楚知识编辑是否会带来潜在风险的副作用。本文开创了对法学硕士知识编辑相关潜在陷阱的调查。为了实现这一目标，我们引入了新的基准数据集并提出了创新的评估指标。我们的结果强调了两个关键问题： 1 知识冲突编辑逻辑上冲突的事实组可能会放大法学硕士固有的不一致之处，这是以前的方法所忽视的一个方面。 2 知识扭曲以编辑事实知识为目的而改变参数可能会不可挽回地扭曲法学硕士固有的知识结构。实验结果生动地表明，知识编辑可能会无意中给法学硕士带来意想不到的后果，值得未来工作的关注和努力。

Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View
Authors Jintian Zhang, Xin Xu, Shumin Deng
随着自然语言处理 NLP 系统越来越多地应用于复杂的社会环境中，一个紧迫的问题出现了：在由多个大型语言模型组成的多智能体社会中，这些 NLP 系统能否反映人类式的协作智能？法学硕士本文探讨了当代 NLP 系统之间的协作机制通过将实践实验与理论见解相结合。我们构建了四个由法学硕士代理人组成的独特社团，其中每个代理人都具有随和或过度自信的特定特征，并以独特的思维模式辩论或反思进行合作。通过在三个基准数据集上评估这些多智能体社会，我们发现 LLM 智能体通过利用不同的社会行为（从积极辩论到内省反思）来导航任务。值得注意的是，某些协作策略不仅使用更少的 API 令牌来优化效率，而且还超越了以前的顶级方法。此外，我们的结果进一步表明，法学硕士代理人表现出类似人类的社会行为，例如从众或多数决定，反映了基本的社会心理学理论。总之，我们整合了社会心理学的见解，将法学硕士代理人的合作情境化，激发了对法学硕士合作机制的进一步研究。

TWIZ: The Wizard of Multimodal Conversational-Stimulus
Authors Rafael Ferreira, Diogo Tavares, Diogo Silva, Rodrigo Val rio, Jo o Bordalo, In s Sim es, Vasco Ramos, David Semedo, Jo o Magalh es
在本报告中，我们描述了任务向导团队 TWIZ 在 2022 年 Alexa 奖 TaskBot 挑战赛中的愿景、挑战和科学贡献。我们的愿景是将 TWIZ 机器人打造成一个有用的、多模式的、知识渊博的、有吸引力的助手，可以指导用户成功完成复杂的手动任务。为了实现这一目标，我们将精力集中在三个主要研究问题上：1 人性化对话，通过以知识丰富的方式提供信息；2 多模态刺激，利用包括语音、图像和视频在内的各种模态；3 零样本对话流，以改进交互对未见过的场景的鲁棒性。 TWIZ 是一款能够支持广泛任务的助手，具有多种创新功能，例如创意烹饪、通过语音进行视频导航，以及强大的 TWIZ LLM（一种经过训练用于复杂手动任务对话的大型语言模型）。

Instance Needs More Care: Rewriting Prompts for Instances Yields Better Zero-Shot Performance
Authors Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao
使大型语言模型法学硕士能够以零镜头执行任务一直是一个有吸引力的目标，因为它节省了劳动力，即不需要任务特定的注释，零镜头提示方法也享有更好的任务泛化性。为了提高法学硕士的零样本表现，之前的工作重点是设计更有效的任务指令，例如，让我们一步一步思考。然而，我们认为，为了让法学硕士能够在零射击中正确解决这些问题，单个测试实例需要更仔细设计和定制的指令。为此，我们提出了PRoMPTd，一种重写每个单独测试输入的任务提示的方法，使其更加具体、明确和完整，从而为任务LLM提供更好的指导。我们使用 GPT 4 作为任务 LLM，在涵盖算术、逻辑推理和代码生成等任务的八个数据集上评估了 PROMPTd。值得注意的是，algoname 在复杂的 MATH 数据集上实现了约 10 的绝对改进，在 HumanEval 上的代码生成任务上实现了 5 左右的绝对改进，优于传统的零样本方法。此外，我们还表明，重写的提示可以为 LLM 如何解析每个测试实例提供更好的可解释性，这可以用作针对对抗性提示的防御机制。

Controlling Topic-Focus Articulation in Meaning-to-Text Generation using Graph Neural Networks
Authors Chunliu Wang, Rik van Noord, Johan Bos
裸露的含义表示可以使用自然语言以多种方式表达，具体取决于信息在表面级别上的结构方式。我们有兴趣在根据含义生成文本时找到控制主题焦点清晰度的方法。我们专注于区分及物动词句子的主动语态和被动语态。这个想法是将诸如主题之类的实用信息添加到含义表示中，从而在提供给自然语言生成系统时强制使用主动语态或被动语态。我们使用图神经模型，因为在图表示的含义中没有关于词序的明确信息。我们尝试了三种不同的主题聚焦清晰度 TFA 方法，采用图神经模型来执行文本生成任务的含义。我们提出了一种关于图神经模型中节点聚合的新颖编码策略，该策略不是通过聚合相邻节点信息的传统编码，而是通过使用深度优先搜索来学习节点表示。结果表明，我们的方法可以在一般文本生成方面获得与最先进的图形模型竞争的性能，并且与传统的基于邻接的聚合策略相比，可以显着改进主动被动转换任务。

Tuning Large language model for End-to-end Speech Translation
Authors Hao Zhang, Nianwen Si, Yaqi Chen, Wenlin Zhang, Xukui Yang, Dan Qu, Xiaolin Jiao
随着大型语言模型LLM的出现，基于LLM的多模态模型展现出了巨大的潜力。 LLaSM、X LLM 和 SpeechGPT 等模型表现出令人印象深刻的理解和生成人类指令的能力。然而，当面对诸如端到端语音翻译 E2E ST（跨语言和跨模式翻译任务）等复杂任务时，它们的性能往往会出现问题。与单模态模型相比，多模态模型在这些场景中落后。本文介绍了 LST，这是一种大型多模态模型，旨在出色地完成 E2E ST 任务。 LST 由语音前端、适配器和 LLM 后端组成。 LST 的训练由两个阶段组成：1 模态调整，其中适配器被调整为将语音表示与文本嵌入空间对齐；2 下游任务微调，其中适配器和 LLM 模型都被训练以优化 E2EST 任务的性能。 MuST C 语音翻译基准测试的实验结果表明，LST 13B 在 En De En Fr En Es 语言对上取得了 30.39 41.55 35.33 的 BLEU 分数，超越了之前的模型并建立了新的最先进水平。此外，我们对单模态模型选择和训练策略的影响进行了深入分析，为未来的研究奠定了基础。

Jury: A Comprehensive Evaluation Toolkit
Authors Devrim Cavusoglu, Ulas Sert, Secil Sen, Sinan Altinuc
评估作为任何基于预测的系统的基本模块，在深度学习中发挥着至关重要的作用。然而，大量的自然语言处理 NLP 任务和各种指标的发展给使用不同指标评估不同系统带来了挑战。为了应对这些挑战，我们引入了陪审团，这是一个工具包，它提供了具有标准化结构的统一评估框架，用于跨不同任务和指标进行评估。评审团的目标是标准化和改进所有系统的指标评估，并帮助社区克服评估中的挑战。

OceanGPT: A Large Language Model for Ocean Science Tasks
Authors Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Guozhou Zheng, Huajun Chen
鉴于海洋覆盖了地球 70 多个表面，海洋科学深入研究作为生命和生物多样性宝库的海洋，具有重要意义。最近，大型语言模型法学硕士的进步改变了科学范式。尽管在其他领域取得了成功，但目前的法学硕士往往无法满足海洋学家等领域专家的需求，而且法学硕士在海洋科学方面的潜力尚未得到探索。其内在原因可能是海洋数据的巨大性和复杂性以及对更高粒度和丰富知识的需求。为了缓解这些问题，我们引入了OceanGPT，这是海洋领域第一个法学硕士，它是各种海洋科学任务的专家。我们提出了DoInstruct，一种自动获取大量海洋领域指令数据的新颖框架，它基于多智能体协作生成指令。此外，我们构建了第一个海洋学基准OceanBench，以评估法学硕士在海洋领域的能力。通过综合实验，OceanGPT不仅表现出了较高水平的海洋科学任务知识专长，而且初步获得了海洋技术的体现智能能力。

Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward Reasoning in Math Word Problems
Authors Aniruddha Deb, Neeva Oza, Sarthak Singla, Dinesh Khandelwal, Dinesh Garg, Parag Singla
虽然前向推理，即找到给定问题的答案，在最近的文献中已经得到了广泛的探索，但后向推理相对来说还没有被探索过。

Language Models as Knowledge Bases for Visual Word Sense Disambiguation
Authors Anastasia Kritharoula, Maria Lymperaiou, Giorgos Stamou
视觉词义消歧 VWSD 是一项介于语言意义消歧和细粒度多模态检索之间的新颖的挑战性任务。视觉语言 VL 变压器开发的最新进展表明，一些自我实现取得了令人鼓舞的结果，但我们认为还可以进一步改进。为此，我们提出了一些知识增强技术，通过使用大型语言模型 LLM 作为知识库来提高 VL 转换器的检索性能。更具体地说，法学硕士中存储的知识是在适当提示的帮助下以零样本方式检索的，从而实现了性能提升。此外，我们通过将生成的图像标题视为多项选择候选答案，将 VWSD 转换为纯文本问答 QA 问题。利用零样本和少样本提示策略来探索这种转变的潜力，而零样本设置中的思想链 CoT 提示能够揭示法学硕士选择合适候选人所遵循的内部推理步骤。

Navigating Cultural Chasms: Exploring and Unlocking the Cultural POV of Text-To-Image Models
Authors Mor Ventura, Eyal Ben David, Anna Korhonen, Roi Reichart
以 DALL E 和 StableDiffusion 为代表的文本到图像 TTI 模型最近因其在文本提示引导下生成图像方面卓越的零射击能力而受到关注。语言作为文化的渠道，在这些模型的多语言能力中发挥着关键作用，而多语言能力反过来又塑造了它们的文化机构。在本研究中，我们通过跨三个层次的文化维度、文化领域和文化概念来表征文化，探索 TTI 模型中嵌入的文化感知。我们提出了一套全面的评估技术，包括使用 CLIP 空间的内在评估、使用视觉问答 VQA 模型的外在评估以及人类评估，以辨别 TTI 文化认知。为了促进我们的研究，我们引入了 CulText2I 数据集，该数据集源自四种不同的 TTI 模型，涵盖十种语言。

Hierarchical Evaluation Framework: Best Practices for Human Evaluation
Authors Iva Bojic, Jessica Chen, Si Yuan Chang, Qi Chwen Ong, Shafiq Joty, Josip Car
人类评估在自然语言处理 NLP 中发挥着至关重要的作用，因为它评估已开发系统的质量和相关性，从而促进其增强。然而，自然语言处理中缺乏广泛接受的人类评估指标，阻碍了不同系统之间的公平比较和通用评估标准的建立。通过对现有人类评估指标文献的广泛分析，我们发现了 NLP 评估方法中的一些差距。这些差距成为我们开发自己的分层评估框架的动力。所提出的框架具有显着的优势，特别是在提供 NLP 系统性能的更全面的表示方面。我们应用这个框架来评估开发的机器阅读理解系统，该系统在人类人工智能共生模型中使用。结果强调了投入和产出质量之间的关联，强调了评估这两个组成部分而不是仅仅关注产出的必要性。

Ring Attention with Blockwise Transformers for Near-Infinite Context
Authors Hao Liu, Matei Zaharia, Pieter Abbeel
Transformer 已成为许多最先进的人工智能模型的首选架构，在各种人工智能应用中展示了卓越的性能。然而，Transformers 施加的内存需求限制了它们处理长序列的能力，从而为涉及扩展序列或长期依赖性的任务带来了挑战。我们提出了一种独特的方法，即环注意力（Ring Attention），它利用自注意力的分块计算来跨多个设备分发长序列，同时将键值块的通信与分块注意力的计算重叠。通过在保持内存效率的同时处理更长的输入序列，Ring Attention 能够对序列进行训练和推理，这些序列比之前的内存高效 Transformer 的设备数倍长，从而有效地消除了各个设备施加的内存限制。

Benchmarking and Improving Generator-Validator Consistency of Language Models
Authors Xiang Lisa Li, Vaishnavi Shrivastava, Siyan Li, Tatsunori Hashimoto, Percy Liang
截至 2023 年 9 月，ChatGPT 正确回答了 7 8 和 15，但当询问 7 8 15，True 或 False 时，它会回答 False 。生成和验证答案之间的这种不一致在语言模型 LM 中很普遍，并且会削弱信任。在本文中，我们提出了一个测量生成和验证之间一致性的框架，我们称之为生成器验证器一致性，或 GV 一致性，发现即使是最先进的 LM GPT 4，也只有 76 的时间是 GV 一致的。为了提高 LM 的一致性，我们建议对 GV 一致的过滤生成器和验证器响应进行微调，并将这种方法称为一致性微调。我们发现这种方法将 Alpaca 30B 的 GV 一致性从 60 提高到 93，并且这种改进可以推断到看不见的任务和领域，例如，积极风格的 GV 一致性可以推断到看不见的风格，例如幽默。除了提高一致性之外，一致性微调还可以在不使用任何标记数据的情况下提高生成器质量和验证器准确性。

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
Authors Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao
在这项研究中，我们引入了自适应 KV 缓存压缩，这是一种即插即用的方法，可以减少大型语言模型 LLM 生成推理的内存占用。与保留所有上下文标记的键和值向量的传统 KV 缓存不同，我们进行有针对性的分析以辨别注意力模块的内在结构。基于识别的结构，我们然后以自适应方式构建 KV 缓存，驱逐注意头上的长范围上下文，强调局部上下文，丢弃以特殊标记为中心的注意头上的非特殊标记，并且仅对注意头使用标准 KV 缓存广泛关注所有代币。此外，利用轻量级注意力分析来指导自适应 KV 缓存的构建，无需资源密集型微调或重新训练即可部署 FastGen。在我们针对各种要求的实验中，FastGen 证明 GPU 内存消耗大幅减少，而生成质量损失可以忽略不计。

Large Language Models Cannot Self-Correct Reasoning Yet
Authors Jie Huang, Xinyun Chen, Swaroop Mishra, Huaixiu Steven Zheng, Adams Wei Yu, Xinying Song, Denny Zhou
大型语言模型法学硕士已成为一项突破性技术，具有跨各种应用程序的无与伦比的文本生成功能。然而，对其生成内容的准确性和适当性的担忧仍然存在。人们提出了一种当代的方法，即自我修正，作为解决这些问题的方法。在此前提下，本文批判性地研究了法学硕士中自我纠正的作用和功效，揭示了其真正的潜力和局限性。我们研究的核心是内在自我纠正的概念，即法学硕士试图仅根据其固有能力来纠正其最初的反应，而无需外部反馈的辅助。在推理方面，我们的研究表明，法学硕士很难在没有外部反馈的情况下自我纠正自己的回答，有时，他们的表现甚至可能会在自我纠正后下降。

SEA: Sparse Linear Attention with Estimated Attention Mask
Authors Heejun Lee, Jina Kim, Jeffrey Willette, Sung Ju Hwang
近年来，Transformer 架构在需要对顺序元素之间的成对关系进行建模的任务上取得了突破，就像自然语言理解中的情况一样。然而，由于注意力操作的二次复杂性，Transformers 很难处理长序列，并且之前的研究旨在通过稀疏或线性逼近注意力矩阵来降低复杂性。然而，这些方法不能直接从教师的注意力矩阵中提取知识，并且通常需要从头开始进行完全的再训练。此外，如果以前的稀疏和线性方法不能产生完整的二次注意矩阵，也可能会失去可解释性。为了应对这些挑战，我们提出带有估计注意力掩模的 SEA 稀疏线性注意力。 SEA 通过基于内核的线性注意力估计具有线性复杂度的注意力矩阵，然后使用前 k 个选择创建全注意力矩阵的稀疏近似以执行稀疏注意力操作。对于语言建模任务 Wikitext2，之前的线性和稀疏注意力方法显示的困惑度分数比二次 OPT 125M 基线差大约两倍，而 SEA 实现了比 OPT 125M 更好的困惑度，使用的内存大约是 OPT 125M 的一半。此外，SEA 维护了一个可解释的注意力矩阵，并且可以利用知识蒸馏来降低现有预训练 Transformer 的复杂性。

Stack Attention: Improving the Ability of Transformers to Model Hierarchical Patterns
Authors Brian DuSell, David Chiang
注意力（特别是缩放的点积注意力）已被证明对自然语言有效，但它没有处理任意嵌套深度的分层模式的机制，这限制了它识别某些句法结构的能力。为了解决这个缺点，我们提出了堆栈注意力，一种包含堆栈的注意力算子，其灵感来自于堆栈与上下文无关语言 CFL 的理论联系。我们证明堆栈注意力类似于标准注意力，但具有不需要语法监督的潜在语法模型。我们提出了两种变体，一种与确定性下推自动机 PDA 相关，另一种基于非确定性 PDA，它允许变压器识别任意 CFL。我们证明，具有堆栈注意力的 Transformer 在学习标准 Transformer 所苦苦挣扎的 CFL 方面非常有效，在具有理论上最大解析难度的 CFL 上取得了很好的结果。

Nugget: Neural Agglomerative Embeddings of Text
Authors Guanghui Qin, Benjamin Van Durme
嵌入文本序列是现代语言理解中的广泛要求。现有的方法主要关注恒定大小的表示。这是有问题的，因为文本中包含的信息量通常随输入的长度而变化。我们提出了一种名为 Nugget 的解决方案，它将语言编码为基于动态选择的输入标记子集的表示。这些金块是通过自动编码和机器翻译等任务来学习的，并直观地将语言分割成有意义的单元。我们证明 Nugget 在涉及语义比较的任务中优于相关方法。

Ensemble Distillation for Unsupervised Constituency Parsing
Authors Behzad Shayegh, Yanshuai Cao, Xiaodan Zhu, Jackie C.K. Cheung, Lili Mou
我们研究了无监督的选区解析任务，该任务将句子的单词和短语组织成层次结构，而不使用语言注释数据。我们观察到现有的无监督解析器捕获解析结构的不同方面，可以利用这些方面来增强无监督解析性能。为此，我们提出了树平均的概念，在此基础上我们进一步提出了一种用于无监督解析的新颖的集成方法。为了提高推理效率，我们进一步将集成知识提炼成学生模型，这样的集成然后蒸馏过程是缓解常见多教师蒸馏方法中存在的过度平滑问题的有效方法。

Deciphering Diagnoses: How Large Language Models Explanations Influence Clinical Decision Making
Authors D.Umerenkov, G.Zubkova, A.Nesterov
临床决策支持系统 CDSS 利用基于证据的知识和患者数据来提供实时建议，大型语言模型法学硕士正在成为一种很有前途的工具，可以为医疗决策生成纯文本解释。本研究探讨了法学硕士在根据患者投诉生成诊断解释方面的有效性和可靠性。三位经验丰富的医生对法学硕士进行了评估，对患者投诉与医生之间的联系进行了解释，并在多个阶段对模型指定的诊断进行了解释。实验结果表明，LLM 解释显着提高了医生对给定诊断的同意率，并强调了 LLM 输出中的潜在错误（范围从 5 到 30）。

A Review of Digital Learning Environments for Teaching Natural Language Processing in K-12 Education
Authors Xiaoyi Tian, Kristy Elizabeth Boyer
自然语言处理 NLP 在我们的日常生活中发挥着重要作用，并已成为 K 12 人工智能教育的重要组成部分。随着孩子们在 NLP 支持的应用程序中成长，向他们介绍 NLP 概念、培养他们对自然语言处理的理解至关重要。人工智能和自然语言处理的语言处理、语言生成以及伦理影响。本文对 K 12 中 NLP 教学的数字化学习环境进行了全面回顾。具体来说，它探讨了现有的数字化学习工具，讨论了它们如何支持特定的 NLP 任务和程序，并研究了它们在教育环境中的可解释性和评估结果。通过研究这些工具的优点和局限性，这篇文献综述揭示了 K 12 教育中 NLP 学习工具的现状。

Defending Against Authorship Identification Attacks
Authors Haining Wang
事实证明，即使敏感的个人信息被小心地省略，作者身份识别在推断未签名文档的作者身份方面也非常有效。在数字时代，个人通过书面内容留下持久的数字足迹，无论这些内容是发布在社交媒体上、存储在雇主的计算机上还是位于其他地方。当个人需要公开交流但又希望保持匿名时，几乎没有什么办法可以保护他们免受不必要的作者身份识别。这种对隐私的前所未有的威胁在举报等场景中表现得很明显。针对作者身份识别攻击提出的防御措施主要旨在混淆一个人的写作风格，从而使其与他们先前存在的写作无法链接，同时保留原始含义和语法完整性。所提出的工作全面回顾了过去二十年及以后该研究领域的进展。它强调了旨在逃避作者身份识别攻击的修改和基于生成的策略的方法框架，强调了差分隐私社区的共同努力。

Making Retrieval-Augmented Language Models Robust to Irrelevant Context
Authors Ori Yoran, Tomer Wolfson, Ori Ram, Jonathan Berant
检索增强语言模型 RALM 有望产生真实、高效且最新的语言理解系统。 RALM 的一个重要需求是，检索到的信息在相关时有助于对性能进行建模，而在不相关时不会损害性能。这在多跳推理场景中尤其重要，其中滥用不相关的证据可能会导致级联错误。然而，最近的研究表明，检索增强有时会对性能产生负面影响。在这项工作中，我们对五个开放域问答基准进行了全面分析，描述了检索降低准确性时的情况。然后我们提出两种方法来缓解这个问题。首先，一个简单的基线，根据自然语言推理 NLI 模型过滤掉不包含问题答案对的检索到的段落。这可以有效防止性能下降，但代价是也丢弃相关段落。因此，我们提出了一种自动生成数据的方法，以微调语言模型，以正确利用检索到的段落，在训练时混合使用相关和不相关的上下文。

LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples
Authors Jia Yu Yao, Kun Peng Ning, Zhen Hui Liu, Mu Nan Ning, Li Yuan
大型语言模型法学硕士，包括 GPT 3.5、LLaMA 和 PaLM，似乎知识渊博，能够适应许多任务。然而，我们仍然不能完全相信他们的答案，因为法学硕士患有幻觉，捏造不存在的事实来欺骗用户而没有感知。它们存在和普遍存在的原因仍不清楚。在本文中，我们证明由随机标记组成的无意义提示也可以引发法学硕士做出幻觉反应。这种现象迫使我们重新审视幻觉可能是对抗性例子的另一种观点，它与传统对抗性例子具有相似的特征，是法学硕士的基本特征。因此，我们将自动幻觉触发方法形式化为对抗性的幻觉攻击。最后，我们探讨了受攻击的对抗性提示的基本特征，并提出了一种简单而有效的防御策略。

The Entity-Deduction Arena: A playground for probing the conversational reasoning and planning capabilities of LLMs
Authors Yizhe Zhang, Jiarui Lu, Navdeep Jaitly
大型语言模型法学硕士目前可以有效地回答明确提出的问题。然而，当面对不明确的查询时，它们可能会做出不可预测的行为并产生不正确的输出。这强调了开发能够提出澄清问题以有效解决歧义的智能代理的必要性。这种能力需要对多个对话回合进行复杂的理解、状态跟踪、推理和规划。然而，直接测量这一点可能具有挑战性。在本文中，我们提出了一个代理问题，该问题评估法学硕士通过向法官提出一系列问题来推断其自身未知但向法官透露的实体的能力。这个textit实体推导游戏可以作为评估框架来探索语言模型的会话推理和规划能力。我们系统地评估了各种法学硕士，发现他们在这项任务上的表现存在显着差异。我们发现像 GPT 4 这样强大的 LLM 的表现远远优于人类玩家。我们进一步采用行为克隆 BC 来检查较弱的模型是否能够模仿较强的模型并仅使用较强模型的演示来推广到数据或领域。我们最终建议使用强化学习通过玩游戏来增强 Vicuna 模型的推理和规划能力，从而显着提高性能。

FedBPT: Efficient Federated Black-box Prompt Tuning for Large Language Models
Authors Jingwei Sun, Ziyue Xu, Hongxu Yin, Dong Yang, Daguang Xu, Yiran Chen, Holger R. Roth
预训练的语言模型 PLM 彻底改变了 NLP 领域，在不同的任务中取得了出色的表现。这些模型虽然受益于大量训练数据，但通常需要对特定数据进行微调，以满足不同的下游任务。然而，这种数据适应过程具有固有的安全和隐私问题，尤其是在利用用户生成的设备驻留数据时。联邦学习 FL 提供了一种解决方案，允许协作模型微调，而无需集中数据收集。然而，应用 FL 来微调 PLM 受到一些挑战的阻碍，包括受限的模型参数访问、高计算要求和通信开销。本文介绍了联邦黑盒提示调整 FedBPT，这是一个旨在解决这些挑战的框架。 FedBPT 不要求客户端访问模型参数。通过专注于训练最佳提示并利用无梯度优化方法，FedBPT 减少了交换变量的数量，提高了通信效率，并最大限度地降低了计算和存储成本。实验凸显了该框架在保持竞争性能的同时大幅降低通信和内存成本的能力。

NarrativePlay: Interactive Narrative Understanding
Authors Runcong Zhao, Wenjia Zhang, Jiazheng Li, Lixing Zhu, Yanran Li, Yulan He, Lin Gui
在本文中，我们介绍了 NarrativePlay，这是一种小说系统，允许用户在沉浸式环境中扮演虚构角色，并与小说等叙事中的其他角色进行互动。我们利用大型语言模型法学硕士，以从叙述中提取的个性特征为指导，生成类似人类的反应。系统融合了自动生成的叙事场景、人物肖像、人物语音的视觉展示，极大地提升了用户体验。我们的方法避开了预定义的沙箱，而是专注于从用户选择的角色的角度从叙述中提取的主要故事情节事件。

Fooling the Textual Fooler via Randomizing Latent Representations
Authors Duy C. Hoang, Quang H. Nguyen, Saurav Manchanda, MinLong Peng, Kok Seng Wong, Khoa D. Doan
尽管在各种 NLP 任务中表现出色，但最近的研究表明，NLP 模型很容易受到对抗性攻击，这些攻击会稍微扰乱输入，从而导致模型行为不当。在这些攻击中，对抗性词级扰动是经过充分研究的有效攻击策略。由于这些攻击在黑盒设置中起作用，因此它们不需要访问模型架构或模型参数，因此可能对现有 NLP 应用程序有害。为了执行攻击，攻击者会多次查询受害者模型，以确定输入文本中最重要的单词，并将这些单词替换为相应的同义词。在这项工作中，我们提出了一种轻量级且与攻击无关的防御，其主要目标是迷惑在这些基于查询的黑盒攻击中生成对抗性示例的过程，从而愚弄文本愚人。这种防御称为 AdvFooler，其工作原理是在推理时随机化输入的潜在表示。与现有的防御措施不同，AdvFooler 在训练期间不需要额外的计算开销，也不依赖于对潜在对抗扰动集的假设，同时对模型准确性的影响可以忽略不计。我们的理论和实证分析强调了通过随机化潜在空间迷惑对手而产生的鲁棒性的重要性，以及随机化对干净准确性的影响。

Meta Semantic Template for Evaluation of Large Language Models
Authors Yachuan Liu, Liang Chen, Jindong Wang, Qiaozhu Mei, Xing Xie
大型语言模型法学硕士是否真正理解语言的语义，还是只是记住训练数据最近对法学硕士潜在数据污染的担忧提高了社区对法学硕士评估研究的认识。在本文中，我们提出了MSTemp，一种创建元语义模板来评估法学硕士语义理解能力的方法。 MSTemp的核心不是直接对现有的基准数据集进行评估，而是使用现有的数据集作为种子生成新的分布外的OOD评估集。具体来说，对于给定的句子，MSTemp 利用另一种语言模型来生成新样本，同时保留其语义。新样本被称为原始句子的语义模板。然后，MSTemp 通过句子解析和语义模板上的随机单词替换来生成评估样本。 MSTemp 高度灵活、动态且具有成本效益。我们的初步实验表明，MSTemp 生成的样本可以显着降低使用现有数据集作为种子的 LLM 的性能。

Adaptive-Solver Framework for Dynamic Strategy Selection in Large Language Model Reasoning
Authors Jianpeng Zhou, Wanjun Zhong, Yanlin Wang, Jiahai Wang
大型语言模型法学硕士在处理复杂推理任务方面展现出了令人印象深刻的能力。在现实世界中，问题往往具有多种复杂性。人类本质上会根据任务的复杂性来调整解决问题的方法。然而，大多数利用法学硕士的方法论倾向于采用统一的方法，利用一致的模型、提示方法和问题分解的程度，无论问题的复杂程度如何。它们的不灵活性会带来不必要的计算开销或次优性能。为了解决这个问题，我们引入了自适应求解器框架。它根据问题的难点战略性地调整解决策略。给定一个初始解决方案，该框架具有两个主要模块。初始评估模块评估当前解决方案的充分性。如果需要改进，后续的适配模块就会发挥作用。在该模块中，采用了三个关键的适应策略 1 模型适应当较弱的变体不足以满足要求时，切换到更强的法学硕士。 2 提示方法的适应交替使用不同的提示技巧以适应问题的细微差别。 3 分解粒度适配将复杂问题分解为更细粒度的子问题，以增强可解决性。通过这种动态适应，我们的框架不仅提高了计算效率，还提高了整体性能。这种双重优势既确保了系统处理简单任务的效率，又确保了处理更复杂问题所需的精度。复杂推理任务的实验结果表明，提示方法适应和分解粒度适应提高了所有任务的性能。

Adapting LLM Agents Through Communication
Authors Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, Yelong Shen
大型语言模型法学硕士的最新进展显示了类人智能体的潜力。为了帮助这些智能体在没有广泛的人类监督的情况下适应新任务，我们提出了通过通信学习 LTC 范式，这是一种新颖的训练方法，使 LLM 智能体能够通过与环境和其他智能体的交互来不断改进。大型语言模型法学硕士的最新进展显示了类人智能体的潜力。为了帮助这些智能体在没有广泛的人类监督的情况下适应新任务，我们提出了通过通信学习 LTC 范式，这是一种新颖的训练方法，使 LLM 智能体能够通过与环境和其他智能体的交互来不断改进。通过迭代探索和 PPO 训练，LTC 使智能体能够将短期经验吸收到长期记忆中。为了优化特定任务学习的代理交互，我们引入了三种结构化通信模式：独白、对话和模拟，专为决策、知识密集型推理和数字推理等常见任务而定制。我们在 ALFWorld 决策、HotpotQA 知识密集推理和 GSM8k 数值推理这三个数据集上评估了 LTC。在 ALFWorld 上，它的成功率超出指令调优基线 12。在 HotpotQA 上，LTC 在 EM 分数上比指令调整的 LLaMA 7B 代理高出 5.1，并且比指令调整的 9 倍大 PaLM 62B 代理高出 0.6。在 GSM8k 上，LTC 的准确度比 CoT Tuning 基线高 3.6。结果展示了 LTC 方法在不同领域的多功能性和效率。

UPAR: A Kantian-Inspired Prompting Framework for Enhancing Large Language Model Capabilities
Authors Hejia Geng, Boxun Xu, Peng Li
大型语言模型法学硕士已经展示了令人印象深刻的推理能力，大量的研究工作致力于通过提示来增强这种能力。尽管做出了这些努力，但仍然明显缺乏统一的认识论基础。受到康德先验哲学的启发，我们提出了 UPAR 激励框架，旨在模拟法学硕士内的人类认知结构。 UPAR框架分为理解、计划、行动和反思四个阶段，能够从复杂的环境中提取结构化信息、预先规划解决方案、按计划执行和自我反思。这种结构显着增强了法学硕士推理的可解释性和准确性，产生人类可理解和可检查的推理轨迹。此外，我们的工作为现有的提示技术提供了认识论基础，允许对这些方法进行可能的系统整合。

The Many Voices of Duying: Revisiting the Disputed Essays Between Lu Xun and Zhou Zuoren
Authors Xin Xie, Jiangqiong Li, Haining Wang
鲁迅和周作人是中国现代文学中最具影响力的两位作家。除了作为兄弟的家庭关系之外，他们在写作生涯的初期阶段也是亲密的合作者。本研究采用定量方法重新审视兄弟俩于 1912 年匿名发表的三篇有争议的文章。我们的文体分析使用可解释的作者归属模型来调查文章的作者身份并检查兄弟俩各自的写作风格。我们的研究结果表明，《看中国》的作者是鲁迅。此外，《越人勿忘祖训》似乎主要是由鲁迅撰写或大量修改的，因为它与周作人认为是他自己的作品《望越国》有显着的相似之处，但由鲁迅编辑。第三篇文章《共和国的品格去哪儿了》呈现出一种淡化、混合的写作风格，暗示着彻底的合作。我们提供论文特征的视觉表示，以促进细致入微和直观的理解。

Revolutionizing Mobile Interaction: Enabling a 3 Billion Parameter GPT LLM on Mobile
Authors Samuel Carreira, Tom s Marques, Jos Ribeiro, Carlos Grilo
近年来，人工智能领域取得了显着的进步，特别是基于 Transformer 架构的强大的大型语言模型 LLM 的出现。基于云的法学硕士（例如 OpenAI 的 ChatGPT）提供了令人印象深刻的功能，但由于网络依赖性而存在延迟和隐私问题。本文提出了一种创新的 LLM 推理方法，展望了未来，具有数十亿参数的 LLM 可以直接在移动设备上执行，无需网络连接。该文章展示了一个经过微调的 GPT LLM，它具有 30 亿个参数，可以在内存低至 4GB 的设备上顺利运行。通过本机代码和模型量化技术的集成，该应用程序不仅可以充当通用助手，还可以促进与文本到操作功能的无缝移动交互。本文深入介绍了设备上 LLM 推理的训练流程、实施细节、测试结果和未来方向。

Split and Merge: Aligning Position Biases in Large Language Model based Evaluators
Authors Zongjie Li, Chaozheng Wang, Pingchuan Ma, Daoyuan Wu, Tianxiang Li, Shuai Wang, Cuiyun Gao, Yang Liu
大型语言模型法学硕士已显示出作为自动评估器的前景，用于评估人工智能系统生成的答案的质量。然而，这些基于法学硕士的评估者在用于评估成对比较中的候选答案时表现出立场偏差或不一致，无论内容如何，都倾向于第一个或第二个答案。为了解决这一限制，我们提出了 PORTIA，这是一种基于对齐的系统，旨在模仿人类比较策略，以轻量级但有效的方式校准位置偏差。具体来说，PORTIA 将答案分成多个部分，将候选答案中的相似内容对齐，然后将它们合并回单个提示中，供法学硕士进行评估。我们对六位不同的法学硕士进行了广泛的实验，以评估 11,520 个答案对。我们的结果表明，PORTIA 显着提高了所有测试模型和比较表的一致性率，平均相对提高了 47.46。值得注意的是，PORTIA 使不太先进的 GPT 模型能够以 10 倍的成本实现与最先进的 GPT 4 模型的 88 次一致性。此外，它纠正了 GPT 4 模型中大约 80 个位置偏差实例，将其一致性率提高到 98。随后的人类评估表明，PORTIA 增强型 GPT 3.5 模型在与人类评估者的一致性方面甚至可以超越独立的 GPT 4。这些发现凸显了 PORTIA 纠正立场偏差、提高法学硕士一致性以及在保持成本效率的同时提高绩效的能力。

Sarcasm in Sight and Sound: Benchmarking and Expansion to Improve Multimodal Sarcasm Detection
Authors Swapnil Bhosale, Abhra Chaudhuri, Alex Lee Robert Williams, Divyank Tiwari, Anjan Dutta, Xiatian Zhu, Pushpak Bhattacharyya, Diptesh Kanojia
MUStARD 数据集及其情感识别扩展 MUStARD 的引入，已经确定讽刺是一种多模态现象，不仅通过自然语言文本表达，还通过语调和语调等言语方式以及视觉线索面部表情表达。通过这项工作，我们的目标是通过考虑最先进的语言、语音和视觉编码器来对 MUStARD 数据集进行严格的基准测试，以充分利用它所提供的多模态丰富性的整体，在宏F1超过现有基准。此外，为了解决 MUStARD 中讽刺类型类别的不平衡问题，我们提出了一个扩展，我们将其称为 emph MUStARD Balanced，与跨训练集和测试集的扩展实例进行相同的基准测试，进一步实现 2.4 宏 F1 提升。新剪辑取自电视节目《House MD》的新颖来源，这增加了数据集的多样性，并由多个注释者手动注释，在 Cohen s kappa 和 Krippendorf s alpha 方面具有实质性的注释者间一致性。

Chatmap : Large Language Model Interaction with Cartographic Data
Authors Eren Unlu
基础大型语言模型法学硕士的快速发展和广泛可用性，辅以强大的微调方法，促进了它们适应创新和工业应用。让法学硕士能够识别和解释地理空间数据，同时提供对大量地图数据集的语言访问，这一点非常重要。 OpenStreetMap OSM 是最雄心勃勃的开源全球计划，提供详细的城市和农村地理数据，由超过 1000 万贡献者的社区管理，这为法学硕士应用程序带来了巨大的潜力。在这项研究中，我们展示了概念证明和微调相对较小规模的 1B 参数 LLM 过程的细节，该过程使用由更强大的教师模型管理的相对较小的人工数据集，以便为 OSM 数据提供语言接口任意城市区域。通过该界面，用户可以查询某个位置的属性，涵盖广泛的概念，例如其旅游吸引力或该附近各种企业的潜在盈利能力。该研究旨在为此类生成人工智能的适应提供初步指导，并展示在这种情况下即使在最小的计算环境下有用的新兴能力的早期迹象。

Attention Sorting Combats Recency Bias In Long Context Language Models
Authors Alexander Peysakhovich, Adam Lerer
当前的语言模型通常无法在生成过程中有效地合并长上下文。我们表明，造成这个问题的一个主要因素是注意力先验，这些先验注意力可能是在预训练期间学到的，上下文中较早的相关信息平均受到较少关注。然而，即使模型无法在响应中使用相关文档中的信息，与同一位置的不相关文档相比，它们仍然会优先关注该文档。我们利用这一事实来引入注意力排序，执行一步解码，按照最后受到最高关注的注意力对文档进行排序，重复该过程，使用新排序的上下文生成答案。我们发现注意力排序提高了长上下文模型的性能。

Borges and AI
Authors L on Bottou, Bernhardt Sch lkopf
许多人认为，大型语言模型法学硕士开启了人工智能时代。有人看到机遇，有人看到危险。然而，支持者和反对者都通过科幻小说中流行的图像来理解人工智能。机器会变得有知觉并反抗它的创造者吗？我们会经历回形针启示录吗？在回答这些问题之前，我们首先应该问这个心理意象是否能很好地描述当前的现象。通过众神的情绪来了解天气模式也只能到此为止。相反，本文主张通过豪尔赫·路易斯·博尔赫斯（Jorge Luis Borges）的意象来理解法学硕士及其与人工智能的联系，豪尔赫·路易斯·博尔赫斯是 20 世纪文学大师、魔幻现实主义的先驱和后现代文学的先驱。

Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey
Authors Victoria Smith, Ali Shahin Shamsabadi, Carolyn Ashurst, Adrian Weller
语言模型 LM 的快速进步导致其在许多领域得到采用。除了潜在的好处之外，此类模型还带来了一系列风险，包括隐私方面的风险。特别是，随着 LM 规模的扩大，记忆其训练数据的潜力也随之增加，从而导致泄露私人信息的风险。随着 LM 变得越来越普遍，我们了解此类隐私风险以及如何减轻这些风险至关重要。为了帮助研究人员和政策制定者了解有关隐私攻击和缓解措施的知识状况，包括需要做更多工作的地方，我们提出了第一份关于 LM 隐私的技术调查。我们 i 确定对 LM 的攻击不同的显着维度分类法，ii 调查现有攻击并使用我们的维度分类法来突出关键趋势，iii 讨论现有缓解策略，突出其优势和局限性，确定关键差距并展示开放问题和领域

An Empirical Study of AI Generated Text Detection Tools
Authors Arslan Akram
由于 ChatGPT 已成为主要的 AIGC 模型，在包括软件开发和维护在内的广泛应用中提供高质量的响应，因此引起了许多人的极大兴趣。 ChatGPT 前景广阔，但滥用可能会引发严重问题，特别是在教育和公共安全领域。有多种 AIGC 检测器可供使用，并且它们都已在真实文本上进行了测试。然而，需要更多的研究来了解它们对于多域 ChatGPT 材料的有效性。本研究旨在通过创建一个多域数据集来测试最先进的 API 和检测大学和其他研究机构使用的人工生成信息的工具来满足这一需求。为此研究创建了一个由文章、摘要、故事、新闻和产品评论组成的大型数据集。第二步是使用新创建的数据集来测试六种工具的性能。六种不同的人工智能AI文本识别系统，包括GPTkit、GPTZero、Originality、Sapling、Writer和Zylalab，准确率在55.29到97.0之间。

Ruffle&Riley: Towards the Automated Induction of Conversational Tutoring Systems
Authors Robin Schmucker, Meng Xia, Amos Azaria, Tom Mitchell
对话式辅导系统 CTS 提供由自然语言交互驱动的学习体验。众所周知，它们可以促进高水平的认知参与并有益于学习成果，特别是在推理任务中。尽管如此，创作 CTS 内容所需的时间和成本是广泛采用的主要障碍。在本文中，我们介绍了一种新型的 CTS，它通过两种方式利用大型语言模型 LLM 的最新进展：首先，系统从课程文本中自动生成辅导脚本。其次，该系统通过两个基于 LLM 的代理 Ruffle Riley 自动化脚本编排，并以学生和教授的角色进行教学形式的学习。该系统允许遵循 ITS 典型外环结构的自由形式对话。在最初的受试者在线用户研究 N 100 中，将 Ruffle Riley 与更简单的 QA 聊天机器人和阅读活动进行比较，我们发现测试后分数没有显着差异。尽管如此，在学习体验调查中，Ruffle Riley 用户对理解和记忆表示了更高的评价，并进一步认为所提供的支持更有帮助，对话也更连贯。

Cordyceps@LT-EDI: Depression Detection with Reddit and Self-training
Authors Dean Ninalga
抑郁症会使人衰弱，而且并不罕见。事实上，对过度使用社交媒体的研究表明，社交媒体与抑郁症、多动症和其他心理健康问题存在相关性。鉴于有大量人过度使用社交媒体，因此存在大量潜在未确诊的用户和他们创建的帖子。在本文中，我们提出了一种抑郁症严重程度检测系统，使用半监督学习技术来预测帖子是否来自正在经历严重、中度或低非诊断水平抑郁症的用户。也就是说，我们使用经过训练的模型对来自 Reddit 的大量未标记的社交媒体帖子进行分类，然后使用这些生成的标签来训练更强大的分类器。

Generalizable Long-Horizon Manipulations with Large Language Models
Authors Haoyu Zhou, Mingyu Ding, Weikun Peng, Masayoshi Tomizuka, Lin Shao, Chuang Gan
这项工作介绍了一个框架，该框架利用大型语言模型法学硕士的功能来生成原始任务条件，以便对新颖的对象和看不见的任务进行可概括的长期操作。这些任务条件可作为生成和调整动态运动基元 DMP 轨迹的指南，以实现长期任务执行。我们进一步创建了一个基于 Pybullet 的具有挑战性的机器人操作任务套件，用于长期任务评估。在模拟和现实环境中进行的大量实验证明了我们的框架在涉及新对象的熟悉任务和新颖但相关的任务上的有效性，凸显了法学硕士在增强机器人系统多功能性和适应性方面的潜力。

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts
Authors Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai Wei Chang, Michel Galley, Jianfeng Gao
尽管大型语言模型法学硕士和大型多模态模型法学硕士在各个领域表现出令人印象深刻的技能，但它们在视觉上下文中进行数学推理的能力尚未得到正式检验。为法学硕士和法学硕士配备这种能力对于通用人工智能助手至关重要，并展示了在教育、数据分析和科学发现方面的巨大潜力。为了弥补这一差距，我们推出了 MathVista，这是一个旨在合并来自不同数学和视觉任务的挑战的基准。我们首先对文献中的关键任务类型、推理技能和视觉上下文进行分类，以指导我们从 28 个现有的数学重点和视觉问答数据集中进行选择。然后，我们构建了三个新数据集：IQTest、FunctionQA 和 PaperQA，以适应缺失的视觉上下文类型。这些问题通常需要 OCR 或图像字幕之外的深入视觉理解，以及使用丰富的特定领域工具进行组合推理，从而对现有模型提出了显着的挑战。我们对 11 个著名的开源和专有基础模型 LLM、使用工具增强的 LLM 和 LMM 以及 GPT 4V 的早期实验进行了全面评估。性能最好的模型 Multimodal Bard 仅达到人类性能的 58（34.8 vs 60.3），表明还有足够的进一步改进空间。鉴于这一巨大差距，MathVista 推动了通用人工智能代理开发的未来研究，这些人工智能代理能够处理数学密集型和视觉丰富的现实世界任务。初步测试表明，MathVista 也对 GPT 4V 提出了挑战，凸显了该基准测试的重要性。

Language Models Represent Space and Time
Authors Wes Gurnee, Max Tegmark
大型语言模型法学硕士的能力引发了关于此类系统是否只是学习大量表面统计数据或数据生成过程的连贯模型（世界模型）的争论。我们通过分析 Llama 2 系列模型中三个空间数据集世界、美国、纽约地点和三个时间数据集历史人物、艺术品、新闻标题的学习表示，找到了后者的证据。我们发现法学硕士可以学习跨多个尺度的空间和时间的线性表示。这些表示对于提示变化是鲁棒的，并且在不同的实体类型之间是统一的，例如城市和地标。此外，我们还识别了可靠编码空间和时间坐标的单个空间神经元和时间神经元。

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond
Authors Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Tianyu Liu, Baobao Chang
在这项研究中，我们探索了多模态大型语言模型 MLLM 在改进代理的具体决策过程中的潜力。虽然大型语言模型法学硕士因其先进的推理技能和广泛的世界知识而被广泛使用，但像 GPT4 Vision 这样的 MLLM 提供了增强的视觉理解和推理能力。我们研究最先进的 MLLM 是否可以以端到端的方式处理具体决策，以及 LLM 和 MLLM 之间的合作是否可以增强决策。为了解决这些问题，我们引入了一个名为 PCA EVAL 的新基准，它从感知、认知和行动的角度评估具体决策。此外，我们提出了 HOLMES，这是一个多代理合作框架，允许法学硕士利用 MLLM 和 API 来收集多模式信息以做出明智的决策。我们在基准上比较端到端体现决策和 HOLMES，发现 GPT4 Vision 模型表现出强大的端到端体现决策能力，在平均决策准确性方面优于 GPT4 HOLMES 3 。然而，这种性能是最新 GPT4 Vision 模型独有的，比开源最先进的 MLLM 高出 26 。

Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving
Authors Long Chen, Oleg Sinavski, Jan H nermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, Jamie Shotton
大型语言模型法学硕士在自动驾驶领域显示出了前景，特别是在泛化性和可解释性方面。我们引入了一种独特的对象级多模态 LLM 架构，该架构将矢量化数字模态与预先训练的 LLM 相结合，以提高对驾驶情况的上下文理解。我们还提出了一个新的数据集，其中包含源自 10k 驾驶场景的 160k QA 对，并配有 RL 代理收集的高质量控制命令以及由教师 LLM GPT 3.5 生成的问题答案对。设计了一种独特的预训练策略，使用矢量字幕语言数据将数字矢量模态与静态 LLM 表示对齐。我们还引入了驾驶质量检查的评估指标，并展示了我们的法学硕士驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。与传统的行为克隆相比，我们的研究结果凸显了基于法学硕士的驾驶行为生成的潜力。

Effective and Parameter-Efficient Reusing Fine-Tuned Models
Authors Weisen Jiang, Baijiong Lin, Han Shi, Yu Zhang, and Zhenguo Li, James T. Kwok
在线提供的许多预先训练的大型模型在转移到下游任务方面已经变得非常有效。同时，在这些预训练模型上进行微调的各种特定于任务的模型可在线供公众使用。在实践中，由于收集特定于任务的数据是劳动密集型的，并且微调大型预训练模型的计算成本很高，因此可以重用特定于任务的微调模型来处理下游任务。然而，每个任务使用一个模型会给存储和服务带来沉重的负担。最近，已经提出了许多免训练和参数有效的方法，用于将多个微调的任务特定模型重用为单个多任务模型。然而，与每个任务使用微调模型相比，这些方法表现出很大的准确度差距。在本文中，我们提出了重新使用 PERU 微调模型的参数有效方法。为了重用完全微调的 FFT 模型，我们提出了 PERU FFT，通过幅度剪枝将稀疏任务向量注入到合并模型中。为了重用 LoRA 微调模型，我们建议秘鲁 LoRA 使用较低秩矩阵通过奇异值分解来近似 LoRA 矩阵。 PERUFFT 和 PERU LoRA 都是免费培训的。在计算机视觉和自然语言处理任务上进行的大量实验证明了所提出方法的有效性和参数效率。

Fine-tuned vs. Prompt-tuned Supervised Representations: Which Better Account for Brain Language Representations?
Authors Jingyuan Sun, Marie Francine Moens
为了破译人类大脑语言表示的算法，之前的工作通过在 NLU 任务上进行微调的预先训练的人工神经网络 ANN 模型来探究大脑对语言输入的反应。然而，完全微调通常会更新整个参数空间并扭曲预先训练的特征，在认知上与大脑强大的多任务学习能力不一致。相反，及时调整可以保护预先训练的权重并学习特定于任务的嵌入以适应任务。提示调优可以生成比微调更好地解释大脑语言表征的表示如果是这样，什么样的 NLU 任务可以引导预训练模型更好地解码人脑中表示的信息我们通过比较提示调优和微调来研究这些问题调整神经解码中的表示，即根据刺激引起的大脑活动来预测语言刺激。我们发现，在 10 个 NLU 任务中，没有一个任务的完全微调在神经解码方面显着优于即时调整，这意味着更与大脑一致的调整方法可以产生与大脑数据更好相关的表示。此外，我们发现处理细粒度概念意义的任务产生的表示比其他任务（尤其是句法分块任务）能够更好地解码大脑激活模式。

Zero-Shot Refinement of Buildings' Segmentation Models using SAM
Authors Ali Mayladan, Hasan Nasrallah, Hasan Moughnieh, Mustafa Shukor, Ali J. Ghandour
基础模型在各种任务中表现出色，但通常根据一般基准进行评估。这些模型针对特定领域（例如遥感图像）的适应仍然是一个尚未充分探索的领域。在遥感中，精确的建筑实例分割对于城市规划等应用至关重要。虽然卷积神经网络 CNN 表现良好，但其泛化能力可能有限。为此，我们提出了一种新颖的方法来调整基础模型，以解决现有模型泛化下降的问题。在多个模型中，我们的重点是 Segment Anything Model SAM，这是一个强大的基础模型，以其在类无关图像分割功能方面的实力而闻名。我们首先确定 SAM 的局限性，揭示其应用于遥感图像时的次优性能。此外，SAM 不提供识别能力，因此无法对本地对象进行分类和标记。为了解决这些限制，我们引入了不同的提示策略，包括集成预先训练的 CNN 作为提示生成器。这种新颖的方法增强了 SAM 的识别能力，这在同类方法中尚属首次。我们在三个遥感数据集上评估了我们的方法，包括 WHU 建筑数据集、马萨诸塞州建筑数据集和 AICrowd 测绘挑战赛。对于 WHU 数据集上的分布性能，我们的 IoU 提高了 5.47，F1 分数提高了 4.81。对于 WHU 数据集的分布性能，我们观察到 True Positive IoU 和 True Positive F1 分数分别增加了 2.72 和 1.58。

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment
Authors Bi Cheng Yan, Hsin Wei Wang, Yi Cheng Wang, Jiun Ting Li, Chi Han Lin, Berlin Chen
自动发音评估 APA 能够量化第二语言 L2 学习者的语言发音水平。流行的 APA 方法通常利用经过回归损失函数（例如均方误差 MSE 损失）训练的神经模型来进行熟练程度预测。尽管大多数回归模型可以有效地捕获特征空间中熟练程度的序数，但它们面临的主要障碍是具有相同熟练程度的不同音素类别不可避免地被迫彼此接近，保留较少的音素区分信息。鉴于此，我们设计了一种音素对比序数 PCO 损失，用于训练基于 APA 模型的回归，其目的是在考虑回归目标输出的序数关系的同时，保留音素类别之间更好的音素区别。具体来说，我们在 MSE 损失中引入了音素不同正则化器，它鼓励不同音素类别的特征表示相距较远，同时通过加权距离拉近属于同一音素类别的表示。

Extending CAM-based XAI methods for Remote Sensing Imagery Segmentation
Authors Abdul Karim Gizzini, Mustafa Shukor, Ali J. Ghandour
当前基于人工智能的方法无法对所使用的数据、提取的特征和预测推理操作提供可理解的物理解释。因此，使用高分辨率卫星图像训练的深度学习模型缺乏透明度和可解释性，只能被视为黑匣子，这限制了其广泛采用。专家需要帮助理解人工智能模型的复杂行为和底层决策过程。可解释的人工智能XAI领域是一个新兴领域，为人工智能模型的稳健、实用和值得信赖的部署提供了手段。已经提出了几种用于图像分类任务的 XAI 技术，而图像分割的解释在很大程度上仍未得到探索。本文通过采用最新的 XAI 分类算法并使它们可用于多类图像分割来弥补这一差距，其中我们主要关注高分辨率卫星图像的建筑物分割。为了对所提出的方法的性能进行基准测试和比较，我们引入了一种新的 XAI 评估方法和基于熵的指标来测量模型的不确定性。传统的XAI评估方法主要依赖于将图像中感兴趣区域的面积反馈给预先训练的效用模型，然后计算目标类别概率的平均变化。这些评估指标缺乏所需的鲁棒性，我们表明使用熵来监控目标类内像素分割的模型不确定性更合适。

Trainable Noise Model as an XAI evaluation method: application on Sobol for remote sensing image segmentation
Authors Hossein Shreim, Abdul Karim Gizzini, Ali J. Ghandour
eXplainable 人工智能 XAI 已成为处理关键任务应用程序时的基本要求，确保所使用的黑盒 AI 模型的透明度和可解释性。 XAI 的重要性涵盖从医疗保健到金融的各个领域，了解深度学习算法的决策过程至关重要。大多数基于人工智能的计算机视觉模型通常都是黑匣子，因此，在图像处理中提供深度神经网络的可解释性对于其在医学图像分析、自动驾驶和遥感应用中的广泛采用和部署至关重要。最近，已经推出了几种用于图像分类任务的 XAI 方法。相反，图像分割在可解释性方面受到的关注相对较少，尽管它是计算机视觉应用（尤其是遥感）中的一项基本任务。只有一些研究提出了基于梯度的 XAI 算法用于图像分割。本文采用最新的无梯度 Sobol XAI 方法进行语义分割。为了衡量 Sobol 分割方法的性能，我们提出了一种基于可学习噪声模型的定量 XAI 评估方法。该模型的主要目标是在解释图上引入噪声，其中较高的引入噪声意味着较低的精度，反之亦然。使用所提出的基于噪声的评估技术进行基准分析来评估和比较三种 XAI 方法的性能，包括 Seg Grad CAM、Seg Grad CAM 和 Seg Sobol。

Empirical Study of PEFT techniques for Winter Wheat Segmentation
Authors Mohamad Hasan Zahweh, Hasan Nasrallah, Mustafa Shukor, Ghaleb Faour, Ali J. Ghandour
参数高效微调 PEFT 技术最近经历了显着增长，并已被广泛应用于使大型视觉和语言模型适应各个领域，以最少的计算需求实现令人满意的模型性能。尽管取得了这些进展，但更多的研究尚未深入探讨 PEFT 在现实生活场景中的潜在应用，特别是在遥感和作物监测的关键领域。不同地区气候的多样性以及对全面的大规模数据集的需求，为准确识别不同地理位置和不断变化的生长季节的作物类型带来了重大障碍。本研究旨在通过使用最先进的 SOTA 小麦作物监测模型全面探索跨地区和跨年份分布概括的可行性来弥补这一差距。这项工作的目的是探索作物监测的 PEFT 方法。具体来说，我们专注于采用 SOTA TSViT 模型来解决冬小麦田分割问题，这是作物监测和粮食安全的一项关键任务。此适应过程涉及集成不同的 PEFT 技术，包括 BigFit、LoRA、Adaptformer 和提示调整。使用 PEFT 技术，我们取得了与使用完全微调方法所取得的结果相当的显着结果，同时仅训练整个 TSViT 架构的 0.7 个参数。内部标记数据集（称为 Beqaa Lebanon 数据集）包含连续五年的小麦和非小麦类别的高质量注释多边形，总面积为 170 平方公里。使用 Sentinel 2 图像，我们的模型获得了 84 F1 分数。

Can large language models provide useful feedback on research papers? A large-scale empirical analysis
Authors Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou
专家反馈奠定了严谨研究的基础。然而，学术成果的快速增长和复杂的知识专业化对传统的科学反馈机制提出了挑战。获得高质量的同行评审越来越困难。资历较浅或来自资源匮乏环境的研究人员尤其难以获得及时的反馈。随着 GPT 4 等大型语言模型 LLM 的突破，人们越来越有兴趣使用 LLM 生成研究手稿的科学反馈。然而，LLM 生成的反馈的效用尚未得到系统研究。为了解决这一差距，我们使用 GPT 4 创建了一个自动化管道，为科学论文的完整 PDF 提供评论。我们通过两项大规模研究评估了 GPT 4 反馈的质量。我们首先将 GPT 4 生成的反馈与人类同行评审员反馈进行了定量比较，其中包括 15 种自然系列期刊的 3,096 篇论文和 ICLR 机器学习会议的 1,709 篇论文。 GPT 4 和人类审稿人提出的点的重叠度（自然期刊平均重叠度为 30.85，ICLR 为 39.23）与两个人类审稿人之间的重叠度（自然期刊平均重叠度为 28.58，ICLR 为 35.25）相当。对于较弱的论文，GPT 4 和人类审稿人之间的重叠更大。然后，我们对来自 110 个美国人工智能和计算生物学领域机构的 308 名研究人员进行了一项前瞻性用户研究，以了解研究人员如何看待我们的 GPT 4 系统在他们自己的论文中生成的反馈。总体而言，超过一半的 57.4 名用户认为 GPT 4 生成的反馈非常有帮助，82.4 名用户认为它比至少一些人工审阅者的反馈更有益。

One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition
Authors Samuele Cornell, Jee weon Jung, Shinji Watanabe, Stefano Squartini
本文提出了一种联合说话人二值化SD和自动语音识别ASR的新框架，称为SLIDAR滑动窗口二值化增强识别。 SLIDAR 可以处理任意长度的输入，并且可以处理任意数量的发言者，有效解决谁同时发言的问题。 SLIDAR 利用滑动窗口方法，由端到端二值化增强语音转录 E2E DAST 模型组成，该模型在本地为每个窗口转录、二值化和说话者嵌入提供服务。 E2E DAST 模型基于编码器解码器架构，并利用序列化输出训练和 Whisper 风格提示等最新技术。然后，通过对说话人嵌入进行聚类以获得全局说话人身份，组合本地输出以获得最终的 SD ASR 结果。

VAL: Interactive Task Learning with GPT Dialog Parsing
Authors Lane Lawley, Christopher J. MacLellan
强化学习通常需要数百万个示例来生成静态的黑盒模型。相比之下，交互式任务学习 ITL 强调从人类以自然语言等方式提供的有限指令中获取增量知识。然而，在实践中，ITL 系统经常遇到脆弱且容易出错的语言解析问题。大型语言模型法学硕士可以抵抗脆弱性，但不可解释且无法增量学习。我们推出了 VAL，一个具有 LLM 符号集成新理念的 ITL 系统。通过仅将 LLM 用于算法框架内的谓词和参数选择等特定任务，VAL 获得了 LLM 的优势，支持从自然语言中交互式学习分层任务知识。获得的知识是人类可以解释的，并且可以概括为支持新任务的执行，而无需额外的培训。

Sci-Net: Scale Invariant Model for Buildings Segmentation from Aerial Imagery
Authors Hasan Nasrallah, Mustafa Shukor, Ali J. Ghandour
建筑物分割是地球观测和航空图像分析领域的一项基本任务。文献中大多数现有的基于深度学习的方法都可以应用于固定或窄范围的空间分辨率图像。在实际场景中，用户会处理各种图像分辨率。因此，给定的航拍图像通常需要重新采样，以匹配用于训练深度学习模型的数据集的空间分辨率，这会导致分割性能下降。为了克服这一挑战，我们在这份手稿中提出了尺度不变的神经网络科学网络架构，该架构可以从广泛的空间分辨率航空图像中分割建筑物。具体来说，我们的方法利用 UNet 分层表示和密集多孔空间金字塔池来提取细粒度的多尺度表示。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com