【AI视野·今日NLP 自然语言处理论文速览第八十一期】Mon, 4 Mar 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Mon, 4 Mar 2024
Totally 48 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Mitigating Reversal Curse via Semantic-aware Permutation Training
Authors Qingyan Guo, Rui Wang, Junliang Guo, Xu Tan, Jiang Bian, Yujiu Yang
虽然大型语言模型法学硕士在不同的任务中取得了令人印象深刻的表现，但最近的研究表明，因果法学硕士遭受了逆转诅咒。这是一个典型的例子，模型知道 A 的父亲是 B ，但无法推理 B 的孩子是 A 。这种限制对通用人工智能（AGI）的进步提出了挑战，因为它表明模型理解和应用双向推理的能力存在差距。在本文中，我们首先进行了实质性评估，发现逆转诅咒的根本原因在于训练阶段和推理阶段之间的词序不同，即因果语言模型预测训练数据中的先行词的能力较差。因此，对训练数据进行排列被认为是一种潜在的解决方案，因为这可以使模型预测先行词或标记。然而，以前的排列方法可能会破坏完整的短语或实体，从而给模型理解和学习训练数据带来挑战。为了解决这个问题，我们提出了语义感知排列训练 SPT ，它通过将训练句子分割成语义单元（即带有辅助语言模型的实体或短语）并在输入模型之前对这些单元进行排列来解决这个问题。

Dialect prejudice predicts AI decisions about people's character, employability, and criminality
Authors Valentin Hofmann, Pratyusha Ria Kalluri, Dan Jurafsky, Sharese King
现在，数亿人与语言模型进行交互，其用途包括从作为写作辅助到为招聘决策提供信息。然而，众所周知，这些语言模型会延续系统性的种族偏见，使它们对非裔美国人等群体的判断产生有问题的偏见。虽然之前的研究主要集中在语言模型中的公开种族主义，但社会科学家认为，随着时间的推移，具有更微妙特征的种族主义已经发展起来。目前尚不清楚这种隐蔽的种族主义是否体现在语言模型中。在这里，我们证明语言模型以方言偏见的形式体现了隐蔽的种族主义。我们扩展了研究，表明美国人对非裔美国英语的使用者持有种族主义语言刻板印象，并发现语言模型也有同样的偏见，表现出比任何语言都更消极的隐性刻板印象。人类对非裔美国人的刻板印象曾经被实验记录过，尽管最接近民权运动之前的刻板印象。相比之下，语言模型对非裔美国人的明显刻板印象要积极得多。我们通过要求语言模型仅根据人们的说话方式做出关于人们的假设性决定，证明方言偏见可能会产生有害后果。语言模型更有可能表明，说非裔美国英语的人会被分配不太有声望的工作、被定罪并被判处死刑。最后，我们表明，现有的减轻语言模型中种族偏见的方法（例如人类反馈训练）并不能减轻方言偏见，而是可以通过教导语言模型表面上掩盖它们所维持的种族主义，从而加剧隐性和明显的刻板印象之间的差异。更深层次。

Few-Shot Relation Extraction with Hybrid Visual Evidence
Authors Jiaying Gong, Hoda Eldardiry
少量镜头关系提取的目标是当只有少数标记实例可用于训练时预测句子中名称实体之间的关系。现有的少数镜头关系提取方法只关注单模态信息，例如仅文本。当文本中描述的名称实体之间没有明确的上下文时，这会降低性能。我们提出了一种多模态少镜头关系提取模型 MFS HVE，它利用文本和视觉语义信息来联合学习多模态表示。 MFS HVE 包括语义特征提取器和多模态融合组件。 MFS HVE 语义特征提取器旨在提取文本和视觉特征。视觉特征包括全局图像特征和图像内的局部对象特征。 MFS HVE 多模态融合单元使用图像引导注意力、对象引导注意力和混合特征注意力来集成来自各种模态的信息，以充分捕获图像视觉区域和相关文本之间的语义交互。

Self-Consistent Decoding for More Factual Open Responses
Authors Christopher Malon, Xiaodan Zhu
自我一致性已成为提高大型语言模型生成的简短答案准确性的强大方法。正如前面所定义的，它只涉及从生成的文本解析出的最终答案的准确性。在这项工作中，我们通过将投票集成到解码方法中，将这一想法扩展到开放响应生成。每个输出句子都是从多个样本中选择的，并基于简单的标记重叠分数以先前的选择为条件。我们将这种样本选择方法与贪婪解码、波束搜索、核采样以及最近引入的 DoLA、PCRR 和 SCRR 幻觉避免解码器进行比较。我们表明，在对 FRANK 基准测试中使用的 CNN DM 和 XSum 子集进行基于 NLI 的评估中，Sample Select 相对于这些解码器将事实性提高了 30 个相对余量，同时与参考摘要保持可比的 ROUGE 1 F1 分数。

A Bit of a Problem: Measurement Disparities in Dataset Sizes Across Languages
Authors Catherine Arnett, Tyler A. Chang, Benjamin K. Bergen
应如何跨语言比较文本数据集大小即使对于内容匹配的并行语料库，UTF 8 编码文本对于不同语言也可能需要截然不同的字节数。在我们的工作中，我们将两种语言之间的字节溢价定义为用于对这些语言中的内容匹配文本进行编码的字节比率。我们计算 1155 种语言的字节溢价，并使用线性回归来估计其他语言的字节溢价。

Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores
Authors Chantal Shaib, Joe Barrow, Jiuding Sun, Alexa F. Siu, Byron C. Wallace, Ani Nenkova
大型语言模型生成的输出的多样性塑造了对其质量和实用性的看法。人们很容易注意到不同交互中的提示泄漏、模板化答案结构和预设响应，但没有标准分数来衡量模型行为的这方面。在这项工作中，我们实证研究英语文本的多样性得分。我们发现，计算高效的压缩算法捕获的信息类似于通过缓慢计算 n gram 重叠同质性分数所测量的信息。此外，压缩比、长 n 克的自重复以及 Self BLEU 和 BERTScore 的测量组合足以进行报告，因为它们彼此之间的相关性较低。分数的适用性超出了生成模型的分析范围，例如，我们重点介绍了在指令调整数据集和人类生成的文本上的应用。

Large Language Models for Simultaneous Named Entity Extraction and Spelling Correction
Authors Edward Whittaker, Ikuo Kitagishi
语言模型 LM（例如 BERT）已被证明在识别文本中的命名实体 NE 的任务中表现良好。

ROME: Memorization Insights from Text, Probability and Hidden State in Large Language Models
Authors Bo Li, Qinghua Zhao, Lijie Wen
探索大型语言模型的记忆具有重要意义。先前的工作已经建立了量化记忆的指标，探索了各种影响因素，例如数据重复、模型大小和提示长度，并通过将模型输出与训练语料库进行比较来评估记忆。然而，训练语料库规模巨大，预处理耗时。为了在不访问训练数据的情况下探索记忆，我们提出了一种名为 ROME 的新方法，其中通过比较已记忆和未记忆之间的差异来探索记忆。具体来说，模型首先将选定的样本分为记忆组和非记忆组，然后从文本、概率和隐藏状态的见解来比较两组中的演示。

Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical Chinese
Authors Yuqi Chen, Sixuan Li, Ying Li, Mohammad Atari
在这项工作中，我们开发了一个用于古典汉语历史心理文本分析的管道。数千年来，人类一直在用各种语言生成文本，然而，大多数计算文献都集中在当代语言和语料库上。历史心理学这一新兴领域依靠计算技术，利用自然语言处理 NLP 中开发的新方法从历史语料库中提取心理学的各个方面。目前的流程称为情境化建构表征 CCR，将心理测量学的专业知识（即心理调查）与通过基于转换器的语言模型生成的文本表征相结合，以测量古典汉语语料库中的传统主义、规范强度和集体主义等心理建构。考虑到可用数据的稀缺性，我们提出了一种间接监督对比学习方法，并建立了第一个中国历史心理学语料库 C HI PSY 来微调预训练模型。我们评估该管道以证明其与其他方法相比的优越性能。 CCR 方法在我们的所有任务中都优于基于词嵌入的方法，并且在大多数任务中超过了 GPT 4 的提示。

PoTeC: A German Naturalistic Eye-tracking-while-reading Corpus
Authors Deborah N. Jakobi, Thomas Kern, David R. Reich, Patrick Haller, Lena A. J ger
波茨坦教科书语料库 PoTeC 是一个自然主义的阅读时眼动追踪语料库，包含 75 名参与者阅读 12 篇科学文本的数据。 PoTeC 是第一个自然主义的阅读语料库，其中包含来自领域专家以及参与者内部操作中的新手的眼球运动。它基于 2x2x2 完全交叉的因子设计，其中包括参与者的学习水平和参与者的学习学科：主题因素和文本域之间作为主题内因素。参与者的阅读理解能力通过一系列文本理解问题进行评估，他们的领域知识通过每个文本的文本独立背景问题进行测试。这些材料针对不同级别的各种语言特征进行了注释。我们预计 PoTeC 将用于广泛的研究，包括但不限于专家和非专家阅读策略的分析。

Do Zombies Understand? A Choose-Your-Own-Adventure Exploration of Machine Cognition
Authors Ariel Goldstein, Gabriel Stanovsky
法学硕士的最新进展引发了关于他们是否理解文本的争论。在这篇立场文件中，我们认为这场辩论的反对者对理解持有不同的定义，尤其是对意识作用的看法不同。为了证实这一说法，我们提出了一个思想实验，涉及一个开源聊天机器人 Z，它在所有可能的基准上都表现出色，似乎没有主观经验。我们询问 Z 是否有能力理解，并表明开创性人工智能研究中的不同思想流派似乎对这个问题有不同的回答，揭示了他们在术语上的分歧。

LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues
Authors Joe Stacey, Jianpeng Cheng, John Torr, Tristan Guigue, Joris Driesen, Alexandru Coca, Mark Gaynor, Anders Johannsen
在基于变压器的大型语言模型法学硕士的最新进展的推动下，虚拟助理准备在对话能力方面取得巨大飞跃。然而，实现真正变革性的面向任务的对话能力的一个主要瓶颈仍然是缺乏高质量和语言复杂的数据。现有的数据集虽然规模令人印象深刻，但领域覆盖范围有限，并且几乎不包含真正具有挑战性的对话现象，而这些现象通常是未标记的，因此如果不进行耗时且昂贵的人工评估，就很难评估模型的优缺点。此外，到目前为止，创建高质量的对话数据需要大量的人力输入，这限制了这些数据集的规模以及为新目标领域快速引导数据的能力。我们的目标是通过 LUCID 来克服这些问题，LUCID 是一个模块化且高度自动化的 LLM 驱动数据生成系统，可产生现实、多样化且具有挑战性的对话。我们使用 LUCID 生成包含 100 个意图的 4,277 个多域、多意图对话的种子数据集，以展示其功能。生成的对话包括各种具有挑战性的现象和不同的用户行为，可以通过一组回合级别标签方便地识别。最后，我们为可见和不可见的意图提供单独的测试集，以便方便地进行分布外评估。

Your Model Is Not Predicting Depression Well And That Is Why: A Case Study of PRIMATE Dataset
Authors Kirill Milintsevich 1 and 2 , Kairit Sirts 2 , Ga l Dias 1 1 University of Caen Normandy, 2 University of Tartu
本文讨论了用于根据社交媒体文本进行基于 NLP 的抑郁水平估计的心理健康数据集中注释的质量。虽然之前的研究依赖于基于社交媒体的数据集，并用二元类别（即抑郁或非抑郁）注释，但最近的数据集（例如 D2S 和 PRIMATE）旨在使用 PHQ 9 症状进行细致的注释。然而，这些数据集大多数依赖于没有领域知识的人群工作者来进行注释。我们的研究重点关注 PRIMATE 数据集，揭示了对注释有效性的担忧，特别是缺乏兴趣或愉悦症状。通过心理健康专业人士的重新注释，我们引入了更精细的标签和文本跨度作为证据，识别了大量的误报。我们的精细注释将根据数据使用协议发布，为快感缺失检测提供更高质量的测试集。

Hierarchical Indexing for Retrieval-Augmented Opinion Summarization
Authors Tom Hosking, Hao Tang, Mirella Lapata
我们提出了一种无监督的抽象意见总结方法，它将提取方法的可归因性和可扩展性与大型语言模型法学硕士的连贯性和流畅性结合起来。我们的方法 HIRO 学习一种索引结构，该结构通过语义组织的离散层次结构将句子映射到路径。在推理时，我们填充索引并使用它来识别和检索包含来自输入评论的流行意见的句子簇。然后，我们使用预训练的 LLM 生成基于这些提取的证据簇的可读摘要。我们方法的模块化使我们能够评估其在每个阶段的功效。我们表明 HIRO 学习了一个比之前的工作在语义上更加结构化的编码空间，并生成更能代表输入评论中的观点的摘要。

LLMs for Targeted Sentiment in News Headlines: Exploring Different Levels of Prompt Prescriptiveness
Authors Jana Juro , Laura Majer, Jan najder
新闻标题通常通过故意以特定方式描绘实体来唤起情绪，这使得对标题进行有针对性的情绪分析 TSA 成为一项有价值但艰巨的任务。微调编码器模型显示出令人满意的 TSA 性能，但其背景知识有限，并且需要标记数据集。法学硕士因其广泛的语言和世界知识以及情境学习能力而为 TSA 提供了潜在的通用解决方案，但其表现很大程度上受到即时设计的影响。与主观任务的注释范式相似，我们探讨了提示设计对新闻头条 TSA 法学硕士表现的影响。我们使用具有不同规范性级别的提示来评估最先进的法学硕士的预测准确性，范围从简单的零镜头到与注释指南匹配的精心设计的少数镜头提示。认识到 TSA 的主观本质，我们评估了法学硕士通过校准误差和与人类注释者协议的相关性来量化预测不确定性的能力。

Rethinking Tokenization: Crafting Better Tokenizers for Large Language Models
Authors Jinbiao Yang
标记化显着影响语言模型 LM 的性能。本文追溯了分词器从单词级到子词级的演变，分析了它们如何平衡标记和类型以增强模型适应性，同时控制复杂性。尽管像 Byte Pair Encoding BPE 这样的子词分词器克服了许多单词分词器的限制，但它们在处理非拉丁语言时遇到了困难，并且严重依赖大量的训练数据和计算资源来掌握多词表达式 MWE 的细微差别。本文认为，分词器不仅仅是技术工具，还应该从人类语言处理的认知科学中汲取灵感。然后，本研究介绍了认知科学中的“最小努力原则”，即人类自然地寻求减少认知努力，并讨论了该原则对分词器开发的好处。基于这一原则，本文提出Less is Better LiB 模型可以成为LLM tokenizer 的一种新方法。 LiB模型可以自主学习由子词、单词和MWE组成的集成词汇表，有效减少了token的数量和类型。

Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish
Authors Recep Firat Cekinel, Pinar Karagoz, Cagri Coltekin
错误信息通过社交媒体平台迅速传播，引发了人们对其对公众舆论影响的担忧。虽然错误信息在其他语言中也很普遍，但该领域的大多数研究都集中在英语上。因此，包括土耳其语在内的其他语言的数据集很缺乏。为了解决这个问题，我们引入了 FCTR 数据集，其中包含 3238 个现实世界的索赔。该数据集跨越多个领域，并包含从三个土耳其事实核查组织收集的证据。此外，我们的目标是评估跨语言迁移学习对资源匮乏语言的有效性，特别关注土耳其语。我们在上下文学习中展示了大型语言模型在这种情况下的零样本和少量样本性能。

Post-decoder Biasing for End-to-End Speech Recognition of Multi-turn Medical Interview
Authors Heyang Liu, Yu Wang, Yanfeng Wang
端到端 E2E 方法正在逐渐取代自动语音识别 ASR 任务的混合模型。然而，E2E模型的优化缺乏直观的方法来处理解码移位，特别是在具有大量具有特定重要含义的特定领域稀有词的场景中。此外，学术界缺乏知识密集型语音数据集一直是一个重要的限制因素，常用的语音语料库与现实对话表现出显着差异。为了应对这些挑战，我们提出了 Medical Interview MED IT，这是一个多轮咨询语音数据集，其中包含大量知识密集型命名实体。我们还探索了增强端到端模型稀有词识别性能的方法。我们提出了一种新颖的方法，即解码器后偏置，它根据训练转录的分布构建变换概率矩阵。这引导模型优先识别偏差列表中的单词。

Self-Consistent Reasoning-based Aspect-Sentiment Quad Prediction with Extract-Then-Assign Strategy
Authors Jieyong Kim, Ryang Heo, Yongsik Seo, SeongKu Kang, Jinyoung Yeo, Dongha Lee
在情感四边形预测 ASQP 任务中，预测情感四边形的生成方法已经显示出有希望的结果。然而，由于数据稀缺和四联体组成过程的建模不充分，它们仍然面临着不精确的预测和有限的可解释性。在本文中，我们提出了基于自洽推理的方面情感四元组预测SCRAP，优化其模型以依次生成推理和相应的情感四元组。 SCRAP采用了Extract 然后Assign的推理策略，该策略非常模仿人类的认知。

Semi-Instruct: Bridging Natural-Instruct and Self-Instruct for Code Large Language Models
Authors Xianzhen Luo, Qingfu Zhu, Zhiming Zhang, Xu Wang, Qing Yang, Dongliang Xu, Wanxiang Che
指令调优在代码大型语言模型、代码 LLM 的程序综合任务中发挥着关键作用。目前，收集调优数据的两种主要范例是人工编写的自然指令和自动生成的自指令。自然指令包括多样且正确的代码，但缺乏指令代码对，并且存在嵌套单行代码等不正确的代码格式。相反，自指令会自动生成正确的配对数据。但由于产生重复，其多样性较低，无法保证代码的正确性。为了弥合这两种范式，我们提出了 textbf Semi Instruct 。它首先通过类似于自指令的方法将自然指令中的各种但不正确的代码转换为正确的指令代码对。为了验证生成代码的正确性，我们设计了一种新颖的方法来构建测试用例，通过生成案例输入并从自然指令执行正确的代码来获得输出。最后，保留多样且正确的指令代码对用于指令调优。实验表明，半指令明显优于自然指令和自指令。

DPP-Based Adversarial Prompt Searching for Lanugage Models
Authors Xu Zhang, Xiaojun Wan
语言模型有产生无意识和攻击性内容的风险，这阻碍了它们的安全部署。因此，在部署之前发现并修改预训练语言模型的潜在有毒输出至关重要。在这项工作中，我们通过自动搜索提示来引出有毒内容，该提示引导预先训练的语言模型生成特定的目标输出。由于文本数据的离散性质以及语言模型的单次前向传递所需的大量计算资源，该问题具有挑战性。为了应对这些挑战，我们引入了自动回归选择性替换 Ascent ASRA，这是一种离散优化算法，它根据质量和与行列式点过程 DPP 的相似性来选择提示。六种不同的预训练语言模型的实验结果证明了 ASRA 引出有毒内容的功效。

Gender Bias in Large Language Models across Multiple Languages
Authors Jinman Zhao, Yitian Ding, Chen Jia, Yining Wang, Zifan Qian
随着大型语言模型法学硕士在各种应用程序中的部署不断增加，评估法学硕士中性别偏见的影响变得至关重要。自然语言处理 NLP 领域中的性别偏见话题已获得相当多的关注，特别是在英语环境中。尽管如此，对英语以外语言中性别偏见的调查仍然相对不够探索和充分分析。在这项工作中，我们研究了法学硕士为不同语言生成的输出中的性别偏见。我们使用三种测量方法 1 在给定性别相关背景的情况下选择描述性词语时存在性别偏见。 2.性别偏见选择性别相关代词she he给出描述性词语。 3 LLM 话题中的性别偏见产生的对话。我们使用三种测量方法研究了各种语言的 GPT 系列法学硕士的输出。

Extracting Polymer Nanocomposite Samples from Full-Length Documents
Authors Ghazal Khalighinejad, Defne Circi, L.C. Brinson, Bhuwan Dhingra
本文研究了使用大型语言模型 LLM 从完整的材料科学研究论文中提取聚合物纳米复合材料 PNC 的样本列表。挑战在于 PNC 样本的复杂性，它们具有散布在整个文本中的众多属性。在 PNC 上注释详细信息的复杂性限制了数据的可用性，由于创建全面的命名实体跨度注释的挑战，使得传统的文档级关系提取技术变得不切实际。为了解决这个问题，我们为此任务引入了新的基准和评估技术，并以零样本的方式探索不同的提示策略。我们还结合自我一致性来提高性能。我们的研究结果表明，即使是高级法学硕士也很难从一篇文章中提取所有样本。

EUROPA: A Legal Multilingual Keyphrase Generation Dataset
Authors Olivier Sala n, Fr d ric Piedboeuf, Guillaume Le Berre, David Alfonso Hermelo, Philippe Langlais
关键词生成主要在学术研究文章的背景下进行探索，特别关注科学领域和英语。在这项工作中，我们提出了 EUROPA，这是一个用于法律领域多语言关键短语生成的数据集。它源自欧盟法院的法律判决 EU ，包含所有 24 种欧盟官方语言的实例。

CASIMIR: A Corpus of Scientific Articles enhanced with Multiple Author-Integrated Revisions
Authors Leane Jourdan, Florian Boudin, Nicolas Hernandez, Richard Dufour
撰写科学文章是一项具有挑战性的任务，因为它是一种高度编码和特定的体裁，因此熟练掌握书面交流对于有效传达研究成果和想法至关重要。在本文中，我们提出了关于科学文章写作过程的修订步骤的原始文本资源。这个名为 CASIMIR 的新数据集包含来自 OpenReview 的 15,646 篇科学文章的多个修订版本及其同行评审。文章的连续版本对在句子级别对齐，同时保留段落位置信息作为元数据，以支持未来在话语级别的修订研究。每对修改后的句子都通过自动提取的编辑和相关的修改意图进行了丰富。为了评估数据集的初始质量，我们对几种最先进的文本修订方法进行了定性研究，并比较了各种评估指标。

Benchmarking zero-shot stance detection with FlanT5-XXL: Insights from training data, prompting, and decoding strategies into its near-SoTA performance
Authors Rachith Aiyappa, Shruthi Senthilmani, Jisun An, Haewoon Kwak, Yong Yeol Ahn
我们研究了基于 LLM 的零射击姿势检测在推文上的性能。使用 FlanT5 XXL（一种指令调整的开源 LLM）以及 SemEval 2016 Tasks 6A、6B 和 P Stance 数据集，我们研究了不同提示和解码策略下的性能及其变化，以及模型的潜在偏差。我们证明零样本方法可以匹配或超越最先进的基准，包括微调模型。我们对其性能提供了各种见解，包括对指令和提示的敏感性、解码策略、提示的复杂性以及提示中存在的否定和反对。

A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection
Authors Taichi Aida, Danushka Bollegala
对于必须做出时间敏感预测的各种 NLP 应用程序来说，检测单词的时间语义变化是一项重要任务。词汇语义变化检测 SCD 任务考虑预测给定目标词 w 是否在两个不同文本语料库 C 1 和 C 2 之间改变其含义的问题。为此，我们提出了一种有监督的两阶段 SCD 方法，该方法使用现有的 Word in Context WiC 数据集。在第一阶段，对于目标单词 w ，我们学习两个意义感知编码器，它们表示从语料库中选择的给定句子中 w 的含义。接下来，在第二阶段，我们学习一种感知距离度量，该度量比较目标单词在 C 1 和 C 2 中所有出现的情况的语义表示。 SCD 多个基准数据集上的实验结果表明，我们提出的方法始终优于所有先前提出的多种语言的 SCD 方法，为 SCD 建立了新颖的技术水平。有趣的是，我们的研究结果表明，有一些专门的维度携带与感知嵌入空间中单词的语义变化相关的信息。

Transcription and translation of videos using fine-tuned XLSR Wav2Vec2 on custom dataset and mBART
Authors Aniket Tathe, Anand Kamble, Suyash Kumbharkar, Atharva Bhandare, Anirban C. Mitra
这项研究解决了用最少的数据训练个性化语音 ASR 模型的挑战。我们仅利用 YouTube 视频中 14 分钟的自定义音频，采用基于检索的语音转换 RVC 来创建自定义 Common Voice 16.0 语料库。随后，跨语言自监督表示 XLSR Wav2Vec2 模型在此数据集上进行了微调。开发的基于 Web 的 GUI 可以有效地转录和翻译输入的印地语视频。

Improving Socratic Question Generation using Data Augmentation and Preference Optimization
Authors Nischal Ashok Kumar, Andrew Lan
苏格拉底式方法是一种指导学生独立解决问题而不直接揭示问题解决方案的方法。尽管这种方法已被证明可以显着提高学生的学习成果，但对于教师来说，它仍然是一项复杂的劳动密集型任务。大型语言模型法学硕士可以通过自动为学生生成苏格拉底式问题来增强人类的努力。然而，涉及提示这些法学硕士的现有方法有时会产生无效的输出，例如，直接揭示问题的解决方案或提供不相关或不成熟的问题的输出。为了缓解这个问题，受到人工智能反馈 RLAIF 强化学习的启发，我们首先提出了一种数据增强方法，用在特定方式下无效的问题来丰富现有的苏格拉底提问数据集。接下来，我们提出了一种使用直接偏好优化 DPO 来优化开源 LLM（例如 LLama 2）的方法，以优先选择真实问题而不是生成的无效问题。

AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language Model Outputs
Authors Sana Ebrahimi, Kaiwen Chen, Abolfazl Asudeh, Gautam Das, Nick Koudas
预训练的大型语言模型法学硕士拥有显着先进的自然语言处理能力，但很容易受到训练数据中存在的偏差的影响，从而导致各种应用程序中出现不公平的结果。虽然已经提出了许多策略来减轻偏差，但它们通常需要大量的计算资源，并且可能会损害模型性能。在这项工作中，我们介绍了 AXOLOTL，这是一种新颖的后处理框架，它可以跨任务和模型运行，利用公共 API 与 LLM 交互，而无需直接访问内部参数。通过类似于零样本学习的三步过程，AXOLOTL 识别偏差、提出解决方案并指导模型自行消除其输出偏差。

"Flex Tape Can't Fix That": Bias and Misinformation in Edited Language Models
Authors Karina Halevy, Anna Sotnikova, Badr AlKhamissi, Syrielle Montariol, Antoine Bosselut
模型编辑已成为更新语言模型中存储的知识的一种具有成本效益的策略。然而，在应用编辑后，模型编辑可能会产生意想不到的后果，与编辑无关的信息也可能被更改，并且模型的其他一般行为可能会被错误地更改。在这项工作中，我们研究了模型编辑方法如何意外地放大编辑后的模型偏差。我们引入了一个新颖的基准数据集 Seesaw CF，用于测量模型编辑的偏差相关危害，并首次深入研究不同权重编辑方法如何影响模型偏差。具体来说，我们关注种族、地理起源和性别等人口统计属性的偏见，以及编辑语言模型生成的长文本的质量缺陷。我们发现，经过编辑的模型在不同程度上表现出更多的偏见行为，因为它们对亚洲、非洲和南美受试者的属性变得不那么有信心。此外，经过编辑的模型在文本生成中放大了性别歧视和仇外心理，同时保持了看似连贯和逻辑性。

TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision
Authors Yunyi Zhang, Ruozhen Yang, Xueqiang Xu, Jinfeng Xiao, Jiaming Shen, Jiawei Han
分层文本分类旨在将每个文档分类为标签分类中的一组类。大多数早期的工作都集中在完全或半监督的方法上，这些方法需要大量的人工注释数据，而获取这些数据既昂贵又耗时。为了减轻人类的努力，在本文中，我们使用每个节点的唯一类名作为唯一的监督，以最少的监督进行分层文本分类。最近，大型语言模型 LLM 通过零样本提示在各种任务上显示出有竞争力的性能，但该方法在分层设置中表现不佳，因为在提示中包含大型且结构化的标签空间是无效的。另一方面，以前的弱监督分层文本分类方法仅利用原始分类框架，而忽略了文本语料库中隐藏的可作为附加类别指示特征的丰富信息。为了应对上述挑战，我们提出了 TELEClass、分类法丰富和 LLM 增强型弱监督分层文本分类，其中 1 使用从语料库中挖掘的类指示性主题术语自动丰富标签分类法，以促进分类器训练，2 利用 LLM 进行数据注释和为分层标签空间量身定制的创建。

EBBS: An Ensemble with Bi-Level Beam Search for Zero-Shot Machine Translation
Authors Yuqiao Wen, Behzad Shayegh, Chenyang Huang, Yanshuai Cao, Lili Mou
当我们训练具有某些翻译方向的多语言模型时，零镜头翻译的能力就会出现，然后该模型可以直接在看不见的方向上进行翻译。或者，零镜头翻译可以通过第三种语言（例如英语）来完成。在我们的工作中，我们观察到直接翻译和枢转翻译都有噪音，并且性能不太令人满意。我们提出了 EBBS，一种采用新颖的双层波束搜索算法的集成方法，其中每个集成组件在较低级别逐步探索自己的预测，但它们通过较高级别的软投票机制进行同步。两个流行的多语言翻译数据集的结果表明，EBBS 始终优于直接翻译和枢转翻译以及现有的集成技术。

Ensemble-Based Unsupervised Discontinuous Constituency Parsing by Tree Averaging
Authors Behzad Shayegh, Yuqiao Wen, Lili Mou
我们解决了无监督的不连续选区解析，我们观察到之前唯一模型的性能存在很大差异。我们建议通过对预测树进行平均来构建现有不连续解析器的不同运行的集合，以稳定和提高性能。首先，我们提供了在不同二元性和连续性设置下树平均的 P 和 NP 完整计算复杂性分析。然后，我们开发了一种高效精确的算法来处理该任务，该算法在我们实验中的所有样本上运行在合理的时间内。

EROS: Entity-Driven Controlled Policy Document Summarization
Authors Joykirat Singh, Sehban Fazili, Rohan Jain, Md Shad Akhtar
隐私政策文件在教育个人了解组织收集、使用和保护用户个人数据方面发挥着至关重要的作用。然而，它们因其冗长、复杂和令人费解的语言而臭名昭著，尤其是涉及隐私相关实体的语言。因此，它们对试图理解组织数据使用策略的用户构成了重大挑战。在本文中，我们建议通过使用受控抽象摘要来增强政策文件的可解释性和可读性，我们强制生成的摘要包括关键隐私相关实体（例如数据和媒介）以及组织的基本原理（例如收集这些实体的目标和原因）。为了实现这一目标，我们开发了 PD Sum，这是一个带有标记的隐私相关实体标签的政策文档摘要数据集。我们提出的模型 EROS 通过基于跨度的实体提取模型来识别关键实体，并利用它们来使用近端策略优化 PPO 来控制摘要的信息内容。比较表明在各种基线上都有令人鼓舞的改进。

Prompting ChatGPT for Translation: A Comparative Analysis of Translation Brief and Persona Prompts
Authors Sui He
法学硕士的即时工程已显示出提高翻译质量的潜力。然而，将翻译概念融入提示设计的潜力在很大程度上仍未得到充分开发。在此背景下，本文讨论了将翻译摘要概念工具以及译者和作者角色融入到 ChatGPT 翻译任务提示设计中的有效性。研究结果表明，尽管某些元素对于促进翻译任务中的人与人之间的交流具有建设性，但它们对于提高 ChatGPT 翻译质量的有效性有限。

FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition
Authors Xiaoqiang Wang, Bang Liu, Lingfei Wu
大型语言模型法学硕士主要根据各种文本理解和生成任务的整体表现进行评估。然而，这样的范式未能全面区分细粒度的语言和认知技能，导致法学硕士的能力缺乏充分的解释。在本文中，我们提出了 FAC 2 E，这是一个基于细粒度和认知基础的法学硕士能力评估框架。具体来说，我们通过分离语言相关能力和认知相关能力，以多维度、可解释的方式制定法学硕士评估。此外，通过提取LLM的中间推理，我们进一步将应用特定能力的过程分解为回忆相关知识、利用知识和解决问题三个子步骤。最后，FAC 2 E 评估每个细粒度能力的每个子步骤，为法学硕士提供两个方面的诊断。利用 FAC 2 E，我们发现了模型之间知识利用的常见缺陷，并提出了一种简单的知识增强方法来缓解这个问题。

PROC2PDDL: Open-Domain Planning Representations from Texts
Authors Tianyi Zhang, Li Zhang, Zhaoyi Hou, Ziyu Wang, Yuling Gu, Peter Clark, Chris Callison Burch, Niket Tandon
基于文本的环境中的规划仍然是人工智能系统的主要挑战。最近的方法使用语言模型来预测规划域定义，例如 PDDL，但仅在封闭域模拟环境中进行评估。为了解决这个问题，我们提出了 Proc2PDDL，这是第一个包含开放域程序文本与专家注释的 PDDL 表示配对的数据集。使用该数据集，我们评估了定义行动的先决条件和效果的最先进模型。我们表明 Proc2PDDL 具有很高的挑战性，GPT 3.5 s 的成功率接近 0，GPT 4 s 的成功率约为 35 。我们的分析显示了语法和语义错误，表明语言模型在生成特定领域程序和事件推理方面都存在缺陷。

Resonance RoPE: Improving Context Length Generalization of Large Language Models
Authors Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu
本文解决了在配备旋转位置嵌入 RoPE 的大型语言模型 LLM 中训练短测试长 TSTL 场景的挑战，其中在较短序列上预训练的模型面临较长序列中分布 OOD 令牌位置的困难。我们引入了 Resonance RoPE，这是一种新颖的方法，旨在通过细化 OOD 位置的 RoPE 特征插值来缩小 TSTL 场景中的泛化差距，从而显着提高模型性能，而无需额外的在线计算成本。此外，我们还推出了 PosGen，这是一种专门为 TSTL 场景中的细粒度行为分析而设计的新综合基准，旨在将长上下文中不断增加的令牌生成难度与识别新令牌位置的挑战隔离开来。我们对合成任务的实验表明，应用 Resonance RoPE 后，Transformers 可以更好、更稳健地识别 OOD 位置。

Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization
Authors Md Tahmid Rahman Laskar, Elena Khasanova, Xue Yong Fu, Cheng Chen, Shashi Bhushan TN
这项工作重点关注基于查询的会议摘要任务，其中响应特定查询生成上下文会议记录的摘要。当使用大型语言模型 LLM 执行此任务时，每个新查询都需要对 LLM 推理端点 API 进行新调用，即使上下文保持不变也是如此。然而，重复调用 LLM 推理端点将显着增加在生产中使用它们的成本，使得 LLM 对于许多现实世界的用例来说不切实际。为了解决这个问题，在本文中，我们研究了是否可以在会议摘要中成功使用在单个提示中组合对相同输入上下文的查询以最大程度地减少重复调用。在这方面，我们通过比较各种流行的 LLM GPT 4、PaLM 2、LLaMA 2、Mistral 和 FLAN T5 在单查询和多查询设置中的性能进行了广泛的实验。我们观察到，虽然大多数 LLM 倾向于响应多查询指令，但几乎所有除 GPT 4 之外的指令，即使经过微调，也无法正确生成所需输出格式的响应。

AtP*: An efficient and scalable method for localizing LLM behaviour to components
Authors J nos Kram r, Tom Lieberum, Rohin Shah, Neel Nanda Google DeepMind
激活修补是一种直接计算模型组件行为的因果归因的方法。然而，彻底应用它需要对模型组件的数量进行线性缩放，这对于 SoTA 大型语言模型法学硕士来说可能非常昂贵。我们研究了归因修补 AtP（一种基于快速梯度的激活修补近似），并发现了 AtP 的两类故障模式，这些模式会导致严重的漏报。我们提出了一种名为 AtP 的 AtP 变体，通过两项更改来解决这些故障模式，同时保留可扩展性。我们首次对 AtP 和用于更快激活修补的替代方法进行了系统研究，并表明 AtP 显着优于所有其他研究方法，并且 AtP 提供了进一步的显着改进。

Provably Robust DPO: Aligning Language Models with Noisy Feedback
Authors Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan
最近，从基于偏好的反馈中学习作为一种将语言模型与人类兴趣结合起来的有前景的方法受到了关注。虽然这些对齐的生成模型在各种任务中表现出了令人印象深刻的能力，但它们对高质量人类偏好数据的依赖在实际应用中造成了瓶颈。具体来说，数据集中的嘈杂、不正确和模糊的偏好对可能会限制语言模型准确捕获人类意图。

Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs
Authors Nishanth Chandran, Sunayana Sitaram, Divya Gupta, Rahul Sharma, Kashish Mittal, Manohar Swaminathan
由于其速度、可复制性和低成本，基准测试是评估法学硕士的事实上的标准。然而，最近的工作指出，目前可用的大多数开源基准已被污染或泄漏到 LLM 中，这意味着 LLM 可以在预训练和/或微调期间访问测试数据。这引起了人们对迄今为止进行的基准研究的有效性以及使用基准进行评估的未来的严重担忧。为了解决这个问题，我们提出了私有基准测试，这是一种将测试数据集保持私有并在不向模型透露测试数据的情况下评估模型的解决方案。我们根据对模型所有者或数据集所有者的信任描述各种场景，并提出使用私人基准测试避免数据污染的解决方案。对于模型权重需要保密的场景，我们描述了机密计算和密码学的解决方案，可以帮助进行私密基准测试。

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
Authors Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu
以 GPT 4V 为代表的大型视觉语言模型 LVLM 在涉及自然场景中的具体图像的各种任务中表现出色。然而，由于科学领域训练数据集的缺乏，他们解释抽象图形（例如几何形状和科学绘图）的能力仍然有限。为了填补这一空白，我们引入了由 ArXivCap 和 ArXivQA 组成的 Multimodal ArXiv，用于增强 LVLM 的科学理解。 ArXivCap 是一个图形标题数据集，包含 640 万张图像和 390 万张标题，这些图像和标题源自跨越各个科学领域的 572K ArXiv 论文。借鉴ArXivCap，我们引入了ArXivQA，这是一个基于科学数据提示GPT 4V生成的问答数据集。 ArXivQA 极大地增强了 LVLM 的数学推理能力，在多模态数学推理基准上实现了 10.4 的绝对精度增益。此外，利用 ArXivCap，我们设计了四个视觉到文本任务来对 LVLM 进行基准测试。最先进的 LVLM 的评估结果强调了他们与学术人物的微妙语义的斗争，通过特定领域的培训产生了显着的性能提升。

LoRA-as-an-Attack! Piercing LLM Safety Under The Share-and-Play Scenario
Authors Hongyi Liu, Zirui Liu, Ruixiang Tang, Jiayi Yuan, Shaochen Zhong, Yu Neng Chuang, Li Li, Rui Chen, Xia Hu
微调法学硕士对于提高其特定任务性能并确保模型行为符合人类偏好至关重要。在各种微调方法中，LoRA 以其高效和易用性而广受欢迎，允许最终用户轻松地在开源平台上发布和采用轻量级 LoRA 模块，以针对不同的定制来定制其模型。然而，如此方便的共享和播放设置开辟了新的攻击面，攻击者可以将LoRA渲染为攻击者，例如后门注入，并轻松地将对抗性LoRA广泛分发到社区。这可能会导致有害的结果。尽管共享 LoRA 模块存在巨大的潜在风险，但这方面尚未得到充分探讨。为了填补这一空白，在本研究中，我们彻底调查了不断增长的共享和游戏场景中所带来的攻击机会。具体来说，我们研究了如何向LoRA模块注入后门，并深入研究LoRA的感染机制。我们发现 LoRA 后门注入中可以采用免训练机制。我们还发现了后门攻击对同时存在多个 LoRA 适配以及基于 LoRA 的后门可转移性的影响。我们的目的是提高人们对新兴分享和游戏场景下潜在风险的认识，从而主动预防 LoRA 作为攻击造成的潜在后果。

SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation
Authors Xue Jiang, Yihong Dong, Zhi Jin, Ge Li
尽管大型语言模型法学硕士在代码生成方面取得了重大进展，但他们仍然在特定场景下的代码生成任务上苦苦挣扎。这些场景通常需要对 LLM 进行调整才能满足特定需求，但实践中可用的训练数据有限，导致代码生成性能不佳。如何用更少的训练样本有效地使LLM适应新的场景是当前代码生成的一大挑战。在本文中，我们提出了一种名为 SEED 的新颖适应方法，它代表代码生成的错误驱动学习的样本有效适应。 SEED将LLM所犯的错误作为学习机会，通过错误修正来克服自身的缺点，从而实现高效的学习。具体来说，SEED 涉及识别 LLM 生成的错误代码、采用自我修订进行代码修订、使用修订后的代码优化模型，以及迭代地调整流程以实现持续改进。实验结果表明，与传统的微调方法相比，SEED 以更少的训练样本实现了优越的性能，在第 1 轮中相对提高了 27.2 325.0。我们还验证了 Self revise 的有效性，它生成了更优化模型的修改代码与数据集中的代码示例进行有效比较。

Evolving to the Future: Unseen Event Adaptive Fake News Detection on Social Media
Authors Jiajun Zhang, Zhixun Li, Qiang Liu, Shu Wu, Liang Wang
随着社交媒体的快速发展，虚假新闻在社交媒体上的广泛传播日益威胁着个人和社会。在社交媒体的动态格局中，假新闻检测旨在开发一种针对新闻报道过去事件进行训练的模型。其目标是预测和识别有关未来事件的假新闻，这些事件通常涉及与过去完全不同的主题。然而，现有的虚假检测方法缺乏鲁棒性，不能推广到未见过的事件。为了解决这个问题，我们引入了基于未来自适应事件的假新闻检测 FADE 框架。具体来说，我们通过自适应增强策略和图对比学习来训练目标预测器，以做出更稳健的整体预测。同时，我们独立训练仅事件预测器以获得有偏差的预测。然后，我们通过从目标预测器的输出中减去仅事件预测器的输出来获得最终预测，从而进一步减轻事件偏差。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com