【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024

AI视野·今日CS.NLP 自然语言处理论文速览
Thu, 18 Jan 2024
Totally 35 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text
Authors Mazal Bethany, Brandon Wherry, Emet Bethany, Nishant Vishwamitra, Peyman Najafirad
随着最近大型语言模型法学硕士的激增，对检测机器生成文本的工具的需求不断增加。机器生成文本的有效检测面临两个相关问题首先，它们在泛化现实世界场景方面受到严重限制，其中机器生成文本是由各种生成器生成的，包括但不限于 GPT 4 和 Dolly，并且跨越不同的领域，从学术手稿到社交媒体帖子。其次，现有的检测方法通过限制性的二元分类镜头来处理法学硕士生成的文本，忽略了不同法学硕士生成的工件的细微差别。在这项工作中，我们对现实世界场景中机器生成文本的检测进行了系统研究。我们首先研究最先进方法的有效性，发现它们对于现实世界中不同生成器和领域生成的文本受到严重限制。此外，来自预训练的 LLM 编码器的嵌入的 t SNE 可视化表明，它们无法可靠地区分人类和机器生成的文本。基于我们的发现，我们引入了一种新颖的系统 T5LLMCipher，用于使用预训练的 T5 编码器结合 LLM 嵌入子聚类来检测机器生成的文本，以处理现实世界中不同生成器和域生成的文本。我们跨 9 个机器生成的文本系统和 9 个领域评估了我们的方法，发现我们的方法提供了最先进的泛化能力，与表现最佳的现有方法相比，在未见过的生成器和领域上，机器生成的文本的 F1 分数平均提高了 19.6

Stuck in the Quicksand of Numeracy, Far from AGI Summit: Evaluating LLMs' Mathematical Competency through Ontology-guided Perturbations
Authors Pengfei Hong, Deepanway Ghosal, Navonil Majumder, Somak Aditya, Rada Mihalcea, Soujanya Poria
大型语言模型法学硕士的最新进展在现有逻辑推理基准上展示了惊人的结果，其中一些模型甚至超越了人类的表现。然而，他们在数学推理任务中的能力和稳健性的真正深度仍然是一个悬而未决的问题。作为回应，我们开发了数学问题扰动的本体论，半自动扰动方法，以及扰动数学问题的数据集，以探讨法学硕士在数学推理任务中能力的极限。这些受控扰动跨越数学问题的结构和表征方面的多个精细维度。使用 GPT 4，我们通过扰动从 GSM8K 中随机选择的五个种子问题来生成 MORE 数据集。这个过程以我们的本体论为指导，涉及彻底的自动和手动过滤过程，产生了一组 216 个数学问题。我们对 MORE 上的闭源和开源 LLM 进行了综合评估。结果显示，针对扰动问题，所有模型的性能均显着下降。这强烈表明目前的法学硕士缺乏扎实的数学技能和深刻的推理能力。这项研究不仅确定了当前模型能力的多个差距，而且还强调了未来发展的多个潜在方向。

Efficient slot labelling
Authors Vladimir Vlasov
槽位标签是任何对话系统的重要组成部分，旨在在每个用户回合中找到重要的论点。常见的方法涉及 BERT 或 RoBERTa 等大型预训练语言模型 PLM，但它们面临计算要求高和对预训练数据依赖等挑战。在这项工作中，我们提出了一种轻量级方法，其性能与最先进的基于 PLM 的方法相当或更好，同时可训练参数减少了近 10 倍。

Large Language Models Are Neurosymbolic Reasoners
Authors Meng Fang, Shilong Deng, Yudi Zhang, Zijing Shi, Ling Chen, Mykola Pechenizkiy, Jun Wang
现实世界中广泛的应用以其符号性质为特征，需要强大的符号推理能力。本文研究了大型语言模型法学硕士作为符号推理器的潜在应用。我们专注于基于文本的游戏，这是具有自然语言能力的智能体的重要基准，特别是数学、地图阅读、排序和在基于文本的世界中应用常识等符号任务。为了促进这些代理的发展，我们提出了一个 LLM 代理，旨在解决象征性挑战并实现游戏目标。我们首先初始化 LLM 代理并告知其角色。然后，代理从基于文本的游戏接收观察结果和一组有效动作，以及特定的符号模块。通过这些输入，LLM 代理可以选择一个操作并与游戏环境进行交互。

Machines Do See Color: A Guideline to Classify Different Forms of Racist Discourse in Large Corpora
Authors Diana Davila Gordillo, Joan Timoneda, Sebastian Vallejo Vera
当前识别和分类文本中种族主义语言的方法依赖于小n定性方法或仅关注种族主义话语的公开形式的大n方法。本文提供了一个逐步概括的指南，用于识别和分类大型语料库中不同形式的种族主义话语。在我们的方法中，我们首先概念化种族主义及其不同表现形式。然后，我们将这些种族主义表现与感兴趣的时间和地点联系起来，这使研究人员能够识别其话语形式。最后，我们应用了 XLM RoBERTa XLM R，这是一种用于监督文本分类的跨语言模型，具有对文本的前沿上下文理解。我们证明，XLM R 和 XLM R Racismo（我们的预训练模型）在大型语料库中对种族主义进行分类方面优于其他最先进的方法。

Learning from Emotions, Demographic Information and Implicit User Feedback in Task-Oriented Document-Grounded Dialogues
Authors Dominic Petrak, Thy Thy Tran, Iryna Gurevych
面向任务和基于文档的对话系统的成功取决于用户接受并享受使用它们。为了实现这一目标，最近发表的人机交互领域的工作表明，考虑人口统计信息、用户情绪和从他们的话语中隐含的反馈中学习相结合尤为重要。然而，这些发现尚未转移到自然语言处理领域，这些数据主要是单独研究的。因此，没有充分注释的数据集可用。为了解决这一差距，我们引入了 FEDI，这是第一个用于面向任务的基于文档的对话的英语对话数据集，并用人口统计信息、用户情绪和隐式反馈进行注释。

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges
Authors Aiqi Jiang, Arkaitz Zubiaga
社交媒体中攻击性语言的日益盛行和快速发展加剧了检测的复杂性，尤其凸显了跨语言识别此类内容的挑战。这项调查对社交媒体中的攻击性语言检测中的跨语言迁移学习 CLTL 技术进行了系统而全面的探索。我们的研究是第一个专门关注该领域跨语言场景的整体概述。我们分析了 67 篇相关论文，并从各个维度对这些研究进行了分类，包括所使用的多语言数据集的特征、所使用的跨语言资源以及实施的具体 CLTL 策略。根据传输内容，我们还总结了三种主要的 CLTL 传输方式：实例、特征和参数传输。此外，我们还阐明了该领域当前的挑战和未来的研究机会。

UniVIE: A Unified Label Space Approach to Visual Information Extraction from Form-like Documents
Authors Kai Hu, Jiawei Wang, Weihong Lin, Zhuoyao Zhong, Lei Sun, Qiang Huo
从类似文档的形式中提取视觉信息VIE的现有方法通常将过程分割成单独的子任务，例如关键信息提取、键值对提取和选择组提取。然而，这些方法常常忽略表单文档的层次结构，包括层次键值对和层次选择组。为了解决这些限制，我们提出了一个新的视角，将 VIE 重新定义为关系预测问题，并将不同任务的标签统一到单个标签空间中。这种统一的方法允许定义各种关系类型，并有效地处理文档等形式的层次关系。基于这个视角，我们提出了UniVIE，一个全面解决VIE问题的统一模型。 UniVIE 使用从粗到细的策略运行。它最初通过树提案网络生成树提案，随后通过关系解码器模块将其细化为分层树。为了增强 UniVIE 的关系预测能力，我们将两个新颖的树约束合并到关系解码器中：树注意掩模和树级嵌入。

QAnswer: Towards Question Answering Search over Websites
Authors Kunpeng Guo, Clement Defretiere, Dennis Diefenbach, Christophe Gravier, Antoine Gourru
搜索引擎越来越多地使用问答 QA 来向最终用户提供结果，但目前很少有网站将 QA 技术用于其搜索功能。为了说明 QA 技术对网站搜索从业者的潜力，我们演示了将知识图谱 QA 和自由文本 QA 结合起来的网络搜索，每个搜索通常单独处理。我们还讨论了两种网站搜索方法的不同优点和缺点。我们使用维基媒体基金会托管的网站（即维基百科和维基数据）进行的案例研究。与搜索引擎不同，例如

Fine-tuning Strategies for Domain Specific Question Answering under Low Annotation Budget Constraints
Authors Kunpeng Guo, Dennis Diefenbach, Antoine Gourru, Christophe Gravier
预训练语言模型及其微调带来的进步导致大多数下游 NLP 任务的显着改进。语言模型的无监督训练与进一步的目标任务微调相结合已成为标准的 QA 微调程序。在这项工作中，我们证明了这种策略对于微调 QA 模型来说不是最优的，特别是在 QA 注释预算较低的情况下，由于提取 QA 标签成本，这是实践中的常见设置。我们通过对不同 QA 数据集上的顺序微调策略的替代方案的性能进行详尽的分析来得出结论。根据所进行的实验，我们观察到，在低预算设置中微调 QA 模型的最佳策略是采用预先训练的语言模型 PLM，然后使用由目标数据集和 SQuAD 数据集组成的数据集微调 PLM。在零额外注释工作的情况下，最佳策略的性能比标准策略高出 2.28 到 6.48。

Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System
Authors Feng Jiang, Kuang Wang, Haizhou Li
在当代信息时代，大规模语言模型的出现大大加速了科学文献的扩散达到了前所未有的水平。研究人员迫切需要有效的工具来阅读和总结学术论文、发现重要的科学文献以及采用不同的解释方法。为了满足这一不断增长的需求，自动化科学文献解释系统的作用变得至关重要。然而，流行的模型，无论是商业模型还是开源模型，都面临着显着的挑战，它们经常忽视多模态数据，努力总结超长的文本，并且缺乏多样化的用户界面。为此，我们引入了一个开源多模式自动化学术论文解释系统 MMAPIS，该系统具有三个步骤流程阶段，并结合法学硕士来增强其功能。我们的系统首先采用混合模态预处理和对齐模块来分别从文档中提取纯文本、表格或图形。然后，它根据这些信息所属的部分名称来对齐这些信息，确保具有相同部分名称的数据被分类在同一部分下。接下来，我们介绍一种分层话语感知摘要方法。它利用提取的章节名称将文章分为较短的文本段，通过具有特定提示的法学硕士促进章节内和章节之间的具体总结。最后，我们设计了四种多样化的用户界面，包括论文推荐、多模态问答、音频广播和解读博客，可广泛应用于各种场景。

What makes for a 'good' social actor? Using respect as a lens to evaluate interactions with language agents
Authors Lize Alberts, Geoff Keeling, Amanda McCroskery
随着基于大型语言模型法学硕士的对话代理越来越受欢迎，人们迫切关注寻找确保其行为合乎道德且适当的方法。这些主要根据 HHH 标准进行解释，使输出更加有用和诚实，并避免有害的偏见、有毒或不准确的陈述。虽然从将法学硕士代理人视为纯粹的信息媒介的角度来看，这种语义焦点是有用的，但它未能考虑到可能使相同的话语在不同的社交场合中或多或少显得冒犯或不老练的实用因素。我们提出了一种更注重关系和情境因素的道德方法，探索作为社会参与者的系统在一系列互动中尊重个体意味着什么。

Textual Summarisation of Large Sets: Towards a General Approach
Authors Kittipitch Kuptavanich, Ehud Reiter, Kees Van Deemter, Advaith Siddharthan
我们正在开发生成对象集摘要描述的技术。在本文中，我们提出并评估了一种基于规则的 NLG 技术，用于总结学术论文中的参考文献集。

Explain Thyself Bully: Sentiment Aided Cyberbullying Detection with Explanation
Authors Krishanu Maity, Prince Jha, Raghav Jain, Sriparna Saha, Pushpak Bhattacharyya
随着不同社交媒体网络和在线通信应用程序的流行，网络欺凌已成为一个大问题。尽管正在进行大量研究来开发更好的单语语言网络欺凌检测模型，但对代码混合语言和网络欺凌的可解释性方面的研究却很少。最近的法律，例如《通用数据保护条例》的解释权，刺激了开发可解释模型的研究，而不是关注性能。受此启发，我们开发了第一个可解释的多任务模型 em mExCB，用于从代码混合语言中自动检测网络欺凌，它可以同时解决多个任务：网络欺凌检测、解释理由识别、目标群体检测和情绪分析。我们引入了 BullyExplain，这是第一个用于代码混合语言中可解释的网络欺凌检测的基准数据集。 em BullyExplain 数据集中的每个帖子都用四个标签进行注释，即 em bully 标签、情绪标签、目标和理由可解释性，即哪些短语负责将帖子注释为欺凌者。

Augmenting Math Word Problems via Iterative Question Composing
Authors Haoxiong Liu, Andrew Chi Chih Yao
尽管最近在提高大型语言模型法学硕士的数学推理能力方面取得了进展，但对于开源法学硕士来说，在不使用外部工具的情况下解决竞争级别的数学问题仍然具有挑战性。在这项工作中，我们引入了 MMIQC 数据集，它是经过处理的网络数据和合成问题响应对的混合体，旨在为基础模型配备更好的数学推理技能。

AttackEval: How to Evaluate the Effectiveness of Jailbreak Attacking on Large Language Models
Authors Dong shu, Mingyu Jin, Suiyuan Zhu, Beichen Wang, Zihao Zhou, Chong Zhang, Yongfeng Zhang
在我们的研究中，我们开创了一种新颖的方法来评估大型语言模型 LLM（例如 GPT 4 和 LLaMa2）越狱攻击的有效性，这与传统的注重稳健性的二进制评估不同。我们的研究引入了两种不同的评估框架：粗粒度评估和细粒度评估。每个框架都使用 0 到 1 的评分范围，提供独特的视角，从而能够对攻击有效性进行更全面、更细致的评估，并使攻击者能够更好地理解并完善其攻击提示。此外，我们还开发了专门为越狱任务定制的综合地面实况数据集。该数据集不仅作为我们当前研究的重要基准，而且还为未来的研究奠定了基础资源，从而能够在这个不断发展的领域进行一致的比较分析。通过与传统评估方法的细致比较，我们发现我们的评估与基线趋势一致，同时提供了更深刻和详细的评估。

Efficient Adapter Finetuning for Tail Languages in Streaming Multilingual ASR
Authors Junwen Bai, Bo Li, Qiujia Li, Tara N. Sainath, Trevor Strohman
在流式多语言场景中通常需要端到端 ASR 模型，因为它更容易部署并且可以受益于预先训练的语音模型（例如强大的基础模型）。同时，不同语言的异构性和数据丰度不平衡可能会导致性能下降，导致不同语言在训练过程中出现异步峰值性能，尤其是尾部语言。有时，由于隐私保护的增强，甚至数据本身也可能变得不可用。现有的工作往往会显着增加模型大小或学习特定于语言的解码器以分别适应每种语言。在这项研究中，我们探索了在级联 Conformer 传感器框架下简单而有效的语言相关适配器 LDA 微调，该框架通过流式多语言 ASR 中尾部语言的教师伪标记得到增强。该适配器仅占每种语言完整模型的 0.4。它被插入到冻结的基础模型中，并且是在噪声学生训练的微调过程中唯一可训练的模块。最终模型合并了来自不同语言的不同检查点的适配器参数。该模型的性能在具有挑战性的多语言听写数据集上进行了验证，该数据集包括拉丁语、希腊语、阿拉伯语等 39 种尾部语言。我们提出的方法平均将单词错误率降低 12.2，在单个语言环境中最高可降低 37.5。

ReFT: Reasoning with Reinforced Fine-Tuning
Authors Trung Quoc Luong, Xinbo Zhang, Zhanming Jie, Peng Sun, Xiaoran Jin, Hang Li
增强大型语言模型 LLM 推理能力的一种方法是使用 Chain of Thought CoT 注释进行监督微调 SFT。然而，这种方法没有表现出足够强的泛化能力，因为训练仅依赖于给定的 CoT 数据。例如，在数学问题解决中，训练数据中的每个问题通常只有一个带注释的推理路径。直观上，算法最好从给定问题的多个带注释的推理路径中学习。为了解决这个问题，我们提出了一种简单而有效的方法，称为强化微调 ReFT，以增强学习 LLM 进行推理的通用性，以解决数学问题为例。 ReFT 首先用 SFT 预热模型，然后采用在线强化学习，特别是本文中的 PPO 算法，进一步微调模型，根据问题自动采样大量推理路径，并自然地获得奖励基本事实答案。在 GSM8K、MathQA 和 SVAMP 数据集上的大量实验表明，ReFT 的性能明显优于 SFT，并且通过结合多数投票和重新排序等推理时间策略，可以进一步提高性能。请注意，ReFT 通过从与 SFT 相同的训练问题中学习来获得改进，而不依赖于额外或增强的训练问题。

Partial Diacritization: A Context-Contrastive Inference Approach
Authors Muhammad ElNokrashy, Badr AlKhamissi
变音符号在提高阿拉伯文本的可读性和消除歧义方面发挥着关键作用。到目前为止，工作重点是对每个符合条件的字符进行完全变音标记。相对而言被忽视的是，部分变音 PD 是选择要标记的字符子集，以在需要时帮助理解。研究表明，过多的变音符号会阻碍熟练的读者，降低阅读速度和准确性。我们进行了一项行为实验，结果表明，部分标记的文本通常比完全标记的文本更容易阅读，有时甚至比纯文本更容易阅读。有鉴于此，我们引入了上下文对比部分变音 CCPD，这是一种新颖的 PD 方法，它与现有的阿拉伯语变音系统无缝集成。 CCPD 对每个单词进行两次处理，一次有上下文，一次没有上下文，并且仅对两个推论之间存在差异的字符进行变音。此外，我们引入了用于测量部分变音质量 SR、PDER、HDER、ERE 的新指标，这对于将其建立为机器学习任务至关重要。

Improving ASR Contextual Biasing with Guided Attention
Authors Jiyang Tang, Kwangyoun Kim, Suwon Shon, Felix Wu, Prashant Sridhar, Shinji Watanabe
在本文中，我们提出了一种Guided Attention GA辅助训练损失，它在不引入额外参数的情况下提高了自动语音识别ASR上下文偏差的有效性和鲁棒性。以往文献中的一个常见挑战是，上下文偏差带来的单词错误率 WER 降低随着偏差短语数量的增加而减少。为了应对这一挑战，除了 Transducer 损失之外，我们还采用 GA 损失作为额外的训练目标。所提出的 GA 损失旨在教导交叉注意力如何将偏见短语与文本标记或音频帧对齐。与具有类似动机的研究相比，所提出的损失直接作用于交叉注意力权重，并且更容易实现。通过基于 Conformer Transducer with Contextual Adapter 的大量实验，我们证明了所提出的方法不仅可以降低 WER，而且随着偏差短语数量的增加而保持其有效性。

HuixiangDou: Overcoming Group Chat Scenarios with LLM-based Technical Assistance
Authors Huanjun Kong, Songyang Zhang, Kai Chen
在这项工作中，我们介绍了 HuiyangDou，一个由大型语言模型 LLM 提供支持的技术助理。该系统旨在通过对与开源算法项目（例如 OpenMMLab 的计算机视觉和深度学习项目）相关的问题提供富有洞察力的回答来帮助算法开发人员。我们进一步探索将该助手集成到微信、飞书等即时通讯工具的群聊中。经过多次迭代改进和试验，我们开发了一款成熟的技术聊天助手，能够有效回答用户的技术问题，而不会造成消息泛滥。本文的贡献包括 1 设计专门针对群聊场景的算法管道 2 验证 text2vec 在任务拒绝方面的可靠性能 3 确定 LLM 在技术助理类产品中的三个关键要求，即评分能力、In Context Learning ICL 和 Long Context 。

Combining Confidence Elicitation and Sample-based Methods for Uncertainty Quantification in Misinformation Mitigation
Authors Mauricio Rivera, Jean Fran ois Godbout, Reihaneh Rabbany, Kellin Pelrine
大型语言模型已成为解决错误信息缓解问题的主要候选者。然而，现有的方法难以应对幻觉和过度自信的预测。我们提出了一个不确定性量化框架，该框架利用直接置信度启发和基于采样的一致性方法，为 NLP 错误信息缓解解决方案提供更好的校准。我们首先研究基于样本的一致性方法的校准，该方法利用跨样本大小和随机水平的一致性的独特特征。接下来，我们评估单步与两步置信度启发过程中稳健的数字语言提示的性能和分布变化。我们还比较了相同提示符与不同版本的 GPT 和不同数字比例的性能。最后，我们结合基于样本的一致性和语言化方法提出了一个混合框架，为 GPT 模型提供更好的不确定性估计。

Automated Answer Validation using Text Similarity
Authors Balaji Ganesan, Arjun Ravikumar, Lakshay Piplani, Rini Bhaumik, Dhivya Padmanaban, Shwetha Narasimhamurthy, Chetan Adhikary, Subhash Deshapogu
自动答案验证可以通过向学习者提供适当的反馈以及使问答系统和在线学习解决方案更广泛地使用来帮助改善学习成果。科学问答领域的一些工作表明，信息检索方法优于神经方法，特别是在该问题的多项选择版本中。我们实现了暹罗神经网络模型并为这个问题提供了一个通用的解决方案。

SceneVerse: Scaling 3D Vision-Language Learning for Grounded Scene Understanding
Authors Baoxiong Jia, Yixin Chen, Huangyue Yu, Yan Wang, Xuesong Niu, Tengyu Liu, Qing Li, Siyuan Huang
3D 视觉语言基础侧重于使语言与 3D 物理环境保持一致，是实体代理开发的基石。与 2D 领域的最新进展相比，3D 场景中的基础语言面临着几个重大挑战：由于不同的对象配置、丰富的属性和复杂的关系，3D 场景固有的复杂性；配对 3D 视觉语言数据的稀缺性支持扎根学习，以及 iii 缺乏统一的学习框架来从扎根 3D 数据中提取知识。在这项工作中，我们的目标是通过研究在室内环境中系统升级 3D 视觉语言学习的潜力来解决 3D 视觉语言的三大挑战。我们推出了第一个百万级 3D 视觉语言数据集 SceneVerse，包含约 68K 3D 室内场景，并包含源自人类注释和我们基于可扩展场景图的生成方法的 250 万个视觉语言对。我们证明，这种缩放可以为 3D 视觉语言学习提供统一的预训练框架，即场景 GPS 的接地预训练。通过大量实验，我们在所有现有 3D 视觉接地基准上实现了最先进的性能，展示了 GPS 的有效性。通过在具有挑战性的 3D 视觉语言任务中进行零镜头传输实验，SceneVerse 和 GPS 的巨大潜力得以展现。

Asynchronous Local-SGD Training for Language Modeling
Authors Bo Liu, Rachita Chhaparia, Arthur Douillard, Satyen Kale, Andrei A. Rusu, Jiajun Shen, Arthur Szlam, Marc Aurelio Ranzato
局部随机梯度下降局部 SGD（也称为联合平均）是一种分布式优化方法，其中每个设备每次通信执行多个 SGD 更新。这项工作提出了一种用于训练语言模型的异步本地 SGD 的实证研究，即每个工作线程在完成其 SGD 步骤后立即更新全局参数。我们通过检查工作器硬件异构性、模型大小、工作器数量和优化器如何影响学习性能来进行全面调查。我们发现，在简单的实现中，异步局部 SGD 比同步局部 SGD 需要更多的迭代才能收敛，尽管更频繁地更新全局模型参数。我们将当工作梯度过时时全局参数的动量加速视为一个关键挑战。我们提出了一种新颖的方法，该方法利用延迟的 Nesterov 动量更新，并根据工人的计算速度调整他们的本地训练步骤。

Code Simulation Challenges for Large Language Models
Authors Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge
我们研究大型语言模型法学硕士可以在多大程度上模拟计算机代码和算法的执行。我们首先查看直线程序，并表明当前的法学硕士即使使用如此简单的程序也表现出较差的性能，性能随着代码长度的增加而迅速下降。然后，我们研究法学硕士模拟包含关键路径和冗余指令的程序的能力。我们还超越了排序算法和嵌套循环的直线程序模拟，并且我们展示了例程的计算复杂性直接影响法学硕士模拟其执行的能力。我们观察到法学硕士仅在短程序或标准程序中按顺序执行指令并且误差范围较低。法学硕士的代码模拟与他们的模式识别和记忆能力在记忆不利的任务中存在紧张关系，我们提出了一种新颖的提示方法来逐行模拟代码执行。

LLMs for Relational Reasoning: How Far are We?
Authors Zhiming Li, Yushi Cao, Xiufeng Xu, Junzhe Jiang, Xu Liu, Yon Shin Teo, Shang wei Lin, Yang Liu
大型语言模型法学硕士已经彻底改变了许多领域，例如通过在广泛的下游任务上实现最先进的性能，来实现自然语言处理、软件工程等。为了实现稳健和通用的人工智能，人们对研究法学硕士的推理能力产生了浓厚的兴趣。尽管之前的作品采用的文本和数字推理基准相当肤浅和简单，但很难仅仅通过在这些基准上取得积极的结果来断定法学硕士拥有强大的推理能力。最近的努力表明，法学硕士在解决顺序决策问题方面表现不佳，这些问题需要通过强化学习基准评估其表现来进行常识性规划。在这项工作中，我们基于归纳逻辑编程 ILP 基准对几个最先进的法学硕士推理能力进行了深入评估，该基准被广泛认为是评估逻辑程序归纳综合系统的代表性和挑战性的衡量标准，因为它需要归纳严格的推理能力。因果逻辑实现对独立同分布IID和非分布OOD测试样本的稳健推导。我们的评估表明，与模型大小小得多的神经程序归纳系统相比，最先进的法学硕士在推理能力方面要差得多，使用自然语言提示或真值矩阵提示实现的性能和泛化能力要低得多

OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality
Authors Aditya Sharma, Luke Yoffe, Tobias H llerer
增强现实的一项关键挑战是将虚拟内容放置在自然位置。大多数现有的自动化技术只能处理封闭的词汇、固定的对象集。在本文中，我们使用开放词汇视觉语言模型的最新进展介绍并评估了几种自动对象放置的方法。通过多方面的评估，我们确定了一种新的最先进的方法，OCTO。我们还引入了一个基准，用于自动评估增强现实中虚拟对象的放置，从而减轻了昂贵的用户研究的需要。

NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription
Authors Alon Vinnikov, Amir Ivry, Aviv Hurvitz, Igor Abramovski, Sharon Koubi, Ilya Gurvich, Shai Pe er, Xiong Xiao, Benjamin Martinez Elizalde, Naoyuki Kanda, Xiaofei Wang, Shalev Shaer, Stav Yagev, Yossi Asher, Sunit Sivasankaran, Yifan Gong, Min Tang, Huaming Wang, Eyal Krupka
我们在远场录音设置 NOTSOFAR 1 挑战中引入了第一个自然办公室谈话者以及数据集和基线系统。该挑战赛的重点是远场会议场景中的远距离说话者二值化和自动语音识别 DASR，具有单通道和已知几何多通道轨道，并作为两个新数据集的启动平台。第一个是 315 个会议的基准数据集，平均 6 分钟每个都捕获了广泛的现实世界声学条件和对话动态。该视频在 30 个会议室进行录制，共有 4 8 名与会者和总共 35 位独特的演讲者。其次，一个 1000 小时的模拟训练数据集，经过增强的真实性合成以实现现实世界的泛化，包含 15,000 个真实的声学传递函数。这些任务侧重于单设备 DASR，其中多通道设备始终共享相同的已知几何结构。这与实际会议室中的常见设置保持一致，并避免了与多设备任务相关的技术复杂性。它还允许开发特定于几何形状的解决方案。

Using i-vectors for subject-independent cross-session EEG transfer learning
Authors Jonathan Lasko, Jeff Ma, Mike Nicoletti, Jonathan Sussman Fort, Sooyoung Jeong, William Hartmann
认知负荷分类是根据脑电图脑电图等生理测量自动确定个人在执行任务期间对工作记忆资源的利用情况的任务。在本文中，我们采用跨学科的方法，使用语音处理的工具和方法来解决这个问题。我们使用的语料库于 2021 年公开发布，作为首届跨会话工作负载估计被动脑机接口竞赛的一部分。我们提出了我们的方法，该方法使用基于 i 向量的神经网络分类器来完成受试者间跨会话 EEG 迁移学习，与同等的受试者相关模型相比实现了 18 的相对改进。

Revisiting Self-supervised Learning of Speech Representation from a Mutual Information Perspective
Authors Alexander H. Liu, Sung Lin Yeh, James Glass
现有的自监督语音表示学习研究主要集中在开发新的训练方法并将预训练模型应用于不同的应用。然而，这些模型的质量通常是通过不同下游任务的性能来衡量的。表征如何更好地获取感兴趣的信息的研究较少。在这项工作中，我们从信息论的角度仔细研究了现有的自我监督语音方法。我们的目标是使用互信息开发指标来帮助解决模型设计和选择等实际问题。我们使用线性探针来估计目标信息和学习到的表示之间的互信息，展示了从语音表示中获取目标信息的另一种见解。此外，我们探索了以自我监督的方式评估表示的潜力，其中我们在不使用任何标签的情况下估计数据不同部分之间的相互信息。

AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant Reviews and Images on Social Media
Authors Alessandro Gambetti, Qiwei Han
用户生成内容 UGC 形式的在线评论显着影响消费者的决策。然而，普遍存在的人类虚假内容和机器生成内容的问题都对 UGC 的可靠性提出了挑战。大型语言模型法学硕士的最新进展可能为以低得多的成本制造难以区分的虚假生成内容铺平道路。利用 OpenAI 的 GPT 4 Turbo 和 DALL E 2 模型，我们制作了 AiGen FoodReview，这是一个包含 20,144 个餐厅评论图像对的多模态数据集，分为真实的和机器生成的。我们探索单模态和多模态检测模型，利用 FLAVA 实现了 99.80 的多模态准确率。我们使用可读性和摄影理论的属性分别对评论和图像进行评分，证明它们在可扩展和可解释的检测模型中作为手工制作的特征的实用性，并且具有可比的性能。

MMToM-QA: Multimodal Theory of Mind Question Answering
Authors Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang, Yen Ling Kuo, Zhiting Hu, Tomer Ullman, Antonio Torralba, Joshua B. Tenenbaum, Tianmin Shu
心智理论 ToM，即理解人们思想的能力，是开发具有人类水平社交智能的机器的重要组成部分。最近的机器学习模型，特别是大型语言模型，似乎显示了 ToM 理解的某些方面。然而，现有的 ToM 基准使用视频或文本的单峰数据集。另一方面，人类 ToM 不仅仅是视频或文本理解。人们可以根据概念表征灵活地推断他人的想法，例如从任何可用数据中提取的目标、信念、计划，其中可以包括视觉线索、语言叙述或两者兼而有之。为了解决这个问题，我们引入了多模态心理理论问答 MMToM QA 基准。 MMToM QA 根据多模态数据和有关家庭环境中个人活动的不同类型的单模态数据来全面评估机器 ToM。为了设计多模态 ToM 能力，我们提出了一种新方法，即由语言模型加速的 BIP ALM 贝叶斯逆向规划。 BIP ALM 从多模态数据中提取统一表示，并利用语言模型进行可扩展的贝叶斯逆向规划。我们对人类表现、BIP ALM 和最先进的模型（包括 GPT 4）进行了系统比较。实验表明，大型语言模型和大型多模态模型仍然缺乏强大的 ToM 能力。

Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges
Authors Qingyao Li, Lingyue Fu, Weiming Zhang, Xianyu Chen, Jingwei Yu, Wei Xia, Weinan Zhang, Ruiming Tang, Yong Yu
在线教育平台利用互联网分发教育资源，力求提供便捷的教育，但往往无法与学生进行实时沟通。由于解决学生在学习过程中遇到的各种障碍的挑战，他们经常难以提供个性化的教育资源。最近，大型语言模型LLM（例如ChatGPT）的出现，为通过理解个人请求来解决这个问题提供了可能性。尽管法学硕士在各个领域都取得了成功，但创建基于法学硕士的教育体系对于所需的广泛教育技能来说仍然具有挑战性。本文回顾了近年来兴起的与教育能力相关的法学硕士研究，包括数学、写作、编程、推理、知识问答等，旨在探讨其在构建下一代智能教育体系中的潜力。根据目前的发展现状，我们进一步概述了基于LLM的教育体系的两种方法：统一方法和专家教育部混合方法。

Gemini Pro Defeated by GPT-4V: Evidence from Education
Authors Gyeong Geon Lee, Ehsan Latif, Lehong Shi, Xiaoming Zhai
本研究比较了 Gemini Pro 和 GPT 4V 在教育环境中的分类性能。该研究采用视觉问答 VQA 技术，检查了两种模型阅读基于文本的评分标准的能力，然后自动对学生在科学教育中绘制的模型进行评分。我们使用源自学生绘制的科学模型的数据集进行定量和定性分析，并采用 NERIF 表示法增强的评分标准进行图像反馈提示方法。研究结果表明，GPT 4V 在评分准确性和二次加权 Kappa 方面显着优于 Gemini Pro。定性分析表明，差异可能是由于模型处理图像中细粒度文本的能力和整体图像分类性能造成的。即使通过进一步缩小输入图像的大小来采用 NERIF 方法，Gemini Pro 的性能似乎也无法与 GPT 4V 一样好。研究结果表明，GPT 4V 在处理复杂的多模式教育任务方面具有卓越的能力。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com