计算机人工智能前沿进展-大语言模型方向-2024-09-19

1. SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation

Authors: Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen
SAM4MLLM: 增强多模态大型语言模型以进行指代表达式分割
在这里插入图片描述

摘要：
本文介绍了一种创新方法SAM4MLLM，它将Segment Anything Model (SAM)与多模态大型语言模型（MLLMs）相结合，用于像素级感知任务。该方法使MLLMs能够学习像素级位置信息，而无需对现有模型架构进行大量修改或添加专门的标记。通过基于询问的方法，可以有效地找到SAM进行分割的提示点。该方法结合了详细的视觉信息和大型语言模型的强大表达能力，以统一的基于语言的方式进行，无需额外的计算开销。在公共基准测试上的实验结果证明了该方法的有效性。

创新点：

提出了一种简单的解决方案，通过不改变MLLM模型架构、引入新标记或使用额外损失函数，增强MLLM对像素级细节的理解。
引入了一种新的方法，通过主动查询语言系统来获取SAM的提示点线索。
在各种RES基准测试中，包括RES数据集、GRES和ReasonSeg，验证了SAM4MLLM的有效性，并展示了其在处理复杂像素感知任务中的优越性能。

算法模型：
SAM4MLLM方法通过将MLLMs与SAM无缝集成来增强MLLM的视觉能力。它采用了一种简单的策略，将像素级信息引入训练数据集，而不改变原始MLLM架构。该方法使用文本交叉熵损失进行训练，与流行的LLMs使用的相同。此外，提出了两种解决方案来获取SAM的提示点：直接生成提示点的Prompt-Point Generation (PPG)和通过查询-回答机制间接获取提示点的Proactive Query of Prompt-Points (PQPP)。
在这里插入图片描述

实验效果：

在refCOCO数据集上，SAM4MLLM-PQPP在val和testB上分别达到了77.1和80.9的准确率，超过了大多数最近的基于LLM的方法。
在gRefCOCO数据集上，SAM4MLLM-PQPP在Test Set B上达到了70.54的准确率，略低于GSVA但优于其他7B模型。
在ReasonSeg数据集上，SAM4MLLM-PQPP在val上达到了46.7的准确率，优于LISA-7B和其他方法。
在VQA数据集上，使用SAM4MLLM微调后，模型的VQA得分从78.2提高到了78.7。

推荐阅读指数： ★★★★★

推荐理由：
这篇论文提出了一种创新的方法，通过结合SAM和MLLMs来处理指代表达式分割任务。该方法在保持模型简单性的同时，显著提高了分割的准确性，且在多个基准测试上都取得了优异的性能。此外，该研究还探索了如何有效地结合不同模型的优势来解决复杂的多模态问题，这对于计算机视觉和自然语言处理领域的研究人员和实践者来说都是极具价值的。

2. Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports

Authors: Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese
在这里插入图片描述

使用开放权重大型语言模型和检索增强生成进行诊断报告中自动化结构化数据提取：方法和参数评估

摘要：
目的：开发并评估一个自动化系统，利用开放权重大型语言模型（LMs）和检索增强生成（RAG），从非结构化的放射学和病理学报告中提取结构化临床信息，并评估模型配置变量对提取性能的影响。
方法和材料：研究使用了两个数据集：7,294份放射学报告，标注了脑肿瘤报告和数据系统（BT-RADS）评分，以及2,154份病理学报告，标注了异柠檬酸脱氢酶（IDH）突变状态。开发了一个自动化流程，用于基准测试各种LMs和RAG配置的性能。系统评估了模型大小、量化、提示策略、输出格式化和推理参数的影响。
结果：最佳性能模型在从放射学报告中提取BT-RADS评分的准确率超过98%，在从病理学报告中提取IDH突变状态的准确率超过90%。表现最好的模型是医学微调的llama3。较大、更新和领域微调的模型持续优于旧的和较小的模型。模型量化对性能影响最小。少量提示显著提高了准确性。RAG提高了复杂病理报告的性能，但对较短的放射学报告没有提高。
结论：开放LMs展示了从非结构化临床报告中自动提取结构化临床数据的显著潜力，具有本地隐私保护应用的前景。模型选择、提示工程和使用标注数据的半自动优化对于最佳性能至关重要。这些方法可能足够可靠，可供研究工作流程中实际使用，突出了医疗数据提取中人机协作的潜力。

创新点：

利用开放权重的大型语言模型和检索增强生成（RAG）来自动化从非结构化医疗报告中提取结构化数据。
系统地评估了模型大小、量化、提示策略、输出格式化和推理参数对提取性能的影响。
通过少量提示和领域特定的微调，显著提高了模型在特定医疗数据提取任务中的准确性。

算法模型：
研究中使用了多种开放权重的大型语言模型（LMs），包括不同大小、量化水平、训练数据、发布日期和医学微调的模型，如Llama3、openbiollm Llama3、Llama2和Medllama2等。此外，研究还探索了RAG在提高复杂病理报告提取性能方面的潜力。

实验效果：

在放射学报告数据集上，最佳模型（openbiollm-llama3 70B Q_4）达到了98.68%的准确率。
在病理学报告数据集上，最佳模型（openbiollm-llama-3 70B Q_4）达到了90.02%的准确率。
较大、更新和领域微调的模型在提取任务中表现更佳。
模型量化对性能的影响不显著。
少量提示显著提高了模型的准确性。

推荐阅读指数： ★★★☆☆

推荐理由：
这篇论文针对医疗报告中结构化数据的自动化提取提出了一种创新方法，通过细致的实验评估了多种模型配置对性能的影响。研究结果对于医疗领域的数据管理和分析具有重要的实际应用价值，尤其是在提高数据处理效率和准确性方面。此外，论文还探讨了人机协作在医疗数据处理中的潜力，为未来相关技术的发展提供了有价值的参考。

3. Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian

Authors: Anna Glazkova and Dmitry Morozov
探索针对俄语关键短语选择的微调生成模型：以俄语科学文本为例

摘要：
关键短语选择在学术文本领域扮演着核心角色，有助于有效信息检索、摘要和索引。本研究探索了如何将微调的基于生成器的变换器模型应用于俄语科学文本中的关键短语选择任务。实验涉及四种不同的生成模型，包括ruT5、ruGPT、mT5和mBART，并在领域内和跨领域设置中评估了它们的性能。实验在来自数学与计算机科学、历史、医学和语言学四个领域的俄语科学摘要文本上进行。使用生成模型，尤其是mBART，在领域内性能上（在BERTScore上高达4.9%，在ROUGE-1上高达9.0%，在F1分数上高达12.2%）超过了俄语的三个关键短语提取基线。尽管跨领域使用的结果显著较低，但在某些情况下仍显示出超越基线性能的能力，突显了在该研究领域进一步探索和改进的潜力。

创新点：

将微调的生成器变换器模型应用于俄语科学文本的关键短语选择任务。
在领域内和跨领域设置中对模型进行了系统评估，探索了不同模型在特定语言和领域中的应用效果。
特别关注了mBART模型在关键短语生成任务中的性能，发现其在领域内设置中表现尤为出色。

算法模型：
研究中使用了四种预训练的基于变换器的模型：ruT5、ruGPT、mT5和mBART。这些模型在训练集上进行了微调，以生成关键短语。输入文本的处理方式根据模型的不同而有所差异，例如ruGPT使用了特殊的标记来指示关键短语的开始和结束。生成模型没有限制生成关键短语的数量，而是由模型自行确定每个文本的最佳关键短语数量。

实验效果：

在领域内设置中，mBART模型在所有考虑的领域中均获得了最佳性能，BERTScore、ROUGE-1和F1分数均有所提高。
在跨领域设置中，尽管性能普遍下降，但mBART在大多数领域中的BERTScore和F1分数仍然超过了基线结果。
实验结果表明，生成模型能够产生原文本中未明确提及的关键短语，且无需人为设置关键短语的数量和长度限制。

推荐阅读指数： ★★★★☆

推荐理由：
这篇论文针对俄语科学文本的关键短语选择任务，提供了一种新颖的基于深度学习的解决方案。研究结果表明，通过微调的生成模型，尤其是mBART，能够在关键短语生成任务中取得显著的性能提升。这对于自然语言处理领域的研究人员和实践者来说，尤其是在处理非英语文本时，提供了有价值的参考。此外，论文还探讨了跨领域应用的挑战和潜力，为未来在这一领域的研究提供了方向。

4. Improving Multi-candidate Speculative Decoding

Authors: Xiaofan Lu, Yixiao Zeng, Feiyang Ma, Zixu Yu, Marco Levorato
在这里插入图片描述

改进多候选推测性解码

摘要：
推测性解码（SD）是一种通过使用较低复杂度的草稿模型提出候选词元，然后由更大的目标模型验证，从而加速大型语言模型（LLMs）推理的技术。为了进一步提高效率，多候选推测性解码（MCSD）通过在每一步采样多个候选词元并并行验证它们，从而增加了接受一个词元的机会并减少了生成时间。现有的MCSD方法依赖于草稿模型来初始化多候选序列，并使用静态长度和树状注意力结构进行草稿生成。然而，这种方法受到草稿和目标模型输出分布差异的影响，特别是在动态生成上下文中。在这项工作中，我们介绍了一种改进的MCSD版本，包括目标模型初始化的多候选过程、动态切片拓扑感知因果掩码用于动态长度调整，以及优化早期停止的决策模型。我们的框架通过最大164%提高了接受率α，并在MCSD基线上最多获得了75%的生成速度提升。我们还进行了消融研究，以评估决策模型的影响。

创新点：

引入了目标模型初始化的多候选词元树，以提高接受率。
提出了动态切片拓扑感知因果掩码，以便于动态调整草稿生成长度，无需重构拓扑感知因果掩码。
引入了决策模型来优化草稿模型生成阶段的早期停止机制，通过预测目标模型接受词元的可能性动态提前终止草稿词元生成，减少不必要的计算。

算法模型：

目标模型初始化的多候选词元树：通过从目标模型的分布中采样多个词元来初始化未来的草稿模型生成，以提高接受率。
动态切片拓扑感知因果掩码：在初始化期间构建一个大的拓扑感知因果掩码，允许决策模型动态决定多候选草稿词元生成的长度，并避免在每次迭代中生成新的拓扑感知因果掩码。
早期停止决策模型：设计了两种类型的决策模型，一种是三层MLP，另一种是受Tandem transformer启发的两层MLP，用于动态决定是否需要提前停止草稿生成过程。

实验效果：

在使用TinyLlama1.1B作为草稿模型时，与MCSD基线相比，接受率提高了164%，生成速度提升了75%。
在使用LLaMa-68M作为草稿模型时，平均接受率提高了40%，生成时间加快了23%。
消融研究表明，目标模型初始化的多候选词元树对加速增益贡献最大，而决策模型在词元树宽度较小时才能加速MCSD。

推荐阅读指数： ★★★★☆

推荐理由：
这篇论文针对大型语言模型的高效推理问题，提出了一种创新的多候选推测性解码方法。通过目标模型初始化、动态掩码技术和早期停止决策模型，显著提高了解码的接受率和生成速度，对于希望在实时应用中部署大型语言模型的研究人员和工程师来说，具有重要的参考价值。此外，论文的实验设计严谨，涵盖了不同模型和数据集，提供了全面的性能评估，对于自然语言处理领域的专业人士来说，是一篇值得阅读的研究。

5. Self-Attention Limits Working Memory Capacity of Transformer-Based Models

Authors: Dongyu Gong and Hantao Zhang

在这里插入图片描述
自注意力限制了基于Transformer的模型的工作记忆容量

摘要：
近期对基于Transformer的大型语言模型（LLMs）的研究表明，它们在工作记忆容量方面存在显著的局限性，这与人类行为研究中的发现类似。具体来说，这些模型在N-back任务上的表现随着N的增加而显著下降。然而，目前还缺乏对这种现象为何会出现的机制性解释。受到行为科学中执行注意力理论的启发，我们假设Transformer模型中的自注意力机制可能是导致其工作记忆容量限制的原因。为了验证这一假设，我们训练了标准的仅解码器Transformer来执行N-back任务，并发现随着训练的进行，注意力分数逐渐聚集到N-back位置，这表明模型通过学习关注当前位置与N-back位置之间的关系来掌握任务。至关重要的是，我们发现随着N的增加，注意力分数矩阵的总熵增加，这表明注意力分数的分散可能是在N-back任务中观察到的容量限制的原因。

创新点：

提出并验证了自注意力机制可能是导致基于Transformer模型工作记忆容量限制的原因。
通过训练不同配置的Transformer模型来执行N-back任务，揭示了模型在处理此类任务时的内在机制。
引入了总熵的概念来量化注意力分数分散的程度，并将其与模型在N-back任务上的表现相关联。

算法模型：

使用标准的仅解码器Transformer模型，配置了不同数量的解码器层和每个层的注意力头。
训练模型执行N-back任务，通过计算输出逻辑和正确答案之间的交叉熵损失进行优化。
通过可视化注意力图谱来分析模型在训练过程中如何学习关注特定位置。

实验效果：

随着N的增加，模型在N-back任务上的准确性下降，表现出与人类工作记忆容量限制相似的趋势。
模型在特定位置的预测准确性与该位置与N-back位置的注意力分数正相关。
随着N的增加，注意力分数矩阵的总熵增加，表明注意力分散可能是导致预测准确性下降的原因。

在这里插入图片描述

推荐阅读指数： ★★★★☆

推荐理由：
这篇论文深入探讨了Transformer模型在处理N-back任务时的工作记忆机制，提供了对模型内部注意力动态的洞见，并揭示了模型性能下降的可能原因。研究结果不仅对理解Transformer模型的认知能力有重要意义，也为改进模型设计提供了潜在方向。对于自然语言处理和认知科学领域的研究人员来说，这篇论文提供了有价值的见解和研究方法。

6. Semantics Preserving Emoji Recommendation with Large Language Models

Authors: Zhongyi Qiu, Kangyi Qiu, Hanjia Lyu, Wei Xiong, Jiebo Luo
在这里插入图片描述

使用大型语言模型进行语义保持的 emoji 推荐

摘要：
表情符号已成为数字通信不可或缺的一部分，通过传达情感、语气和意图来丰富文本。现有的 emoji 推荐方法主要基于它们与用户原始文本中选择的 emoji 匹配的能力进行评估。然而，它们忽略了用户在社交媒体上的行为本质，即每段文本可以对应多个合理的 emoji。为了更好地评估模型与现实世界 emoji 使用的一致性，我们提出了一个新的语义保持评估框架，用于 emoji 推荐。该框架衡量模型推荐与用户文本保持语义一致性的 emoji 的能力。为了评估模型保持语义的能力，我们评估预测的用户情感状态、人口统计特征和态度立场是否保持不变。如果这些属性得以保留，我们认为推荐的 emoji 保持了原始语义。大型语言模型（LLMs）在理解和生成细微差别、上下文相关输出方面的高级能力使它们非常适合处理语义保持的 emoji 推荐复杂性。为此，我们构建了一个全面的基准测试，系统评估了六种专有和开源 LLMs 使用不同提示技术在我们的任务上的性能。我们的实验表明，GPT-4 在其他 LLMs 中表现最佳，达到了 79.23% 的语义保持分数。此外，我们进行了案例研究，分析了模型在下游分类任务中的偏差，并评估了推荐的 emoji 的多样性。

创新点：

提出了一个新的语义保持评估框架，用于评估 emoji 推荐模型在保持文本语义一致性方面的能力。
开发了一个全面的基准测试，并设计了特定任务的指标，以评估各种 LLMs 在 emoji 推荐上保持语义的性能。
提出了几种高级提示技术来提高基线 LLMs 的性能，发现通过条件化用户档案信息，可以显著提高 LLMs 推荐 emoji 的语义一致性。

算法模型：
研究中使用了多种大型语言模型（LLMs），包括专有和开源选项，如 GPT-4、LLaMa、Qwen2、Gemma2 和 Mistral。这些模型通过不同的提示策略进行评估，包括零次提示、少数次提示和条件生成。

实验效果：

GPT-4 在所有模型中表现最佳，达到了 79.23% 的语义保持分数。
在条件生成方法中，所有模型的性能都有所提高，平均提高了约 2%。
通过案例研究，发现模型在特定类别的推荐中存在偏差，例如在性别分类任务中，女性类别的准确度普遍高于男性类别。
在 emoji 推荐的多样性方面，GPT-4 推荐了最多的独特 emoji，而 LLaMa3.1-8B 展示的多样性最低。

在这里插入图片描述

推荐阅读指数：
★★★★☆

推荐理由：
这篇论文针对 emoji 推荐任务提出了一种新颖的评估框架，强调了在推荐系统中保持语义一致性的重要性。研究不仅展示了大型语言模型在这一任务上的潜力，还通过案例研究揭示了现有模型的潜在偏差。这对于自然语言处理和推荐系统领域的研究人员来说，提供了有价值的见解和改进方向。此外，论文提出的评估框架和基准测试为未来相关研究提供了重要的资源。

7. Model Tells Itself Where to Attend: Faithfulness Meets Automatic Attention Steering

Authors: Qingru Zhang, Xiaodong Yu, Chandan Singh, Xiaodong Liu, Liyuan Liu, Jianfeng Gao, Tuo Zhao, Dan Roth, Hao Cheng

在这里插入图片描述
模型自我指示关注点：忠实度与自动注意力引导相结合

摘要：
大型语言模型（LLMs）在各种实际任务中表现出色，但它们在完全理解并有效利用输入上下文方面常常遇到困难，导致响应不忠实或产生幻觉。当上下文较长或包含分散注意力的信息时，这种困难会增加，可能会使LLMs无法充分捕捉到关键证据。为了解决这个问题，许多工作使用提示（prompting）来帮助LLMs更忠实地利用上下文信息。例如，迭代提示通过两步过程突出关键信息，首先要求LLM识别上下文中重要的部分，然后据此得出答案。然而，提示方法仅限于在标记空间中隐式地突出关键信息，这通常不足以完全引导模型的注意力。为了更可靠地提高模型的忠实度，我们提出了AutoPASTA，一种在推理时自动识别关键上下文信息并通过引导LLM的注意力分数来明确突出显示的方法。与提示类似，AutoPASTA在推理时应用，不需要改变任何模型参数。我们在开放书目问答任务上的实验表明，AutoPASTA有效地使模型把握了关键的上下文信息，从而显著提高了模型的忠实度和性能，例如，LLAMA3-70B-Instruct的平均改进达到了7.95%。

创新点：

提出了AutoPASTA方法，它在推理时自动识别关键上下文信息，并通过注意力分数操作明确突出显示这些信息，以提高模型在开放书目问答任务上的忠实度和性能。
AutoPASTA结合了迭代问题分解提示和注意力引导方法，同时解决了现有方法的局限性，如需要人工标注和对长上下文的处理不足。
设计了一种高效的粗到细的搜索方案来识别有效的注意力头，减少了搜索开销。

算法模型：
AutoPASTA是一个推理阶段的方法，它首先通过自由文本生成提示LLM识别上下文中的关键信息，然后将这些信息映射回原始上下文中的相应句子，最后通过注意力引导技术突出显示这些句子。AutoPASTA不需要改变模型参数，也不需要人工标注。

实验效果：

在Natural Questions和HotpotQA数据集上，AutoPASTA在单次和多次跳转的开放书目问答任务中均显示出显著的性能提升。
例如，对于LLAMA3-70B-Instruct模型，AutoPASTA在两个任务上的平均精确匹配（EM）得分平均提高了7.95%。
AutoPASTA的注意力头集显示出出色的泛化能力，可以在不同任务之间有效引导。

推荐阅读指数：
★★★★☆

推荐理由：
这篇论文针对大型语言模型在处理复杂问答任务时的忠实度问题提出了创新的解决方案。AutoPASTA方法通过自动突出显示关键信息，有效地提高了模型的响应质量和性能。这项工作不仅在理论和方法上具有创新性，而且在实际应用中具有重要的应用价值，特别是在需要处理大量上下文信息的开放书目问答任务中。

8. ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports

Authors: Vishwanatha M. Rao, Serena Zhang, Julian N. Acosta, Subathra Adithan, Pranav Rajpurkar
在这里插入图片描述
ReXErr：在诊断放射学报告中合成临床意义错误

摘要：
准确解释医学影像并撰写放射学报告是医疗保健中的一项关键但具有挑战性的任务。人类撰写的和人工智能生成的报告都可能包含错误，这些错误范围从临床不准确到语言错误。为了解决这个问题，我们介绍了ReXErr，这是一种利用大型语言模型生成胸部X光报告中代表性错误的方法。我们与认证放射科医师合作，开发了错误类别，以捕捉人类和AI生成报告中的常见错误。我们的方法使用一种新颖的采样方案注入多样化的错误，同时保持临床合理性。ReXErr在错误类别之间表现出一致性，并产生与现实世界场景中发现的错误非常相似的错误。这种方法有潜力帮助开发和评估报告校正算法，可能提高放射学报告的质量和可靠性。

创新点：

ReXErr方法利用大型语言模型生成胸部X光报告中的错误，以模拟人类和AI报告中可能出现的错误。
与认证放射科医师合作，开发了一套详细的错误类别，以确保错误的真实性和临床相关性。
采用了一种新颖的采样方案，能够在保持临床合理性的同时，注入多样化的错误。
ReXErr在错误类别之间表现出一致性，并能够产生与现实世界场景中发现的错误非常相似的错误。

算法模型：
ReXErr方法使用大型语言模型（如GPT-4）来生成胸部X光报告中的错误。该方法通过与放射科医师合作，基于现有的放射学报告数据集（如MIMIC-CXR），开发了一套详细的错误类别。ReXErr通过精心设计的采样策略，将错误注入到报告中，这些错误包括内容添加、上下文依赖和语言质量问题。此外，ReXErr还提供了一个句子级别的错误标注流程，通过使用Llama 3.1模型来识别每个句子中的错误类型，并进行标注。

实验效果：

ReXErr在MIMIC-CXR数据集上进行了测试，能够成功地在报告和句子级别生成错误。
在由临床医师审查的100对原始和错误注入报告样本中，83份修改后的报告被认为是合理的AI生成或人类撰写的报告。
ReXErr在保持错误类别一致性方面表现出色，并且能够在不同数据集（训练集、开发集和测试集）中均匀分布错误类型。

推荐阅读指数： ★★★★☆

推荐理由：
这篇论文提出了一种创新的方法来生成放射学报告中的错误，这对于开发和评估报告校正算法具有重要意义。

9. Adaptive Large Language Models By Layerwise Attention Shortcuts

Authors: Prateek Verma, Mert Pilanci

通过层间注意力捷径自适应的大型语言模型

摘要：
Transformer架构是现代人工智能革命的支柱。然而，它们基于简单地堆叠相同模块的数十层，并按顺序从一个模块处理信息到另一个模块。在本文中，我们提出挑战这一点，为类似大型语言模型（LLM）的设置引入自适应计算，允许最后一层通过注意力机制适应地关注所有中间层，从而引入计算注意力捷径。这些捷径可以使架构深度和上下文自适应。我们在四个不同的数据集上展示了优越的性能，包括声学令牌、自然语言和符号音乐，并且我们通过注意力图证明了模型学习了跨层的复杂依赖关系，这些依赖关系根据输入令牌的复杂性和过去上下文适应地变化。

创新点：

提出了一种新的自适应计算方法，允许大型语言模型的最后一层通过注意力机制自适应地关注所有中间层，以改善预训练性能。
引入了计算注意力捷径，使得模型可以根据输入令牌的内容自适应地跳过多个层和上下文，学习简单的特征映射以供最终层使用。
通过注意力图展示了模型如何根据输入信号的内容自适应地关注不同深度的中间层表示。

算法模型：

使用Transformer解码器层构建模型，除了最后一层的注意力机制外，所有模态的架构都相同。
在第二、四、八层的每个Transformer层的输出传递给特征学习模块，该模块是一个2层MLP，后跟一个与模型维度大小相同的密集层。
最后一层的自注意力模块被替换为交叉注意力层，允许最终Transformer块直接关注不同深度和上下文中的中间层特征。

实验效果：

在四个不同的数据集（Text-8、Wiki-103、LibriSpeech和MAESTRO）上进行了实验，证明了所提出方法的有效性。
实验结果显示，与基线模型相比，所提出的方法在预训练性能上有所提高，特别是在MAESTRO数据集上取得了最好的加速效果。
注意力图表明，模型学习了根据输入令牌的内容自适应地关注不同深度的中间层表示。

推荐阅读指数：
★★☆☆☆

推荐理由：
这篇论文提出了一种创新的方法，通过在大型语言模型中引入层间注意力捷径，使得模型能够根据输入内容自适应地调整计算深度和上下文，从而提高预训练性能。这种方法在多个数据集上显示出了优越的性能，并且通过注意力图提供了模型学习复杂依赖关系的直观证据。

10. CREAM: Comparison-Based Reference-Free ELO-Ranked Automatic Evaluation for Meeting Summarization

Authors: Ziwei Gong, Lin Ai, Harshsaiprasad Deshpande, Alexander Johnson, Emmy Phung, Zehui Wu, Ahmad Emami, Julia Hirschberg
在这里插入图片描述
CREAM：基于比较的无参考ELO等级自动评估会议摘要

摘要：
大型语言模型（LLMs）在自动评估摘要方面引起了广泛兴趣，提供了一种比人工评估更快、成本效益更高的替代方案。然而，现有的方法在应用于复杂任务（如长文本摘要和基于对话的会议摘要）时常常不尽人意。本文介绍了CREAM（基于比较的无参考ELO等级自动评估会议摘要），这是一个新颖的框架，专门针对评估会议摘要的独特挑战。CREAM利用链式推理和关键事实对齐来评估模型生成摘要的简洁性和完整性，而无需参考文本来实现。通过采用ELO等级系统，我们的方法为比较不同模型或提示配置的质量提供了一种稳健的机制。

创新点：

提出了CREAM框架，这是一个专门针对会议摘要评估的新型自动评估框架。
引入了基于比较的方法，通过链式推理和关键事实对齐来评估摘要的简洁性和完整性，无需依赖参考文本。
使用ELO等级系统对不同模型或提示配置的质量进行比较，提供了一种新的评估方法。

算法模型：
CREAM框架采用了基于比较的方法，通过链式推理（Chain-of-Thought, CoT）和关键事实对齐来评估摘要。该框架不依赖于参考文本，而是通过比较模型生成的摘要与关键事实的对齐程度来评估摘要的质量。此外，CREAM还采用了ELO等级系统，通过比较不同模型生成的摘要来确定最佳模型。

实验效果：

在多个数据集上的实验结果表明，CREAM框架能够有效地评估会议摘要的质量，并且在与人类评估的一致性方面优于现有的LLM-based评估方法。
实验中，GPT-4o在完整性方面表现最佳，GPT-4在简洁性方面表现最佳，但所有模型都在完整性和简洁性之间寻找平衡方面存在挑战。
CREAM框架在评估会议摘要时，与基于参考文本的传统方法相比，显示出更高的排名相关性（从0.5提高到1.0）。

在这里插入图片描述

推荐阅读指数：
★★★★☆

推荐理由：
这篇论文针对会议摘要这一特定领域的自动评估问题提出了创新的解决方案。CREAM框架通过结合链式推理和ELO等级系统，提供了一种无需参考文本的评估方法，这对于长文本和复杂对话摘要的评估尤其有价值。论文的实验结果证明了该方法的有效性，并且对于推动自动摘要评估技术的发展具有重要意义. 总体而言，这篇论文是一个特定应用领域的算法应用创新。