计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04

news2024/10/9 14:14:22

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04


目录

文章目录

  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04
    • 目录
    • 1. A Multiple-Fill-in-the-Blank Exam Approach for Enhancing Zero-Resource Hallucination Detection in Large Language Models
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果
      • 推荐阅读指数
      • 推荐理由
    • 2. MedCodER: A Generative AI Assistant for Medical Coding
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果
      • 推荐阅读指数
      • 推荐理由
    • 3. Exploring Hint Generation Approaches in Open-Domain Question Answering
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果
      • 推荐阅读指数
      • 推荐理由
    • 4. Visual Prompting in Multimodal Large Language Models: A Survey
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果
      • 推荐阅读指数
      • 推荐理由
    • 5. Empirical Insights on Fine-Tuning Large Language Models for Question-Answering
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果
      • 推荐阅读指数
      • 推荐理由
    • 后记


1. A Multiple-Fill-in-the-Blank Exam Approach for Enhancing Zero-Resource Hallucination Detection in Large Language Models

Authors: Satoshi Munakata, Taku Fukui and Takao Mohri
https://arxiv.org/abs/2409.17173

一种用于提高大型语言模型零资源幻觉检测的多项填空考试方法

摘要

本文提出了一种新的幻觉检测方法,该方法结合了多项填空考试方法,以解决因故事线变化导致的检测准确性下降的问题。首先,该方法通过从原始文本中遮蔽多个对象来创建一个多项填空考试。然后,提示大型语言模型(LLM)重复回答这个考试。这种方法确保了考试答案的故事线与原始文本一致。最后,通过评分考试答案来量化每个原始句子的幻觉程度,同时考虑原始文本本身可能出现的幻觉雪崩效应。实验结果表明,该方法不仅单独优于现有方法,而且在与现有方法集成时也达到了更清晰的最新性能。

研究背景

大型语言模型(LLMs)经常生成与现实世界信息不符或不相关的幻觉文本。随着LLMs在日常生活和工作中被广泛使用,检测LLMs中的幻觉文本变得非常重要。现有的检测方法主要分为三类:检索外部事实、分析LLM的内部状态、仅使用LLM的输入/输出。本文关注第三种类型,即零资源黑盒检测,它不需要外部知识库,也可以应用于仅通过WebAPI使用的LLM和特定领域的微调LLM。
在这里插入图片描述

问题与挑战

现有的幻觉检测方法面临的一个主要挑战是,当重新生成的文本故事线发生变化时,原始文本中的句子变得无法比较,尤其是在文本的后半部分。这些不可比较的句子会降低检测的准确性,因为即使它们不是幻觉,也被确定为幻觉。
在这里插入图片描述

如何解决

为了解决这个问题,作者提出了一种新的零资源幻觉检测方法,该方法结合了多项填空考试(FIBE)方法。该方法首先创建一个多项填空考试,然后提示LLM重复回答这个考试。这种方法确保了考试答案的故事线与原始文本一致,从而防止了不可比较的句子的出现。

创新点

  1. 提出了一种新的零资源幻觉检测方法,结合了多项填空考试方法。
  2. 引入了直接问题(DQ)和幻觉雪崩校正(SBC)方法,以考虑原始文本本身可能发生的幻觉雪崩。
  3. 在与现有方法集成时,实现了更清晰的最新性能。

算法模型

  • 多项填空考试(FIBE):通过从原始文本中遮蔽多个对象来创建填空考试,然后提示LLM重复回答这个考试。
  • 直接问题(DQ):直接询问LLM原始句子是否为幻觉,排除前面句子的影响。
  • 幻觉雪崩校正(SBC):如果原始文本中发生幻觉雪崩,前面的幻觉句子越多,后面的幻觉句子的可能性就越大。

实验效果

实验使用了WikiBio GPT-3幻觉数据集v3进行评估。结果显示,该方法在单独使用时以及与现有方法集成时,都取得了优于现有方法的性能。

重要数据与结论

  • FIBE单独在所有指标上都优于SCGP。
  • 与SCGP集成时,在所有五个指标上都取得了最高的性能。
  • 该方法在处理故事线变化和幻觉雪崩方面具有显著优势。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的方法来提高大型语言模型中幻觉检测的准确性,这对于确保LLMs生成的文本的可靠性和可信度非常重要。

2. MedCodER: A Generative AI Assistant for Medical Coding

KD Baksi, E Soba, JJ Higgins, R Saini, J Wood, J Cook… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.15368
在这里插入图片描述
MedCodER:一种用于医学编码的生成性人工智能助手

摘要

本研究介绍了MedCodER,这是一个利用提取、检索和重新排序技术的生成性人工智能框架,用于自动化医学编码。MedCodER在国际疾病分类(ICD)代码预测中实现了0.60的微F1分数,显著优于现有技术。此外,作者还提出了一个新的数据集,其中包含带有疾病诊断、ICD代码和支持证据文本的医疗记录。消融测试证实了MedCodER的性能依赖于其各个组成部分的集成。

研究背景

医学编码对于标准化临床数据和通信至关重要,但通常耗时且容易出错。传统的自然语言处理(NLP)方法在自动化编码方面面临挑战,因为标签空间庞大、文本输入长,且缺乏支持证据注释。最近的生成性人工智能(AI)进展为这些挑战提供了有希望的解决方案。

问题与挑战

自动化ICD编码是一个活跃的研究领域,面临包括标签空间巨大、医疗记录数据的多样性和标准化缺乏以及标签分布严重不平衡等挑战。

如何解决

MedCodER通过以下三个核心组件来解决这些挑战:

  1. 提取:从医疗记录中提取疾病诊断、支持证据和初始ICD-10代码列表。
  2. 检索:使用向量数据库检索候选ICD-10代码。
  3. 重新排序:重新排序这些组合代码以产生最终的ICD-10代码预测。

创新点

  • 结合了提取、检索和重新排序技术来提高医学编码的准确性。
  • 利用大型语言模型(LLMs)生成与医疗记录相关的文本,以支持ICD代码的选择。
  • 提出了一个新的数据集,包含疾病诊断、ICD代码和支持证据文本,以促进可解释ICD编码方法的开发和评估。

算法模型

MedCodER框架包括三个主要步骤:

  1. 疾病诊断、支持证据和ICD-10代码提取:使用LLM提取疾病诊断、支持证据文本和相关的ICD-10代码。
  2. ICD-10检索增强:通过语义搜索提取的诊断与有效ICD-10代码的描述之间进行匹配,以检索候选ICD-10代码。
  3. 代码到记录重新排序:使用LLM对检索到的代码和LLM生成的代码进行重新排序,以产生最终预测的ICD-10代码列表。

实验效果

  • 疾病诊断提取:MedCodER在疾病诊断提取方面的表现优于其他系统,F1分数为0.83。
  • ICD-10编码:MedCodER在预测每个诊断的顶级ICD-10代码方面的表现优于现有技术,F1分数为0.60。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一个创新的框架,通过结合最新的生成性AI技术和医学编码的特定需求,显著提高了自动化医学编码的准确性和可解释性。此外,文章还提供了一个新的数据集,这对于该领域的研究者来说是非常宝贵的资源。

3. Exploring Hint Generation Approaches in Open-Domain Question Answering

J Mozafari, A Abdallah, B Piryani, A Jatowt - arXiv preprint arXiv:2409.16096, 2024
https://arxiv.org/pdf/2409.16096
在这里插入图片描述
在这里插入图片描述
探索开放领域问答中的提示生成方法

摘要

本文介绍了一种新颖的上下文准备方法 HINTQA,该方法使用自动提示生成(HG)技术而不是生成相关上下文或检索相关文档。通过为问题生成多个提示,并将其作为上下文传递给阅读器组件,HINTQA 在三个问答数据集(TriviaQA、Natural Questions 和 Web Questions)上的表现超过了现有的基于检索和生成的方法。

研究背景

自动问答(QA)系统依赖上下文信息提供准确答案。常见的上下文准备方法包括基于检索的方法(从类似 Wikipedia 的语料库中检索文档)和基于生成的方法(使用大型语言模型(LLMs)生成上下文)。然而,这些方法存在局限性,如检索到的文档可能过长且包含不相关信息,而生成的方法通常只产生少数几个句子作为上下文。

问题与挑战

在开放领域问答中,如何有效地准备上下文是一个挑战。现有的方法要么检索大量可能包含无关信息的文档,要么生成的上下文信息不足,导致 QA 系统可能被误导。

如何解决

HINTQA 方法通过提示生成来解决这个问题,它提示 LLM 生成关于潜在答案的提示,而不是生成相关上下文。这些提示通过重新排序和组合,形成用于 Reader 组件识别问题答案的上下文。

创新点

  • 提出了一种新颖的上下文准备方法,使用自动提示生成技术。
  • 通过生成多个提示并将其作为上下文传递给阅读器组件,提高了答案的准确性。
  • 在三个问答数据集上进行了广泛的实验,验证了该方法的有效性。

算法模型

HINTQA 包括以下步骤:

  1. 提示生成:使用 LLM 生成与问题相关的多个提示。
  2. 重新排序:根据收敛分数(HICOS)等标准对提示进行重新排序。
  3. 上下文形成:将排序后的提示组合成上下文。
  4. 答案提取:Reader 组件从上下文中提取答案。

实验效果

  • 在 TriviaQA、NQ 和 WebQ 数据集上,HINTQA 在多个评估指标上的表现均优于现有的基于检索和生成的方法。
  • 实验结果表明,使用提示作为上下文可以提高 QA 系统的性能。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的 QA 系统上下文准备方法,通过自动生成提示来提高问答的准确性和效率。

4. Visual Prompting in Multimodal Large Language Models: A Survey

J Wu, Z Zhang, Y Xia, X Li, Z Xia, A Chang, T Yu, S Kim… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.15310
在这里插入图片描述
多模态大型语言模型中的视觉提示综述
在这里插入图片描述

摘要

本文是关于多模态大型语言模型(MLLMs)中视觉提示方法的首次全面调查,重点关注视觉提示、提示生成、组合推理和提示学习。文章对现有视觉提示进行了分类,并探讨了自动图像注释的生成方法。同时,检验了使视觉编码器与主干LLMs更好对齐的视觉提示方法,涉及MLLMs的视觉定位、对象引用和组合推理能力。此外,还总结了模型训练和上下文学习方法,以提高MLLMs对视觉提示的感知和理解。

研究背景

多模态大型语言模型(MLLMs)通过结合视觉能力,扩展了预训练的大型语言模型(LLMs)的应用范围。虽然文本提示在LLMs中已被广泛研究,但视觉提示作为新范式出现,允许更细粒度和自由形式的视觉指令。

问题与挑战

传统的基于文本的提示方法在提供准确的视觉定位和引用详细视觉信息方面存在不足,可能导致视觉幻觉和语言偏见。现有方法缺乏在预训练阶段对视觉提示的异构训练数据,可能导致MLLMs忽略或误解某些视觉提示。

如何解决

文章提出了HINTQA方法,通过自动提示生成(HG)技术,而不是生成相关上下文或检索相关文档。该方法生成多个提示,以替代检索到的段落和生成的上下文。

创新点

  • 提出了一种新颖的上下文准备方法,使用自动提示生成技术。
  • 生成并发布了用于TriviaQA、NQ和WebQ数据集测试集问题的提示及其相应的收敛分数。
  • 在这些数据集上使用零样本和少样本策略,对各种数量的提示和重新排序方法进行了广泛实验。

算法模型

HINTQA方法包括三个主要步骤:

  1. 提示生成:使用LLM生成与问题相关的多个提示。
  2. 重新排序:根据收敛分数等标准对提示进行重新排序。
  3. 上下文形成:将排序后的提示组合成上下文,传递给阅读器组件以识别问题的答案。

实验效果

  • 在TriviaQA、NQ和WebQ数据集上,HINTQA方法在多个评估指标上的表现均优于现有的基于检索和生成的方法。
  • 实验结果表明,使用提示作为上下文可以提高QA系统的性能。

推荐阅读指数

★★★★☆

推荐理由

这篇文章提供了多模态大型语言模型中视觉提示方法的全面概述,对于希望了解这一领域最新进展的研究人员和实践者来说,值得一读。

5. Empirical Insights on Fine-Tuning Large Language Models for Question-Answering

J Ye, Y Yang, Q Zhang, T Gui, X Huang, P Wang, Z Shi… - arXiv preprint arXiv …, 2024
https://arxiv.org/pdf/2409.15825
在这里插入图片描述
对于问答任务微调大型语言模型的实证见解

摘要

本文探讨了如何有效地对大型语言模型(LLMs)进行微调,以便更好地进行问答(QA)任务。研究团队通过一系列实证分析,关注三个关键因素:SFT(监督式微调)阶段所需的数据量、不同SFT数据集对模型性能的影响,以及不同LLMs在数据需求上的差异。实验结果表明,仅需要60个样本就能激活预训练阶段编码的知识,使LLMs能够有效执行QA任务。

研究背景

大型语言模型(LLMs)如GPT和LLaMA系列,通过在大规模数据集上预训练,编码了广泛的世界知识。这些模型可以通过监督式微调(SFT)应用于QA任务。然而,对于QA任务而言,有效的LLMs微调策略尚未得到充分探索。

问题与挑战

如何确定SFT阶段所需的最小数据量,以及如何选择合适的数据集进行微调,是实现高效QA性能的关键挑战。

如何解决

研究团队提出了一种基于多模板补全机制的方法来评估预训练LLMs记忆不同类型知识的程度,并进行实证分析。

创新点

  • 提出了一种新的多模板补全机制,用于评估预训练LLMs记忆知识的程度。
  • 对来自三个不同模型家族的四个LLMs进行了广泛的实证分析,以回答有关SFT的关键问题。
  • 揭示了不同LLMs在SFT任务中固有的差异,为开发更有效的微调策略提供了新见解。

算法模型

研究团队使用了来自不同模型家族的四个LLMs,包括LLaMA-2、LLaMA-3和Qwen-2系列,并设计了21种不同的映射模板来评估模型记忆知识的程度。

实验效果

  • 实验发现,SFT阶段仅需60个数据点就能激活预训练阶段编码的知识,使LLMs能够有效执行QA任务。
  • SFT数据的内存级别对LLM性能有显著影响,使用数据的最优数据集根据被微调的特定模型而异。

推荐阅读指数

★★★★☆

推荐理由

这篇文章为如何有效地对大型语言模型进行微调以提高问答任务的性能提供了深入的探索。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2199225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

en造数据结构与算法C# 之 堆排序

堆的特点 堆排序有两个分类:大顶堆,小顶堆 比如大顶堆就是说所有根节点的值都比左右子节点大 en造数据结构与算法C# 二叉排序树 泛型类的基本构成-CSDN博客 en造数据结构与算法C# 之 二叉排序树的增/查-CSDN博客 en造数据结构与算法C# 之 二叉排序…

YOLO11涨点优化:注意力魔改 | 双重注意力机制DoubleAttention,有效地捕获图像中不同位置和不同特征的重要性

💡💡💡本文改进内容: DoubleAttention该网络结构采用双重注意力机制,包括Spatial Attention和Channel Attention,有效地捕获图像中不同位置和不同特征的重要性 💡💡💡本文改进:分别加入到YOLO11的backbone、neck、detect,助力涨点 改进1结构图: 改进2结构图…

『网络游戏』XML配置文件随机名字【12】

首先制作xml模板 在桌面上创建txt自定义重命名water 将以下代码复制在txt文本中修改后缀为.xml <?xml version"1.0" encoding"UTF-8"?> <root> <item ID""> <surname></surname> <man…

科技云报到:云服务的中场战事,从AI应用开始

科技云报到原创。 从去年的大模型之战&#xff0c;到今年的AI应用之争&#xff0c;云服务正在迈入全新的发展阶段。AI这个杠杆将各家厂商的竞争策略更向前推进了一步。 “云AI”能够孵化出多少可能&#xff1f;在业界眼中&#xff0c;“云AI”则意味着新的悬念&#xff1a;云计…

调度台设计厂家智能化管理体系中到底有多重要?

在当今这个信息化、智能化高速发展的时代&#xff0c;调度台作为各类指挥中心、监控中心及应急响应系统的核心枢纽&#xff0c;其设计与制造水平直接关系到整个系统的运行效率与稳定性。因此&#xff0c;选择一家专业、可靠的调度台设计厂家&#xff0c;成为了众多企事业单位在…

微信小程序——婚礼邀请函

一、界面设计 首页&#xff1a; 精美的婚礼主题背景图&#xff0c;可能是新人的婚纱照或浪漫的插画。温馨的欢迎语&#xff0c;如 “欢迎参加我们的婚礼”。一个 “打开邀请函” 的按钮&#xff0c;引导用户进入邀请函详情页面。 邀请函详情页面&#xff1a; 顶部展示新人的照片…

瑞华技术募资额巨降过半:业绩大幅下滑,信用期外应收账款占比高

《港湾商业观察》黄懿 上市的节奏有快有慢&#xff0c;常州瑞华化工工程技术股份有限公司&#xff08;下称“瑞华技术”&#xff0c;920099.BJ&#xff09;自2023年3月被北交所受理后&#xff0c;于2024年8月29日获得注册批文&#xff0c;9月25日正式挂牌上市。 据了解&#…

如何使用pymysql和psycopg2连接MySQL和PostgreSQL数据库

在现代软件开发中&#xff0c;数据库是存储和管理数据的核心组件。Python作为一种流行的编程语言&#xff0c;提供了多种方式来连接和操作数据库。在这篇文章中&#xff0c;我们将探讨如何使用pymysql和psycopg2这两个库来连接MySQL和PostgreSQL数据库。我们将从基础概念开始&a…

【总结分享】10种常用前后端鉴权方法,让你不再迷惘

本文转载自&#xff1a;https://juejin.cn/post/7129298214959710244 作者&#xff1a;易师傅 关于前端鉴权这块&#xff0c;token、cookie、session、jwt、单点登录、扫码登录、一键登录是什么意思&#xff1f;分别有什么作用&#xff1f;你一般是怎么做的&#xff1f;以及你…

No.13 笔记 | 网络安全防护指南:从法律法规到技术防御

一、法律法规 《中华人民共和国网络安全法》要点 遵守法律&#xff1a;所有个人和组织在使用网络时&#xff0c;必须遵守宪法和法律&#xff0c;不得利用网络从事危害国家安全等活动。 个人信息保护&#xff1a;禁止非法获取、出售或提供个人信息。若违反但未构成犯罪&#x…

Mysql 锁机制详情

一&#xff1a;事务四要素 原子性&#xff08;Atomicity&#xff09;&#xff1a;要么全部完成&#xff0c;要么全部不完成&#xff08;通过redo log 日志实现&#xff09;&#xff1b;一致性&#xff08;Consistency&#xff09;&#xff1a;一个事务单元需要提交之后才会被…

CSS调整元素大小

为了增强用户体验&#xff0c;CSS3 中新增了一个非常实用的 resize 属性&#xff0c;该属性允许用户通过拖动的方式来自由缩放元素的尺寸&#xff0c;在此之前要实现类似的效果还需要借助大量的 JavaScript 代码。resize 属性的语法格式如下&#xff1a; resize: none|both|ho…

【含开题报告+文档+PPT+源码】基于SpringBoot乡村助农益农平台的设计与实现

开题报告 近年来&#xff0c;随着社会经济的快速发展和人民生活水平的提高&#xff0c;人们对优质农产品的需求越来越高。然而&#xff0c;传统的农产品销售管理模式存在一些问题。首先&#xff0c;农产品供应链信息不透明&#xff0c;导致生产者难以了解市场需求和价格变动趋…

【笔记】6.2 玻璃的成型

玻璃熔体的成型方法,有压制法(例如,制作水杯、烟灰缸等)、压延法(例如,制作压花玻璃等)、浇铸法(例如,制作光学玻璃、熔铸耐火材料、铸石等) 、吹制法(例如,制作瓶罐等空心玻璃)、拉制法(例如,制作窗用玻璃、玻璃管、玻璃纤维等)、离心法(例如,制作玻璃棉等)、喷吹法(例如,制作…

Authentication Lab | IP Based Auth Bypass

关注这个靶场的其它相关笔记&#xff1a;Authentication Lab —— 靶场笔记合集-CSDN博客 0x01&#xff1a;IP Based Auth Bypass 前情提要 有些开发人员为了图方便&#xff0c;会给站点设置一个 IP 白名单&#xff0c;如果访问站点的用户的 IP 在白名单内&#xff0c;则允许访…

低代码平台那么多,如何知道哪个比较好用

在当今数字化时代&#xff0c;低代码平台如雨后春笋般涌现&#xff0c;为企业的软件开发带来了新的机遇和挑战。面对众多的低代码平台&#xff0c;如何判断哪个比较好用呢? 首先&#xff0c;功能全面性是关键考量因素。一个好用的低代码平台应具备丰富的功能模块&#xff0c;包…

【ACM独立出版】第四届计算机、物联网与控制工程国际学术会议(CITCE 2024)

第四届计算机、物联网与控制工程国际学术会议&#xff08;CITCE 2024) The 4th International Conference on Computer, Internet of Things and Control Engineering&#xff08;CITCE 2024) 重要信息 大会官网&#xff1a;www.citce.org 大会时间&#xff1a;2024年11月1-…

C++面试之继承和多态

(倒反天罡) 概念选择题答案&#xff08;0411-0422&#xff09; 1 C 2 A 3 B 4 B 5 D 6 D 7 D 8 C 9 D 10 D 11 C 12 E 13 C 继承有什么作用&#xff1f; 继承可以重写或重定义父类中的一些方…

Redis 实现 查找附近的人 功能

文章目录 概述Redis 中 Geospatial&#xff08;地理位置&#xff09;Demo例子总结 概述 使用 Redis 实现“查找附近的人”功能&#xff0c;通常会依赖 Redis 的 Geo&#xff08;地理位置&#xff09; 数据类型来存储用户的经纬度&#xff0c;并基于此进行地理范围查询。Redis …

最新价值5000元的V2M2引擎传奇源码2024BLUE升级版 团购

最新团购的V2M2引擎源码2024年BLUE升级版 特点优势是最新XE12编辑器&#xff0c;微端&#xff0c;各种自定义UI 无限仿GOM引擎功能 参考地址&#xff1a;最新价值5000元的V2M2引擎传奇源码2024BLUE升级版[原始团购版]_1234FCOM专注游戏工具及源码例子分享下载地址:BlueCodePXL…