NLP深入学习:《A Survey of Large Language Models》详细学习(七)

news2025/1/19 14:22:39

文章目录

  • 1. 前言
  • 2. 应用场景
    • 2.1 LLMs 对研究界的应用
      • 2.1.1 经典 NLP 任务
      • 2.1.2 信息检索
      • 2.1.3 推荐系统
      • 2.1.4 多模态大语言模型
      • 2.1.5 知识图谱增强型 LLM
      • 2.1.6 基于 LLM 的智能体
      • 2.1.7 用于评估
    • 2.2 特定领域的应用
  • 3. 参考


1. 前言

这是《A Survey of Large Language Models》的走读最后一篇文章。

前情提要:
《NLP深入学习:《A Survey of Large Language Models》详细学习(一)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(二)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(三)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(四)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(五)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(六)》

第一章介绍了论文的摘要、引言以、总述部分
第二章讲解了 LLMs 相关资源,包含公开模型、API、预训练的数据集以及微调的数据集,
第三章介绍预训练部分,这是 LLMs 的重要部分!
第四章介绍适应性训练
第五章介绍 LLMs 的 prompts
第六章介绍 LLMs 的模型能力与评价体系方法

本文介绍 LLMs 的应用场景,文章主体的最后一部分。

2. 应用场景

这是文章本节的主要内容:
在这里插入图片描述

2.1 LLMs 对研究界的应用

2.1.1 经典 NLP 任务

在 LLMs 应用于经典自然语言处理任务方面:

  1. Word/Sentence-level Tasks(词/句任务)
    在词/句子层面的任务中,LLMs 展示了强大的理解和生成能力。对于诸如词汇聚类、词义消歧等词级任务,以及句子匹配、情感分类等句子级别任务,LLMs 经过适当微调或利用 In-context Learning 技术,能够在这些基础NLP 任务上取得优异的表现。例如,通过分析上下文中的少量示例,LLMs 能够理解并模仿给出的样例来正确预测单词类别或者判断两个句子之间的语义关系。

  2. Sequence Tagging(序列标注)
    序列标注是给定文本序列中的每个元素分配预定义标签的任务,如命名实体识别(NER)和词性标注(POS)。研究指出,尽管 LLMs 在无监督学习环境下进行这类任务时面临挑战,但通过对模型进行适当地微调或使用连续提示优化策略,它们可以有效地对词语进行精准标记,并在一些复杂类别(如“MISC”和其他组织类型的实体)上的表现有所提升。

  3. Information Extraction(信息抽取)
    信息抽取涉及从非结构化文本中自动提取有意义的信息,例如关系抽取和事件抽取。虽然 LLMs 仅通过 In-context Learning 可能无法达到最优性能,但在结合了小规模模型的专业知识或采用与小型模型合作的方式之后,LLMs 能显著提高其在这些复杂任务上的表现。此外,有研究表明,在特定条件下,LLMs 甚至可以在零样本或少样本设置下展现出竞争性的信息抽取能力。

  4. Text Generation(文本生成)
    文本生成是 LLMs 擅长的一项核心任务,包括机器翻译、摘要生成等。基于预训练的语言建模优势,LLMs 已经成功地被应用到多种生成任务中,并且商业产品如 GPT-3 在提供高质量文本生成服务方面取得了突出成绩。在适当的提示引导下,LLMs 不仅能生成连贯、准确的文本,还能适应不同领域和场景的需求,比如文档级别的翻译和根据用户交互改进生成质量。

2.1.2 信息检索

在大型语言模型(LLMs)应用于信息检索(IR)领域方面,研究主要集中在以下两个核心方向:

  1. LLMs 作为 IR 模型
    LLMs 因其强大的语言理解和生成能力而被探索用于信息检索任务。尽管LLMs 的直接应用存在一些挑战,如推理和排序大规模文档列表时的高计算开销、长文本处理限制等,但通过特殊设计的提示工程技术和少量示例学习,LLMs 可以在某些情况下用作 reranker 来优化搜索结果。例如,将LLMs 用作候选文档集合的重排序器,在不改变底层检索系统的基础上,对初步检索出的文档进行细粒度的语义相似性评估和排名。

  2. LLM 增强型IR模型
    为了克服 LLMs 直接作为 IR 模型的局限性,研究人员尝试将 LLMs 集成到现有 IR 系统中以提升其性能。这种策略包括使用 LLMs 为传统的检索模型提供额外的知识注入或特征表示,比如利用 LLMs 理解用户查询意图并生成相关的关键词或短语,从而改进检索系统的检索效果。此外,LLMs 还能用来注解和丰富用户与文档之间的交互历史数据,帮助构建更准确的用户画像,进而提高推荐系统的精度和个性化程度。

2.1.3 推荐系统

在推荐系统领域,大型语言模型(LLMs)的应用研究集中在几个主要方向:

  1. LLMs作为推荐模型
    大型语言模型可以直接用于构建推荐模型。通过特定的指令和提示技术,LLMs 能够根据用户的历史行为或提供的上下文信息生成个性化推荐。例如,在零样本或少样本学习设置下,研究人员探索了如何利用预训练好的 LLMs 直接生成推荐内容,如产品建议、文章链接等。为了优化此类推荐性能,研究还涉及到了诸如指令调整、最近关注度提示以及上下文学习等多种策略。

  2. LLM增强型推荐模型
    除了直接提供推荐外,LLMs 也被应用于改进传统推荐系统。一种方法是利用 LLMs 编码用户和物品的附加信息(如用户评论、商品描述等),从而提取更丰富的特征表示,这些表示可以被输入到传统的协同过滤或其他推荐算法中,以提高推荐结果的质量。
    另一方面,有研究将 LLMs 的能力转移到小型模型上,采用蒸馏的方式将 LLMs 的语义理解能力传递给轻量级推荐模型,这样既能保留 LLMs 的优势,又能降低在线服务时的计算资源消耗。

  3. LLM作为推荐模拟器
    LLMs 还能用于开发推荐系统的模拟器,例如 RecAgent 项目就是基于LLMs 构建的一个新颖推荐系统模拟框架。这种模拟器允许代理(agent)模拟真实用户的交互行为,并基于历史互动记录和记忆模块来捕捉用户的潜在兴趣偏好。一些模拟器还采用了多智能体协作学习的方法,使得用户和物品都能作为具有决策能力的智能体参与到推荐过程中,更好地理解和反映用户与物品之间的双向关系。

2.1.4 多模态大语言模型

多模态大语言模型是一种能够处理和整合不同模态信息(如文本、图像、音频等)的大型语言模型。在本文中,针对多模态大模型的介绍包括训练过程、评估方法以及改进的关键点:

  1. 训练过程
    多模态大模型的训练通常采用两阶段策略:首先进行视觉-语言对齐预训练,第二阶段是视觉指令调优:

    1. Vision-language alignment pre-training
      在这一预训练阶段,主要目标是使模型能够理解并整合不同模态的信息,特别是将视觉信息与语言信息相结合。具体而言,模型会首先采用一个预训练好的图像编码器来处理输入的图像数据,并将其转化为可被语言模型理解的视觉表示。然后通过端到端的方式,在大规模图像-文本对齐的数据集上进行联合训练,确保模型能够在不修改原有语言模型参数的基础上,有效地捕获视觉和语言之间的关联性。这种策略旨在使得模型学习如何从视觉信息中提取语义,并将其转换为语言形式的描述或推理。
    2. Visual instruction tuning
      预训练完成后,为了进一步提升模型对特定任务的理解和执行能力,研究人员通常会对模型进行视觉指令调优。在此过程中,模型将会接收到包含视觉输入(如图片)以及与之相关的自然语言指令作为输入,要求模型基于这些指令生成合适的响应。视觉指令调优阶段可以看作是一个细化调整的过程,目的是让模型学会遵循给定的指令完成复杂的跨模态任务,例如根据图片内容回答问题、按照指令编辑图片或者生成相关文字描述等。
  2. 评估 MLLMs
    为了全面评估 MLLM 的表现,研究者开发了一系列基准测试集,如 LVLM-eHub 和 Reform-Eval 等,这些数据集包含了大量的跨模态任务实例,用于考察模型在理解复杂指令并基于多种输入生成恰当响应的能力。其他专门设计的评估基准还包含了从现有视觉任务中抽取的问题以及经过人类注释的数据,以评价模型在感知认知、推理以及其他高级能力方面的表现。

  3. 提升 MLLMs 的关键点
    视觉指令数据的质量和数量对于提高 MLLMs 性能至关重要。研究表明,精心构造高质量的人工编写的视觉指令或利用 LMM 自身生成指令的能力可以显著影响模型效果。在训练策略上,如何平衡保留预训练模型原有的语言知识能力和适应多模态任务的需求是一个挑战。研究指出,在视觉-语言对齐预训练阶段仅更新连接模块或者同时微调连接模块及语言模型组件的不同选择,会影响模型的泛化能力和对原始参数知识的保持程度。另外,安全性与对齐问题也是关键考虑因素。由于 MLLMs 可能在处理多模态输入时产生误导性内容,因此需要开发有效的验证机制控制指令数据质量,并通过诸如 RLHF(强化学习的提示调整)等技术优化模型行为,使其输出更准确且符合道德规范。

2.1.5 知识图谱增强型 LLM

KG-Enhanced LLM,即知识图谱增强型大型语言模型,通过将外部知识库(如知识图谱)与预训练的语言模型相结合,增强了模型在处理需要深度领域知识和推理能力的任务时的表现。以下是关于 KG-Enhanced LLM 的两个部分:

  1. Retrieval-Augmented LLM(检索增强 LLM)
    这种方法主要利用预先构建的知识库(例如知识图谱),通过检索模型首先从大量事实记录中找到与当前任务相关的小规模子图。之后,这些检索到的知识片段被整合到模型的提示或输入中,无需对整个语言模型进行参数更新就能提供额外的信息支持。具体实现上,可能包括训练小型语言模型来识别问题相关的三元组信息,或者采用迭代阅读和推理框架,使模型能够多次交互地访问知识库以获取更准确的答案。

  2. Synergy-Augmented LLM(协同增强 LLM)
    对于解决复杂任务,比如多跳问答(multi-hop question answering),研究者探索了如何系统地结合 LLMs 与知识图谱的优势。这种增强方式通常涉及将任务分解为一系列子目标,并让模型与知识库环境互动,动态生成和执行计划。技术手段可能包括设计特定接口以便 LLM 更好地操作和利用结构化数据,以及利用强化学习策略优化模型在知识图谱上的搜索路径和决策过程。

2.1.6 基于 LLM 的智能体

LLM-based Agent(基于大型语言模型的智能体)是一种结合了预训练大型语言模型与决策规划能力的自动化系统,能够在多种环境中执行任务和作出决策。以下是对其总体框架及其应用领域的详细介绍:

总体结构
基于大型语言模型的智能体通常由三个主要组件构成:记忆(memory)、规划(planner)以及执行(executor)模块。记忆组件负责存储从环境中感知到的信息,包括短期记忆(如内部上下文窗口)和长期记忆(例如映射至外部向量数据库),确保模型能够依据历史信息进行推理和决策。规划组件扮演关键角色,利用从记忆中提取的知识生成针对目标任务的行动计划或策略。这一过程可能涉及文本形式的指令序列生成,或者编程代码级别的任务描述。执行组件则根据规划阶段制定的行动计划,在实际环境中采取相应行动,并将执行结果反馈给规划器以进一步迭代优化计划。

应用

  • LLM-based Agent的应用广泛且多样,它们可以用于解决一系列复杂问题,比如多步骤的自然语言处理任务、跨模态交互以及需要理解并遵循指令完成的任务。
  • 在信息检索领域,智能体可以作为搜索助手,不仅返回相关信息,还能通过理解和解释用户的查询意图,生成满足用户需求的精准答案。
  • 对于虚拟助手和聊天机器人,LLM-based Agent能提供更智能、个性化的服务,基于情境理解生成连贯对话内容,同时具备解决问题和知识查询的能力。
  • 在游戏和模拟环境中,智能体能够根据场景变化动态生成策略,实现自主行为和决策,这对于开发智能游戏AI、增强现实应用以及虚拟世界中的智能代理至关重要。

2.1.7 用于评估

在大型语言模型(LLMs)的评估方面,本文主要介绍了两种核心内容:评估格式和评估方法。

评估规范

  • Score-based Evaluation:这是一种基于量化指标的评估方式。通过设计相应的任务或基准数据集,对 LLM 生成文本的质量进行评分,比如利用传统的自动评价指标衡量机器翻译、摘要生成等任务的表现,或者根据预定义的标准(如准确性、连贯性、相关性等)对回答问题、生成代码片段等任务给出分数。

  • Language-based Evaluation:这种评估形式更关注模型输出的语言质量和逻辑合理性。评估可能包括对中间推理步骤以及最终答案的定性和定量分析,甚至要求模型能够提供可解释性的反馈。

评估方法
随着 LLMs 的发展,一些研究开始采用其他强大的预训练模型作为评估工具。例如,通过让一个大型语言模型评估另一个模型生成的内容,以实现自动化且相对客观的评估。此外,还有研究使用多智能体系统进行评估,其中不同大小和类型的 LLMs 相互协作或竞争,共同产生一个综合评判结果。

元评估基准:为了评估 LLMs 在各种复杂任务上的表现一致性与可靠性,研究者们引入了元评估基准,通过对模型性能与人类标注结果的一致程度进行量化,来检验模型在特定任务上是否具备良好的泛化能力和准确度。

2.2 特定领域的应用

在特定领域应用方面,大型语言模型(LLMs)展示了对多个专业领域的广泛适应性和潜在价值。以下是它们在各个具体领域的应用介绍:

  1. 医疗保健
    LLMs 如 Med-PaLM 等已成功应用于医疗保健领域,能够处理生物学信息提取、医疗建议咨询以及心理健康分析等任务。Med-PaLM等专门针对医疗领域的预训练模型,在美国医学执照考试(USMLE)上达到了专家水平,并且在回答消费者健康问题时得到了医生的较高认可度。然而,LLMs生成的医疗信息可能存在误导性,例如误解医学术语或给出与医学指南不一致的建议,因此确保模型输出准确性和安全性至关重要。

  2. 教育
    在教育领域,LLMs 可以作为教学助手提供个性化学习资源,解释概念,解答学生疑问,并辅助教师进行课程设计和内容开发。通过理解和生成结构化的知识表达,LLMs 可以帮助创建教育资源,比如自动生成练习题和习题解答,以支持远程学习和在线教育平台。

  3. 法律
    在法律行业,LLMs 用于文档摘要、案例检索、法规解释等方面,为律师和法律研究人员节省了大量时间和精力。虽然 LLMs 能生成法律文件草案或分析法律文本,但其输出必须经过专业人士审核,以确保符合法律法规要求及避免潜在的风险和错误。

  4. 金融
    在金融领域,LLMs 被用于新闻摘要、财务报告解读、市场趋势分析以及股票投资建议生成等多种场景。

  5. 科学研究
    科学研究是另一个受益于 LLMs 潜力的领域,LLMs 被用于文献综述、研究想法生成、数据分析等多个阶段。已有研究表明,LLMs能够有效处理知识密集型科学任务,如 PubMedQA 和 BioASQ 中的生物医学文献检索和问答,甚至能够在一定程度上协助撰写科学论文和研究报告。

3. 参考

《A Survey of Large Language Models》
《NLP深入学习:《A Survey of Large Language Models》详细学习(一)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(二)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(三)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(四)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(五)》
《NLP深入学习:《A Survey of Large Language Models》详细学习(六)》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1455409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

51_蓝桥杯_数码管静态显示

一 电路 二 数码管静态显示工作原理 三 代码 代码1 实现第一个数码管显示数字6的功能 #include "reg52.h"unsigned char code SMG_Duanma[18] {0xc0,0xf9.0xa4,0x99,0x92,0x82,0xf8,0x80,0x90,0x88,0x80,0xc0,0x86,0x8e,0xbf,0x7f};void Delay(unsignde int t) {wh…

在ubuntu中制作ubuntu的U盘启动盘

概要: 本篇演示在ubuntu22.04中制作ubuntu22.04的U盘启动盘 一、下载ubuntu22.04的iso文件 访问ubuntu官网https://ubuntu.com自行下载ubuntu官网 二、制作U盘启动盘 打开系统自带软件Startup Disk Creator 软件会自动检测iso文件和U盘 点击Make Startup Disk…

从源代码安装 rocSOLVER 并 调试 rocSOLVER 在 Ubuntu 22.04 平台

0, 下载并编译 rocBLAS 的调试版本 sudo apt install python3.10-venv sudo apt install libmsgpack-dev sudo pip install joblibgit clone --recursive https://github.com/ROCm/rocBLAS.git $ cd rocBLAS/ $ ./install.sh -i -g构建时间也不短 1,下载并编译 roc…

17.Qt 单选框相关操作

目录 前言&#xff1a; 技能&#xff1a; 内容&#xff1a; 1. 布置界面 2.管理 3.槽函数 参考&#xff1a; 前言&#xff1a; 组合选择只能选择一个的单选框实现&#xff0c;以及管理组合单选框 技能&#xff1a; <QRadioButton> <QButtonGroup> 内容&…

openGauss学习笔记-223 openGauss性能调优-系统调优-数据库系统参数调优-数据库内存参数调优

文章目录 openGauss学习笔记-223 openGauss性能调优-系统调优-数据库系统参数调优-数据库内存参数调优223.1 逻辑内存管理参数223.2 执行算子是否下盘的参数 openGauss学习笔记-223 openGauss性能调优-系统调优-数据库系统参数调优-数据库内存参数调优 数据库的复杂查询语句性…

RIP协议详解

​RIP是最早的动态路由协议&#xff0c;虽然已经过时并且很少使用&#xff0c;但是可以通过学习RIP并且和ospf等现在正在使用的路由协议对比&#xff0c;了解其工作原理和过时原因&#xff0c;具有很强的学习性。 一、RIP协议简介 RIP&#xff08;Routing Information Protoc…

【数据仓库】主题域和数据域

数据域与主题域区别 https://www.cnblogs.com/datadance/p/16898254.html 数据域是自下而上&#xff0c;以业务数据视角来划分数据&#xff0c;一般进行完业务系统数据调研之后就可以进行数据域的划分。针对公共明细层&#xff08;DWD&#xff09;进行主题划分。主题域则自上而…

spark sql官网优化指南

两句话概括 缓存数据调整参数 缓存数据 把数据缓存到内存,spark sql能够只扫描需要列并且会自动压缩数据,占用最小的内存和减小GC压力。这无需多言,内存远远要快于磁盘,spark效率比hive高这个就是一个主要原因。 缓存数据代码spark.catalog.cacheTable("tableName&qu…

【ArcGIS微课1000例】0103:导出点、线、面要素的折点坐标值

点要素对应的是一个或者若干个坐标,线要素对应的是对个坐标值对应的点连起来,面要素是多个坐标值对应的点连起来构成的封闭多边形。本文讲述导出点的坐标值。 文章目录 一、点要素坐标导出1. 计算点坐标2. 导出点坐标二、线要素坐标导出1. 生成线要素折点2. 计算折点坐标3. 导…

腾讯云4核8G12M服务器支持多少人在线?

4核8G服务器支持多少人同时在线访问&#xff1f;阿腾云的4核8G服务器可以支持20个访客同时访问&#xff0c;关于4核8G服务器承载量并发数qps计算测评&#xff0c;云服务器上运行程序效率不同支持人数在线人数不同&#xff0c;公网带宽也是影响4核8G服务器并发数的一大因素&…

Github:分享一款开源的跨平台多功能远程控制和监控工具Spark

目录 1、设备列表及操作列表 2、登录机器 Shell 执行命令 3、桌面远程访问 4、远程设备的进程管理 5、远程设备文件管理 今天要给大家推荐一个开源的跨平台多功能远程控制和监控工具&#xff1a;Spark。 目前该项目处于不维护状态&#xff0c;大家可以自己根据需要进行扩…

Eclipse - Code Templates

Eclipse - Code Templates References Window -> Preferences -> C/C -> Code Style -> Code Templates 配置默认代码模板&#xff0c;可以点击 Export 将自己配置好的 Code Templates 导出去&#xff0c;以便备份和共享。 References [1] Yongqiang Cheng, https…

【软考高级信息系统项目管理师--第十一章:项目成本管理】

&#x1f680; 作者 &#xff1a;“码上有前” &#x1f680; 文章简介 &#xff1a;软考高级–信息系统项目管理师 &#x1f680; 欢迎小伙伴们 点赞&#x1f44d;、收藏⭐、留言&#x1f4ac; 第十一章&#xff1a;项目成本管理 成本管理的过程规划成本管理估算成本制定预算控…

【JavaEE】_HTTP请求首行

目录 1. URL 2. 方法 2.1 GET方法 2.2 POST方法 2.3 GET与POST的区别 2.4 低频使用方法 1. URL 在mysql JDBC中已经提到过URL的相关概念&#xff1a; 如需查看有关JDBC更多内容&#xff0c;原文链接如下&#xff1a; 【MySQL】_JDBC编程-CSDN博客 URL用于描述某个资源…

代码检测规范和git提交规范

摘要&#xff1a;之前开发的项目&#xff0c;代码检测和提交规范都是已经配置好的&#xff0c;最近自己新建的项目就记录下相关配置过程。 1. ESlint配置 2013年6月创建开源项目&#xff0c;提供一个插件化的JavaScript代码检测工具&#xff0c;创建项目是生成的eslintrc.js文…

Spring Boot 笔记 023 注册页面

1.1 request.js请求工具 //定制请求的实例//导入axios npm install axios import axios from axios; //定义一个变量,记录公共的前缀 , baseURL const baseURL /api; const instance axios.create({baseURL})//添加响应拦截器 instance.interceptors.response.use(result…

Shiro-11-web 介绍

配置 将Shiro集成到任何web应用程序的最简单方法是在web.xml中配置一个Servlet ContextListener和过滤器&#xff0c;该Servlet了解如何读取Shiro的INI配置。 INI配置格式本身的大部分是在配置页面的INI部分中定义的&#xff0c;但是我们将在这里介绍一些额外的特定于web的部…

CogCopyRegionTool

关于visionpro工具操作原理文章甚少&#xff0c;以下是本人自己查阅visionpro官方文档完成的&#xff1a; “复制区域”工具允许您对单个图像或两个独立的图像执行多个复制操作&#xff1a; 将输入图像的一部分复制到新的输出图像。 1、 将输入图像的一部分复制到现有的目标…

2024 前端面试题(GPT回答 + 示例代码 + 解释)No.114 - No.121

本文题目来源于全网收集&#xff0c;答案来源于 ChatGPT 和 博主&#xff08;的小部分……&#xff09; 格式&#xff1a;题目 h3 回答 text 参考大佬博客补充 text 示例代码 code 解释 quote 补充 quote 上一篇链接&#xff1a;2024 前端面试题&#xff08;GPT回答 示例…

pytorch中dataloader的prefetch_factor出错

今天跑huggingface的示例的时候&#xff0c;遇到了最让我头疼的问题&#xff0c;国内网上还没有对应的解释&#xff0c;我可能是第一人&#xff08;汗&#xff09;先看看报错&#xff1a; Traceback (most recent call last):File "F:\transformer\transformers\examples…