增强语言模型导读

news2024/11/25 12:27:44

以ChatGPT为主的大语言模型出现已有半年时间,研究逐渐从针对模型本身的进化和功能,延展到如何更为有效地利用大模型,将它与其它工具结合,落地,以解决实际领域中的问题。

这里的增强主要指让大语言模型(LM)与外部扩展模块相结合,从而获得超越单纯的自然语言建模的能力。具体能力包含:推理、使用工具、行动。它不仅能解决更多类型的问题,在连接外部模块后,其处理自然语言处理能力也得到突破性进展。

本文介绍一篇增强语言模型综述,以及几篇最近发表的具体应用方法和框架的文章。

增强语言模型综述

英文题目: Augmented Language Models: a Survey
中文题目: 增强语言模型综述
论文地址: http://arxiv.org/abs/2302.07842
解读:https://blog.csdn.net/xieyan0811/article/details/130910473?spm=1001.2014.3001.5501
(将近5000字,太长就不贴了)

一篇综述性文章,来Meta,发布时间为2023-02-15。
文章从方法论的角论进入阐释。内容分为六部分:介绍,推理,使用工具和行动,学习方法,讨论,结论,正文22页。
对于比较关注 LM 领域的读者,这篇文章中并没有提到让人意外的特殊方法。然而,文章对现有方法进行了全面细致的整理,提供了全景视角的概览,详细引用了相关文献和软件示例。是对知识很好的概览和梳理,可作为入门读物。

Chameleon:使用大型语言模型进行即插即用的组合推理

本篇来自加州大学&微软,发布时间为2023-04-19。

英文题目: Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models
中文题目: Chameleon:使用大型语言模型进行即插即用的组合推理
论文地址: http://arxiv.org/abs/2304.09842

解读:

  • 目标:使用LLM与其它工具结合,解决具体领域的问题。在不同类型的数据和各种模型工具之间建立起了桥梁,利用LLM实现了之前需要人工设计的调用顺序和方法。
  • 当前问题:自然语言大模型LLM由于其自身的限制,无法访问最新信息、无法使用外部工具,无法进行精确的数学推理。
  • 效果:结合GPT-4,在ScienceQA(86.54%)和TabMWP(98.78)任务中,得到了显著的提升。
  • 方法:
    提出chameleon(变色龙),即插即用的组合推理框架,该框架可以组合多种工具,其中可包含LLM模型、现成的视觉模型、网络搜索引擎、Python 函数和根据用户兴趣定制的基于规则的模块,并将LLM 作为自然语言规划器,将问题拆解成多种工具组合的链条(设计工作流程),然后调用工具协同解决问题,最后通过答案生成器生成回答。
    图-1展示了看图回答问题的三个示例,针对第二个问题,展示了从文本识别,信息检索,生成解决方法,最终生成答案的过程。

其中可使用的工具包含:

SuperICL:小型模型作为大型语言模型的插件

本篇来自加州大学&微软,发布时间为2023-05-15。

英文题目: Small Models are Valuable Plug-ins for Large Language Models
中文题目: 小型模型作为大型语言模型的插件
论文地址: http://arxiv.org/abs/2305.08848

解读

  • 目标:利用自然语言大模型(LLM),提升对大规模的有监督数据的预测效果。
  • 当前问题:由于上下文长度的限制,只能在对话中给LLM提供有限的上下文提示(In-Context Learning)。
  • 效果:在效果评测,稳定性,多语言和可解释性方面均表现出其优越性。
  • 方法
    文中提出了SuperICL,将LLM视为黑盒,与本地经过调优的小模型相结合,以提升有监督任务的能力。
    之前只是将有监督的示例和待预测的测试数据传递给LLM来获得答案。文中提出的方法,首先针对训练集和测试集数据训练了本地模型,预测标签和置信度。然后将这些结果和测试数据一起传递给LLM,从而使LLM不仅学习了推理结果,还学习了决策过程,从而实现了更好的推理和解释能力。

图-1(a)部分展示了ICL的工作过程(之前),它从训练集的上下文中采样,再结合测试集数据一起传给LLM,得到输出;
图-1(b)展示了SuperICL的工作过程,分为三步:

  • 通过从训练数据中随机抽样并结合本地模型的预测构建上下文,包括预测标签及其相应的置信度分数。
  • 测试输入连接在上下文之后,并附加了本地模型对测试数据的预测。
  • 语言模型生成最终预测以及解释。

PKG:参数化知识指导的增强大语言模型

本篇来自香港大学&微软,发布时间为2023-05-18。

英文题目: Augmented Large Language Models with Parametric Knowledge Guiding
中文题目: 参数化知识指导的增强大语言模型
论文地址: http://arxiv.org/abs/2305.04757
解读:

  • 目标:促进大模型LLM在领域知识密集型任务中的应用
  • 当前问题:在解决具体问题时,涉及更多领域相关的知识,最新的知识,以及私有数据。
  • 效果:提升了模型在一系列领域知识密集型任务上的性能,包括事实 (+7.9%)、表格 (+11.9%)、医学 (+3.0%) 和多模态 (+8.1%) 知识。
  • 方法:
    提出PKG(Parametric Knowledge Guiding)参数化知识引导框架,结合本地模型和LLM模型,本地模型基于开源的自然语言模型(Llama),它可以存储离线的领域知识,将领域知识转化成参数输出,作为background和问题一起传入大模型。
    文中的图-1展示了PKG的工作过程:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/578851.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【21】SCI易中期刊推荐——计算机科学人工智能领域(中科院4区)

💖💖>>>加勒比海带,QQ2479200884<<<💖💖 🍀🍀>>>【YOLO魔法搭配&论文投稿咨询】<<<🍀🍀 ✨✨>>>学习交流 | 温澜潮生 | 合作共赢 | 共同进步<<<✨✨ 📚📚>>>人工智能 | 计算机视觉…

Unity 动画系统基本概念

一、动画的基本概念 1、帧 在古代&#xff0c;一幅字画叫一帧&#xff0c;而在计算机中&#xff0c;每次渲染完毕一幅画面并显示出来&#xff0c;这一幅画就是一帧。 连续切换的帧就形成了动态的画面。每秒刷新帧的次数称为频率&#xff0c;单位是FPS&#xff08;Frames Per…

JavaEE Tomcat Servelet第一个helloworld程序

Tomcat & Servelet第一个程序helloworld&#xff01; 文章目录 JavaEE & Tomcat & 第一个Servelet程序1. HTTP服务器 - Tomcat1.1 Tomcat的目录结构&#xff1a;1.2 启动Tomcat1.3 Tomcat的优点 2. Servelet框架2.1 创建Maven项目2.2 引入依赖2.3 创建目录2.4 写代…

Mac电脑读写移动硬盘软件Tuxera NTFS2023中文版

日常工作中&#xff0c;我们经常会使用移动硬盘拷贝文件&#xff0c;因为移动硬盘传输文件方便、传输速度快。但我们在mac电脑上使用移动硬盘却发现硬盘无法正常读写。本文向大家介绍mac能读写的移动硬盘有哪些以及移动硬盘怎么在mac上读写。 一、Mac能读写的移动硬盘有哪些 移…

数据挖掘(5.1)--贝叶斯分类

目录 前言 正文 1.主观概率 2.贝叶斯定理 1.基础知识 2.贝叶斯决策准则 3.极大后验假设 4.例题 2.朴素贝叶斯分类模型 朴素贝叶斯分类器的算法描述&#xff1a; 朴素贝叶斯算法特点 3.贝叶斯信念网 贝叶斯网络的建模包括两个步骤 贝叶斯信念网特点 开往夏天的列…

C++第七章:类

类 一、定义抽象数据类型1.1 定义抽象数据类型类的用户 1.2 定义一个书籍类引入this引入const成员函数类作用域和成员函数在类的外部定义成员函数定义一个返回this对象的函数 1.3 定义类相关的非成员函数定义read和print函数最终代码 1.4 构造函数合成的默认构造函数某些类不能…

真相只有一个——真正排名

这里写目录标题 1.题目描述2.解题思路3.代码展 所属专栏&#xff1a;脑筋急转弯❤️ &#x1f680; >博主首页&#xff1a;初阳785❤️ &#x1f680; >代码托管&#xff1a;chuyang785❤️ &#x1f680; >感谢大家的支持&#xff0c;您的点赞和关注是对我最大的支持…

【论文阅读】Group Emotion Detection Based on Social Robot Perception

【论文阅读】Group Emotion Detection Based on Social Robot Perception 摘要1.介绍2.相关工作3.方法4.数据集生成5.模拟与结果6.讨论 摘要 本篇博客参考MDPI sensors 2022收录的论文Group Emotion Detection Based on Social Robot Perception&#xff0c;对其主要内容进行总…

第三期:那些年,我们一起经历过的链表中的浪漫

PS&#xff1a;每道题解题方法不唯一&#xff0c;欢迎讨论&#xff01;每道题后都有解析帮助你分析做题&#xff0c;答案在最下面&#xff0c;关注博主每天持续更新。 1. 两个链表的第一个公共节点 “我走过我的世界&#xff0c;再从你的世界走一遍” “你走过你的世界&#x…

1688商品ID采集一件代发详情页面数据

本篇博文介绍了对1688商品详情API的二次封装&#xff0c;将URL参数封装成Python函数&#xff0c;直接传入参数即可获取搜索结果&#xff0c;例如1688商品标题、价格、一件代发、sku属性和URL等。提供了详细的代码示例和接口调用Demo。 1688.item_get-获得1688商品详情数据 1.请…

C语言中的类型转换

C语言中的类型转换 隐式类型转换 整型提升 概念&#xff1a; C语言的整型算术运算总是至少以缺省&#xff08;默认&#xff09;整型类型的精度来进行的为了获得这个精度&#xff0c;表达式中字符和短整型操作数在使用之前被转换为普通整型&#xff0c;这种转换成为整型提升 如…

MySQL | JDBC连接数据库详细教程【全程干货】

文章目录 一、什么是JDBC&#xff1f;二、JDBC工作原理三、使用JDBC连接MySQL数据库【✔】1、安装对应数据驱动包2、将jar包导入项目中3、编写代码连接数据库【⭐】1️⃣ 创建数据源2️⃣ 和数据库建立网络连接3️⃣ 构造SQL语句4️⃣ 执行SQL语句5️⃣ 断开连接&#xff0c;释…

【AI提示】ChatGPT提示工程课程(吴恩达OpenAI)推理文本(中文chatgpt版)

设置 Setup产品评论文本情感&#xff08;正面/负面&#xff09;Sentiment (positive/negative)识别情绪类型从客户评论中提取产品和公司名称一次完成多项任务Inferring topics 推断主题为某些主题制作新闻提醒 Inferring 推理 在本课中&#xff0c;您将从产品评论和新闻文章中推…

计算机专业主要学习什么

2020计算机专业主要学习什么 1计算机专业都学习哪些方面的知识 1、可视化编程 掌握编程方法和可视化技术&#xff0c;熟悉一个可视化平台及其软件开发技术。能够获取Delphi编程人员系列&#xff0c;Java Basic或VB开发专家认证。 就业方向&#xff1a;企业&#xff0c;政府&…

Elasticsearch:验证 Elasticsearch Docker 镜像并安装 Elasticsearch

Elasticsearch 可以作为 Docker 镜像使用。 www.docker.elastic.co 上提供了所有已发布的 Docker 图像和标签的列表。 源文件在 Github 中。此软件包包含免费和订阅功能。 开始 30 天试用以试用所有功能。 从 Elasticsearch 8.0 开始&#xff0c;默认启用安全性。 启用安全性后…

为什么很多企业把35岁视为分水岭

(点击即可收听) 为什么很多企业把35岁视为分水岭 有时候,别人的故事,若干年后,就是自己的故事,只要身在互联网这个行业里,可以说,每个人都避免不了35岁危机 不要五十步笑百步 前阵子,朋友圈一位行业知名大佬,35岁,每天兢兢业业,任劳任怨,本以为安稳渡过3个月试用期,正快要转正时…

AutoEncoder GAN

AE Auto-Encoder (AE) 是20世纪80年代晚期提出的&#xff0c;它是一种无监督学习算法&#xff0c;使用了反向传播算法&#xff0c;让目标值等于输入值。 是神经网络的一种&#xff0c;经过训练后能尝试将输入复制到输出。三层网络结构&#xff1a;输入- 隐层- 输出自编码网络…

一道经典的网红面试题:从URL输入到页面展现到底发生了什么?

目录 &#x1f3ee; 前言 一、URL 到底是啥 二、域名解析&#xff08;DNS&#xff09; 三、TCP 三次握手 四、发送 HTTP 请求 五、服务器处理请求并返回 HTTP 报文 六、浏览器解析渲染页面 1.根据 HTML 解析 DOM 树 2.根据 CSS 解析生成 CSS 规则树 3.结合 DOM 树和…

MySQL高级篇复盘笔记(一)【存储引擎、索引、SQL优化、视图、触发器、MySQL管理】

❤ 作者主页&#xff1a;欢迎来到我的技术博客&#x1f60e; ❀ 个人介绍&#xff1a;大家好&#xff0c;本人热衷于Java后端开发&#xff0c;欢迎来交流学习哦&#xff01;(&#xffe3;▽&#xffe3;)~* &#x1f34a; 如果文章对您有帮助&#xff0c;记得关注、点赞、收藏、…

解决“Adobe Premiere安装后无法启动“问题

昨天在Win10 专业版上安装Adobe Premiere2019(后面简称 Adobe Pr2019)时&#xff0c;发现Pr2019安装之后无法启动&#xff0c;有时&#xff0c;桌面上有时会产生空白的Premiere图标。换了好几个Adobe Premirere安装包&#xff0c;都是如此。正在苦思冥想中&#xff0c;突然灵机…