清华唐杰新作WebGLM,参数100亿可联网

news2024/12/23 9:31:45

WebGLM是一个基于大语言模型(LLM)的联网问答聊天机器人,它的作者是清华大学计算机系唐杰教授团队,它的论文入选了KDD2023会议。

WebGLM是一个基于大语言模型(LLM)的联网问答聊天机器人

WebGLM的特点是它可以利用Web搜索和检索功能来增强LLM的能力和泛化性,从而实现一个高效、可靠、多功能的联网问答聊天机器人。它主要由三个组件构成:大模型增强检索器、自举生成器和基于人类偏好的打分器。

WebGLM在多个公开的问答和聊天数据集上都取得了显著的提升,证明了其有效性和优越性。例如,在TriviaQA数据集上,WebGLM的EM(精确匹配)和F1(平均匹配)分别达到了67.8%和76.2%,分别比OpenAI WebGPT高出了5.6%和4.2%。

WebGLM是一个突破性的研究成果,它展示了如何利用Web作为一个巨大的知识库,为LLM提供丰富和多样的信息来源,从而提高LLM在问答和聊天任务上的性能和泛化能力。它也为未来的LLM研究提供了一个新的思路和方向。

WebGLM是什么?

WebGLM是一个基于大语言模型(LLM)的联网问答聊天机器人,它的目标是通过Web搜索和检索功能,增强预训练大语言模型,同时可以进行高效的实际部署。

WebGLM的核心思想是利用Web作为一个巨大的知识库,为LLM提供丰富和多样的信息来源,从而提高LLM在问答和聊天任务上的性能和泛化能力。

WebGLM主要由三个组件构成:大模型增强检索器、自举生成器和基于人类偏好的打分器。下面我们来分别介绍这三个组件。

大模型增强检索器

大模型增强检索器是用于增强模型相关网络内容的检索能力,在给定查询的情况下查找相关引用,以便后面更好地准确回答问题。

它有两个阶段:粗粒度web搜索和细粒度LLM增强密集检索。

粗粒度web搜索是指使用传统的web搜索引擎(如Bing)来获取与查询相关的网页列表。这一步可以快速地缩小搜索范围,过滤掉无关或低质量的网页。

细粒度LLM增强密集检索是指使用预训练好的LLM(如GLM-130B)来对网页列表中的每个网页进行编码,并计算与查询编码之间的相似度。这一步可以进一步提高检索效果,找出最相关和最有价值的网页。

自举生成器

自举生成器是利用GLM(比如清华之前发布的双语开源预训练模型GLM-130B)的能力为问题生成回复,提供详细的答案。

利用该生成器,作者得到WebGLM-QA——一个LLM自举引用和长程的QA数据集。它通过上下文学习等策略进行清洗和过滤,最终包括45k的高质量过滤样本和83k的噪声样本。WebGLM的backbone就是一个在该数据集上训练的GLM模型。

自举生成器可以根据查询和检索到的网页内容,生成多种可能的回复,并根据一些规则进行排序和选择。例如,优先选择包含引用信息、长度适中、语法正确、逻辑连贯、信息充分、无重复等特点的回复。

基于人类偏好的打分器

基于人类偏好的打分器是通过优先考虑人类偏好而非昂贵的专家反馈来评估生成回复的质量,确保系统能够产生有用和吸引人的内容。

作者使用了一种基于对比学习的方法,通过收集人类对不同回复的相对偏好,来训练一个打分器模型。该模型可以根据一些特征,如相关性、准确性、流畅性、多样性、有趣性等,给出一个回复的综合得分。

基于人类偏好的打分器可以作为一个后处理模块,对自举生成器的输出进行筛选和优化,从而提高用户体验和满意度。

WebGLM的性能如何?

作者在多个公开的问答和聊天数据集上对WebGLM进行了评估,并与其他先进的模型进行了比较。结果显示,WebGLM在各个指标上都取得了显著的提升,证明了其有效性和优越性。

例如,在TriviaQA数据集上,WebGLM的EM(精确匹配)和F1(平均匹配)分别达到了67.8%和76.2%,分别比OpenAI WebGPT高出了5.6%和4.2%。

在Persona-Chat数据集上,WebGLM的PPL(困惑度)和BLEU(语言质量)分别达到了9.6和2.1,分别比OpenAI WebGPT低了0.4和高了0.1。

此外,作者还邀请了一些真实的用户来与WebGLM进行交互,并收集了他们的反馈。用户普遍认为WebGLM是一个有趣、智能、友好、有用的聊天机器人,能够提供丰富和准确的信息,并能够适应不同的话题和场景。

WebGLM有什么意义?

WebGLM是一个突破性的研究成果,它展示了如何利用Web搜索和检索功能来增强预训练大语言模型,从而实现一个高效、可靠、多功能的联网问答聊天机器人。

WebGLM不仅可以为用户提供快速和准确的答案,还可以为用户生成有趣和有用的内容,从而提高用户的知识水平和娱乐体验。

WebGLM也为未来的LLM研究提供了一个新的思路和方向,即如何利用外部知识源来增强LLM的能力和泛化性,以及如何利用人类偏好来优化LLM的输出质量。

总之,WebGLM是一个值得关注和学习的联网问答聊天机器人,它有可能成为未来LLM领域的一个新标杆。

信息源

(1) WebGL Overview – The Khronos Group Inc. https://www.khronos.org/webgl/.

(2) WebGL: 2D and 3D graphics for the web – Web APIs | MDN – MDN Web Docs. https://developer.mozilla.org/en-US/docs/Web/API/WebGL_API.

(3) O que é WebGL e como ativá-lo em qualquer navegador. https://www.dz-techs.com/pt/enable-webgl-any-browsers.

(4) WebGL – Web API 接口参考 | MDN – MDN Web Docs. https://developer.mozilla.org/zh-CN/docs/Web/API/WebGL_API.

(5) WebGL – Wikipedia. https://en.wikipedia.org/wiki/WebGL.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/686648.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智驾产品价值逻辑变了,新一代智驾芯片的核心要求

“根据创新扩散理论,智能汽车的早期用户主要是‘发烧友’,但是真正起量需要依靠‘大众群体’。要想抓住智能驾驶普及的黄金增长机遇,必须捕捉到两个群体的差异化需求,理解行业规则的变化。在当下,智驾产品必须重视功能…

MySQL架构介绍

MySQL架构介绍 和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用并发挥良好作用。主要体现在存储引擎的架构上,插件式的存储引擎架构将查询处理和其它的系统任务以及数据的存储提取相分离。这种架构可以根据业务的需求和…

【软考网络管理员】2023年软考网管初级常见知识考点(15)-网络管理与存储

涉及知识点 网络管理功能,网络管理模型,SNMP协议原理与版本,数据备份,DAS/NAS/SAN技术 软考网络管理员常考知识点,软考网络管理员网络安全,网络管理员考点汇总。 文章目录 涉及知识点一、网络管理功能二、…

容器访问外部网络之Linux ip_forward 数据包转发

文章目录 1 问题解决1.1 问题:1.2 原因:1.3 解决:临时打开:永久打开: 2 net.ipv4.ip_forward内核参数通俗解释3 在Linux中验证并实践net.ipv4.ip_forward设置 IP 地址设置路由信息打开 IP Forward 功能关闭主机 R 的防…

【LeetCode】动态规划 刷题训练(四)

文章目录 面试题 17.16. 按摩师(打家劫舍|)题目解析状态转移方程完整代码 213. 打家劫舍 II题目解析状态转移方程完整代码 740. 删除并获得点数题目解析预处理状态转移方程完整代码 面试题 17.16. 按摩师(打家劫舍|) 点击查看:按摩师 一个有名的按摩师会收到源源不…

【vue小知识】给DOM元素动态的添加上一个类||v-bind的妙用

😉博主:初映CY的前说(前端领域) ,📒本文核心:vue文件怎么给DOM元素加上一个类 项目场景: 在前端页面逻辑操作中通常是存在click事件,添加点击效果是为了让页面操作起来更加的有操作性与互动性,那么有什么方式可以实现…

13个有趣的Python高级脚本!

关注“Python专栏”微信公众号,回复暗号【面试大全】,立即领取面试题简历模板。 每天我们都会面临许多需要高级编码的编程挑战。你不能用简单的 Python 基本语法来解决这些问题。在本文中,我将分享 13 个高级 Python 脚本,它们可以…

IP路由选择过程

1.1路由选择基础 路由选择是指将分组从一个设备通过互联网络发往位于不同网络上的另一个设备的操作。路由器不关注网络中的主机,而只关注互联起来的网络以及通往各个网络的最佳路径。 目标主机的逻辑网络地址用来获取通过可路由网络传送到指定网络中的分组&#xf…

(一)CSharp-Socket

一、套接字 Windows Sockets 只支持一个通信域:网际域(AF-INET),这个域被使用网际协议族通信的进程所使用。 TCP/IP 的 Socket 则提供3种类型的套接字 1、流式套接字(SOCK_STREAM) 提供面向连接、可靠的数…

STM32 Proteus仿真闹钟设定万年历系统DS1302北京时间LCD1602蜂鸣器报警-0045

STM32 Proteus仿真闹钟设定万年历系统DS1302北京时间LCD1602蜂鸣器报警-0045 Proteus仿真小实验: STM32 Proteus仿真闹钟设定万年历系统DS1302北京时间LCD1602蜂鸣器报警-0045 功能: Protues版本:8.9 硬件组成:STM32F103R6单…

gif格式怎么转换成mp4? 这两个方法实用方便!

GIF(Graphics Interchange Format)文件是一种常见的动态图像格式,而MP4(MPEG-4 Part 14)则是一种流行的视频文件格式。有时候,您可能想要将GIF文件转换为MP4格式,以便在不同的平台和设备上进行更…

6-js基础-5

JavaScript 基础 - 5 知道对象数据类型的特征,能够利用数组对象渲染页面 对象综合案例数据类型存储 对象 对象(Object):JavaScript里的一种数据类型(引用类型),也是用于存储数据的 好处&#x…

机器学习笔记 - 了解机器学习中的小样本(Few-Shot)学习

一、背景概述 深度学习模型在图像分类、语义分割、对象检测等计算机视觉任务中的成功归功于利用了用于训练网络的大量标记数据——一种称为监督学习的方法。尽管在这个信息技术时代有大量的非结构化数据可用,但注释数据很难获得。 由于这个原因,计算机视觉机器学习项目中数据…

python spider 爬虫 之 urllib系列 urlretrieve下载照片、视频 网页

python 中 集成了 urllib urllib import urllib.request # urlopen 方法 url"url" response urllib.request.urlopen(url)print(type(response )) print(response.read()) # 解码 字节--->字符串 decode 字符串--》字节 encode print(response.read()…

腾讯课堂Python课程哪家强?

腾讯课堂Python课程哪家强? 文章目录 腾讯课堂Python课程哪家强?一、前言二、数据读取和数据预处理1、数据读取2、数据处理 三、有多少人愿意花钱学Python?四、多少价位的课买的人最多?五、哪家机构的课最多?销量最好&…

来评选你心中的TOP1编程语言

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

WEBGIS系统数据库设计

文章目录 系统设备模型设计1 .设备模型结构2. 设备逻辑关系模型系统属性数据库设计1 . 系统属性数据库2 . 实体继承关系1) 电气实体部分2 )土建实体部分3 )其他实体联系 系统采用PostgreS QL 作为属性数据库, PostGIS 作为空间数据库&#xf…

CENTOS上的网络安全工具(二十六)SPARK+NetSA Security Tools容器化部署(2)

〇、抓包与批量转换cap文件 1. Network Monitor 抓包 我们在CENTO OS上的网络安全工具(十七)搭建Cascade的Docker开发环境中捎带脚介绍了以下windows下的抓包软件。大意就是微软又一款不错的抓包分析软件,名曰nmcap,可在Download …

MySQL——备份与恢复

文章目录 MySQL 完全备份物理冷备份与恢复mysqldump 备份与恢复 MySQL 完全恢复MySQL 增量备份与恢复MySQL 增量备份MySQL 增量恢复 MySQL 完全备份 InnoDB存储引擎的数据库在磁盘上存储成三个文件:db.opt(表属性文件)、表名.frm(表结构文件)、表名.ibd(表数据文件…

FPGA解码 4K MIPI 视频 纯vhdl实现 CSI2 RX 采集OV13850,提供工程源码和技术支持

目录 1、前言2、Xilinx官方主推的MIPI解码方案3、本方案的性能及其优越性4、我这里已有的 MIPI 编解码方案5、vivado工程介绍6、上板调试验证7、福利:工程代码的获取 1、前言 FPGA图像采集领域目前协议最复杂、技术难度最高的应该就是MIPI协议了,MIPI解…