文献阅读:LaMDA: Language Models for Dialog Applications

news2024/11/26 4:33:07
  • 文献阅读:LaMDA: Language Models for Dialog Applications
    • 1. 工作简介
    • 2. 具体工作
      • 1. 模型训练
        • 1. 模型预训练
        • 2. finetune
      • 2. 模型评估
        • 1. SSI
        • 2. Safety
        • 3. Groundness
        • 4. Helpfulness
        • 5. Role Consistency
    • 3. 实验结果整理
    • 4. 结论 & 思考
  • https://arxiv.org/abs/2201.08239

1. 工作简介

这篇工作是Google在上年提出的又一篇大模型的工作,其实某种意义上已经和ChatGPT挺像的了,也是大模型,也是对话领域,而且早了将近一年。

当然,不同于ChatGPT,LaMDA模型并没有引入强化学习的路子,而是依然走的Google的预训练+特定任务finetune的范式,人工标注了一批对话数据来对模型进行了一下finetune。

Google并没有开放这个模型的测试端口,因此其效果其实也说不好到底怎么样,但是应该是不如当前被炒的火热的ChatGPT的,不过本身效果应该也是达到了一个相当的水平。

如果没记错的话,当年似乎有不大不小的新闻说是一个Google内部的工程师就认为这个模型有自己的意识,像是个多少多少的孩子来着,然后提出了一堆伦理上的顾虑,当时搞得我一脸懵逼来着,毕竟一个NLP的工程师认为一个预训练模型有自己的思想就很……

事实上这篇工作其实在模型方面也没有做过多的说明,而是花了大量的篇幅在说如何对他们训练的这个LaMDA模型进行测评,尤其是在Safety等metrics上面进行讨论,可能或多或少还是受到了些影响吧……

2. 具体工作

下面,我们就来看一下这篇文献当中涉及到的一些具体的工作。

1. 模型训练

1. 模型预训练

LaMDA模型的预训练其实还挺平平无奇的,就是一个自回归语言模型的训练方式。

在这里插入图片描述

然后数据集的话倒是和其他的LLM不太一样,主要都来自于对话文本,一共大概包含了1.56T的单词量,简直羡慕的不行……

而模型方面则仕一个64层,8192维的Transformer,反正就是自己玩不起来的模型……

2. finetune

下面,我们来看一下模型的finetune过程,它主要包括以下两个部分的finetune:

  1. 表述方法的finetune
  2. 回答内容的finetune

其中,前者主要是对表述方法进行finetune,就是结合类似情感分类问题那样,判断一个回答是否礼貌,有趣,安全,blablabla。

而后者则主要针对一些事实性问题的回答进行finetune,具体方法就是首先通过一个外部的toolset来收集问题相关的信息,然后一个加入到模型当中进行生成。

其具体的过程可以参考下图:

在这里插入图片描述

2. 模型评估

接下来,我们来看一下文章中给出的关于模型评估的内容。

文中关于模型效果的评估主要分为两个角度:

  1. 基础metrics
    1. Sensibleness, Specificity, Interestingness (SSI)
    2. Safety
    3. Groundness
  2. 与chatbot角色相关的metrics
    1. Helpfulness
    2. Role Consistency

下面,我们来逐一对这些metrics进行一下简单说明。

1. SSI

SSI指标是用于描述模型生成质量的一个综合指标,如其名字所示,他其实是三个指标的综合,即Sensibleness, Specificity, Interestingness,分别衡量模型回答的合理性,准确性以及表意的生动性。

而其获得方式也比较直接,就是给一批数据然后交由人工进行二分类评估。

2. Safety

Safety是一个道德指标,用于考察模型是否会给出一些争议性的或者危险性的言论。

3. Groundness

Groundness和SSI当中的specificity其实差别不太大,也是对模型生成结果的准确性评判,不过这里更看重外源性知识的引入能力和引入的准确性。

4. Helpfulness

helpfulness是一个chatbot的综合性指标,直接由用户来评价结果的好坏。

5. Role Consistency

最后,role consistency则是用于判断多轮对话当中模型角色的一致性。

3. 实验结果整理

下面,我们来看一下模型在上述各个metrics下的综合表现。

我们使用的评测数据集如下表所示:

在这里插入图片描述

然后,文中首先给出了不同参数量的模型在各个指标下的表现,得到结果如下:

在这里插入图片描述

可以看到:

  • 在各个指标下,LaMDA模型效果均是优于纯Pretrain模型的,且在interestingness的指标下,甚至是高于人类水平的;
  • 随着模型参数量的增大,模型效果总是在缓慢提升的。

下面,更进一步地,文中还考察了一下文中两类finetune给模型带来的影响。

在这里插入图片描述

可以看到:

  • 两类finetune都可以给模型带来一定的性能提升。

文中还给出了两个具体的case如下:

在这里插入图片描述

对于这两个具体的case,文中还进一步对比了其与不加入finetune的纯Pretrain模型的效果,得到结果如下:

在这里插入图片描述

可以看到:

  • LaMDA模型的效果确实是完虐不加入finetune的Pretrain模型的。

4. 结论 & 思考

这篇文章其实基础的思路还是挺容易想到的,主体还是走的预训练 + finetune的基础范式,因此整体思路上其实并不是什么特别难以想到的思路,难点可能更多的还是在于具体的实现和算力上面。

另外,和InstructGPT不同,LaMDA模型虽然收集了人工对话数据进行finetune,但是并没有想到强化学习这一步,仅仅是使用了标注数据,而不像InstructGPT模型那样,使用标注数据train一个打分模型然后反向tuning大模型,也是有点可惜的。

不过,这个可能也是由于受到了内部那个工程师观点的影响,导致Google出于伦理道德的考虑放缓了这方面的发展,我个人是理解不能啦,但是公司层面可能真的必须得考虑舆论影响了,不过一个算法工程师能给出这种发言还能被招进Google也是挺迷的……

事实上也是这篇文章当中用了相当的篇幅在这方面给模型进行了评估,在我看来多少有些无用了……

而这篇文章中给出的一些结论性的东西到了现在其实也是些众所周知的结论了,只能说实在是有点可惜了,虽然对于我司算是个利好吧……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/499069.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件架构与设计模式复习笔记

考纲(张友生版本软件架构 考试题型: 10*3单选 5*3简答题 5*3设计图(含画图) 10*2 论述题 10*2综合题 复习以课件为主,书为辅 第一章 (软件危机) ? ? 构造模型与实现 掌握软件结构体系核心模型 第二章 软件体…

PBDB Data Service:Icon images of lifeforms(生命形式的图标图像)

Thumbnail images of lifeforms(生命形式的图标图像) 描述用法参数方法响应值格式术语表 描述 此操作返回表示指定分类的图像,或关于图像的信息。如果后缀是 .png,则返回图像内容数据。否则,将以指定的格式返回一个描…

【力扣-232.】用栈实现队列

🖊作者 : D. Star. 📘专栏 : 数据结构 😆今日分享 :“多看效应”-----对越熟悉的东西越喜欢的现象,心理学上称为“多看效应”。多看效应不仅仅是在心理学实验中才出现,在生活中,人们也常常能发现这种现象。…

HashMap 底层原理///HashMap详解

HashMap超详细探讨 总述从集合出发探讨HashMapCollection接口继承树Map接口继承树 从Map接口来,一步一步深入其中Map接口概述Map接口:常用方法Map接口 Map实现类之一:HashMapHashMap的存储结构HashMap源码中的重要常量JDK 1.8之前JDK 1.8总结…

阿里云CPU性能AMD EPYC Genoa 9T34处理器主频3.4 GHz

阿里云AMD服务器CPUAMD EPYC Genoa 9T34处理器,主频3.4 GHz,单核睿频最高3.75 GHz,计算性能稳定,阿里云服务器网分享AMD EPYC Genoa 9T34性能测评: AMD EPYC Genoa 9T34 阿里云AMD服务器性能增强通用型g8ae、计算平衡…

【容器化】Docker 简介和安装

【容器化】Docker 简介和安装 DockerDocker的应用场景Docker 的优点1、快速,一致地交付您的应用程序2、响应式部署和扩展3、在同一硬件上运行更多工作负载 Docker 架构Docker 安装Ubuntu Docker 、Debian Docker 安装使用官方安装脚本自动安装手动安装使用 Shell 脚…

渲染流水线 相关知识总结

目录 抽象理解渲染过程详细介绍各个渲染步骤1. 应用阶段1.1设置场景数据1.2 Culling 粗粒度剔除1.3 渲染设置1.4 传递几何信息1.5 调用DrawCall 2. 几何阶段2.1 几何着色器2.2 可选着色器2.3 投影变换 projection2.4 裁切 Clipping2.5 屏幕映射 ScreenMapping 3. 光栅化阶段3.1…

C++ Primer阅读笔记--返回类型和return语句

1--返回引用 同其他引用类型一样,如果函数返回引用,则该引用仅是所引对象的一个别名;则返回结果时不会发生拷贝操作; 不能返回局部对象的引用或指针;因为局部对象在函数结束后会被释放,从而其引用或指针将指…

【第六篇:测试左移-研发流程优化】

(1)规范了技术需求的研发流程(和产品需求一样走相同的流程,只不过需求的主R变为了RD) (2)规范了需求变更流程:需求变更要合理并做到全员周知; (3)强调冒烟不过,提测打回流程; (4)增加交互视觉评审环节,方便RD更合理估时; (5)规范回归测试流程,回归测试时需…

PbootCMS Sqlite数据库转Mysql数据库教程 sqlite转mysql

PbootCMS默认采用的是Sqlite数据库,系统自带完整后台以及一套响应式模板,放入PHP(5.3+)环境即可直接使用 线上搭建简易环境为:Apache 、 PHP5.6-PHP7.3 、 Mysql5.5+ 所以如果已经上线一段时间了,网站已经有较多内容后要想换成Mysql版本是很不方便的,以下就是快速将Mys…

WebSocket的那些事(2-实操篇)

目录 一、概述二、Websocket API1、引入相关依赖2、配置WebSocket处理器3、WebSocket配置4、测试 三、总结 一、概述 在上一节 WebSocket的那些事(1-概念篇)中我们简单的介绍了关于WebSocket协议的相关概念、与HTTP的联系区别等等。 这一节将会带来Web…

BM59-N皇后问题

题目 N 皇后问题是指在 n * n 的棋盘上要摆 n 个皇后。 要求:任何两个皇后不同行,不同列也不在同一条斜线上。 求给一个整数 n ,返回 n 皇后的摆法数。 数据范围: 1≤n≤9。 要求:空间复杂度 O(1) ,时间复杂度 O(…

牛客 NC24724 Feb S]Chocolate Eating 解题报告

原题链接&#xff1a; 登录—专业IT笔试面试备考平台_牛客网 题目描述&#xff1a; 链接&#xff1a;登录—专业IT笔试面试备考平台_牛客网 来源&#xff1a;牛客网 题目描述 Bessie has received N (1 < N < 50,000) chocolates from the bulls, but doesnt want to …

Notepad++ 配置python环境及虚拟环境

背景&#xff1a; 在执行某些项目的时候&#xff0c;经常会否遇到这样一种情况(以python语言为例)&#xff1a;不想在python的基础环境下运行&#xff0c;创建了虚拟环境来装相关项目的包&#xff0c;但是每次使用都要切换到虚拟环境下面使用"activate "命令激活环境…

C++linux高并发服务器项目实践 day8

Clinux高并发服务器项目实践 day8 内存映射内存映射相关系统调用例子思考问题案例2案例3 信号信号的5中默认处理动作信号相关函数kill、raise和abort函数alarm函数案例 setitimer函数 signal信号捕捉函数 内存映射 内存映射是将磁盘文件的数据映射到内存&#xff0c;用户通过修…

Spring MVC数据格式化与验证以及国际化和中文乱码处理

目录 Spring MVC数据格式化 基本介绍 ConversionService converters 基本数据类型和字符串自动转换 代码实例 -页面演示方式 创建Monster 类 创建data_valid.jsp 创建MonsterHandler类 创建monster_addUI.jsp 解读: 说明 阶段测试一下 ​编辑 继续完成功能 创建s…

springboot+vue校园疫情防控系统(源码+文档)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的校园疫情防控系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 &#x1f495;&#x1f495;作者&#xff1a;风…

理想汽车VS特斯拉,电动汽车正在吞噬世界

来源&#xff1a;猛兽财经 作者&#xff1a;猛兽财经 电动汽车正在吞噬世界 长期以来&#xff0c;电动汽车在美国一直是一项边缘技术&#xff08;当时主要是加州的环保主义者和科技圈在关注&#xff09;。即使现在如日中天的特斯拉(TSLA)&#xff0c;当年也是在成立三年后的20…

【案例1】图书馆管理系统毕业论文

博主介绍&#xff1a; &#x1f680;自媒体 JavaPub 独立维护人&#xff0c;全网粉丝打大于100w&#xff0c;csdn博客专家、java领域优质创作者&#xff0c;51ctoTOP10博主&#xff0c;知乎/掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和副业。&#x1f680; …

npm私有仓库(nexus)-Vue组件发布到nexus

1、创建组件项目 进入项目目录并 执行 npm install 安装依赖&#xff0c;npm run dev 运行&#xff0c;此时浏览器打开 http://localhost:8080 可看到初始化页面 2、在 src 目录下新建测试组件&#xff0c;如下图所示 3、项目目录下新建组件暴露文件 4、修改 package.json pri…