论文笔记--PANGU-α

news2025/1/23 4:49:16

论文笔记--PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION

  • 1. 文章简介
  • 2. 文章概括
  • 3 文章重点技术
    • 3.1 Transformer架构
    • 3.2 数据集
      • 3.2.1 数据清洗和过滤
      • 3.2.2 数据去重
      • 3.2.3 数据质量评估
  • 4. 文章亮点
  • 5. 原文传送门
  • 6. References

1. 文章简介

  • 标题:PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION
  • 作者:Zeng, Wei, et al.
  • 日期:2021
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了中午领域的大语言模型PANGU- α \alpha α。模型在1.1TB的中文数据上训练,参数为2000亿。为了支撑模型训练,文章提出了一种Auto-parallel的训练方式。

3 文章重点技术

3.1 Transformer架构

  和GPT等其它大语言模型一样,PANGU- α \alpha α选择使用Transformer作为神经网络的架构。为了使得模型更精准地预测下一个token,文章在最后一个Transformer层后面增加了一个Query层。传统Transformer的注意力分数计算方式为 A = Q K T = H L W Q W K ⊺ H L ⊺ A = QK^T = H_LW^Q{W^K}^\intercal H_L^\intercal A=QKT=HLWQWKHL,改良后的注意力分数表达式为为 A = p n W Q W K ⊺ H L ⊺ A =p_nW^Q{W^K}^\intercal H_L^\intercal A=pnWQWKHL,其中 p n p_n pn表示query层(位置编码)表示将位置编码信息用于注意力机制的查询。
模型架构

3.2 数据集

  很多文章已经论证了模型参数的增加对模型的表现能力提升有很大帮助,但在增加模型参数的同时需要增加数据集来支撑参数的训练。为了获得大量的中文数据集,文章进行了数据收集、数据清洗、数据过滤和数据去重多个步骤,具体流程见下图。
数据集

3.2.1 数据清洗和过滤

  语料库中大量的数据是来自于Common Crawl的文本,质量无法保证,文章首先对数据集进行了清洗工作:

  • 移除字符少于150或中文字符少于60%文档;移除仅包含网页标题集合的文档;
  • 移除特殊字符;移除每个文档中的重复段落;
  • 基于关键词识别广告,移除包含广告的文档;
  • 将繁体中文全部转化为简体中文;
  • 移除网页中的导航栏
       对上述清洗后的文档进行过滤以移除有害的、广告类的或低质量的文档:
  • 敏感词过滤:手动构建724个敏感词,移除包含超过3个敏感词的文档,从而保证模型不被有害网页误导。
  • 基于模型的垃圾信息自动过滤:基于标注数据训练一个FastText垃圾文档分类器,将FastText识别为垃圾文档的文档过滤。
  • 低质量文档过滤:类似GPT-3[1],训练一个分类器给每篇文档打分,过滤分数低于阈值的文档。

3.2.2 数据去重

  由于语料库中可能存在高度重叠的文档,我们采用模糊数据去重方法对过滤后的数据进行去重操作。为此,我们对MinHashLSH算法进行改良,设计了一种分布式的数据去重算法对数据集进行高效去重。

3.2.3 数据质量评估

  为了对文档进行上述的自动清洗和过滤,我们需要相应的清洗规则和过滤阈值。为此,我们迭代地进行上述预处理工作:在每次预处理之后根据评估结果更新清洗规则和过滤阈值。评估结果采用人工和模型自动选择两种方式:人工随机采样评估句子的脸骨感谢和低质量内容的数量从而进行规则调整。但人工评估的范围有限,从而我们从所有数据集中选择30GB的数据训练一个小型的PANGU-350M,并采用该模型评估所有训练数据得到PPL(perplexity),PPL越低的数据质量越高,从而相应的清洗规则越好,基于该原则我们选择最好的清洗规则和阈值。
  上述预处理过程之后,我们最后得到1.1TB的中文数据用于模型训练

4. 文章亮点

  文章采集了大量的中文数据,且对数据集进行了手工、自动的清洗、过滤、去重,基于预处理后的1.1TB中文数据进行模型训练,得到PANGU- α \alpha α大语言模型,模型在多个中文任务上表现超过GPT-3。此外为了加速训练过程,文章提出了一种AUTO-PARALLEL的训练方法,在大规模数据训练中可作为参考。

5. 原文传送门

PANGU-α: LARGE-SCALE AUTOREGRESSIVE PRETRAINED CHINESE LANGUAGE MODELS WITH AUTO-PARALLEL COMPUTATION

6. References

[1] 论文笔记–Language Models are Few-Shot Learners

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/606580.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

旧改快讯--罗湖蔡屋围项目二期子项目D、E启动行政征收

蔡屋围城市更新统筹片区蔡屋围(城中村)项目二期子项目D(南村片区)、子项目E(南村东片区)房屋征收提示 5月9日,深圳市罗湖区城市更新和土地整备局发布关于罗湖区桂园街道蔡屋围城市更新统筹片区…

[架构之路-204]- 常见的需求分析技术:结构化分析与面向对象分析

目录 前言: 1 1 . 3 需求分析概述 导言: 11.3.1需求分析的任务 (1) 绘制系统上下文范围关系图: (2) 创建用户界面原型: (3) 分析需求的可行性: (4) 确定需求的优先级: (5) 为需求建立模型&#xf…

DetailGAN

1.摘要 本文提出了一种基于保留细节的对抗学习的红外和可见光图像融合的端到端模型。它能够克服传统融合方法中基于活动级别测量和融合规则的手动和复杂设计的局限性。考虑到红外和可见光图像的特定信息,我们设计了两个损失函数,包括细节损失和目标边缘…

738.单调递增的数字;968.监控二叉树

贪心 738.单调递增的数字思路:代码 968.监控二叉树思路:如何放置,才能让摄像头最小的呢? 738.单调递增的数字 思路: 举例,数字:332,从前向后遍历的话,那么就把变成了329,此时2又小于了第一位的…

mysql密码字段类型

数值 mysql 的数值数据类型可以大致划分为两个类别,一个是整数,另一个是浮点数或小数。 许多不同的子类型对这些类别中的每一个都是可用的,每个子类型支持不同大小的数据,并且 MySQL 允许我们指定数值字段中的值是否有正负之分(U…

【owt】WebrtcNode, subscribe流程

subscribe流程 1. AmqpClient - New message received 2023-04-26T21:54:18.415 - DEBUG: AmqpClient - RpcServer New message received {method: subscribe,args: [b149e44bb10d4e91bd162a8c6806ae7b,webrtc,{transportId: b149e44bb10d4e91bd162a8c6806ae7b,tracks: [Arr…

C4网络技术挑战赛 智慧园区方案分析

添加链接描述 智慧园区网络 市场现状: 网络与应用系统多厂商、多平台、多系统,导致IT部门管理运维复杂,效率低下. 统一运维管理? 无线网络与物联网的双网合一? ps: 无线网络(英语:Wireless network)指的是任何型式的无线电计…

【Mysql数据库从0到1】-入门基础篇--mysql基本使用

【Mysql数据库从0到1】-入门基础篇--mysql基本使用 🔻一、Mysql5.7 VS Mysql8.0 详解1.1 ⛳字符编码1.2 ⛳用户的创建与授权1.3 ⛳ 认证插件1.4 ⛳ 隐藏索引1.5 ⛳ 持久化设置1.6 ⛳ 通用表表达式(Common Table Expressions)1.7 ⛳ 性能提升1…

redis缓存单体服务测试本地锁失效问题

测试1&#xff1a;锁释放之后向redis缓存存入数据 //TODO 产生堆外内存溢出 OutOfDirectMemoryError//gulimall.com查询分类Overridepublic Map<String, List<CategoryLevel2Vo>> getCatelogJson() {/*** 问题 &#xff1a;解决办法* 1.缓存穿透 高并发情况下查询缓…

Java学习方式分享

哈喽&#xff0c;大家好呀&#xff0c;好久不见&#xff01;咱依然是那个腼腆害羞内向社恐文静、唱跳rap篮球都不大行的【三婶er】 坦白地说&#xff0c;今天是偶然看到C站这个活动的&#xff0c;这个主题我颇有感触&#xff0c;刚学java时的场景&#xff0c;历历在目。所以今天…

ChatGPT常见的报错解决方法(全网最全解决方法)

因为最近在使用ChatGPT的过程中&#xff0c;时常会出现一些错误提示&#xff0c;为了方便自己快速解决问题&#xff0c;所以也搜集了一些其他博主的解决方法&#xff0c;以下是整理的内容。 目录 1、拒绝访问 2、Access denied错误 3、We have detected suspicious 错误 4…

leetcode_19_相同的树

bool isSameTree(struct TreeNode* p, struct TreeNode* q){if(pNULL && qNULL)return true;//其中一个为空if(pNULL || qNULL)return false;//都不为空,且首节点的值不相等if(p->val ! q->val)return false;//p和q的值相等&#xff0c;分别比较左子树和右子树re…

如何使用debugHunter发现隐藏调试参数和Web应用程序敏感信息

关于debugHunter debugHunter是一款针对Web应用程序隐藏调试参数和敏感信息的识别扫描工具,该工具本质上是一个Chrome扩展,可以帮助广大研究人员扫描目标Web应用程序/网站以查找调试参数,并在发现了包含修改响应的URL时发送通知。该扩展利用了二分查找算法来有效地确定导致…

《基于Linux物联网综合项目》常见问题汇总fae

关于该课程说明 1&#xff09;本课程目标 通过web浏览器访问服务器&#xff0c;实现登录、注册、数据库操作、远程操控硬件、采集环境信息、远程监控、拍照、图片显示等功能。 将单片机、linux、html、摄像头、数据库等知识点融入到一个项目中。 2&#xff09;什么群体适合学…

JVM 虚拟机栈介绍

一、虚拟机栈&#xff08;VM Stack&#xff09; 1.1&#xff09;什么是虚拟机栈 虚拟机栈是用于描述java方法执行的内存模型。 每个java方法在执行时&#xff0c;会创建一个“栈帧&#xff08;stack frame&#xff09;”&#xff0c;栈帧的结构分为“局部变量表、操作数栈、动态…

JavaScript实现以数组方式输入数值,输出最大的数的代码

以下为实现以数组方式输入数值&#xff0c;输出最大的数的程序代码和运行截图 目录 前言 一、以数组方式输入数值&#xff0c;输出最大的数 1.1 运行流程及思想 1.2 代码段 1.3 JavaScript语句代码 1.4 运行截图 前言 1.若有选择&#xff0c;您可以在目录里进行快速查找…

基于html+css的图展示107

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

职业规划-论软件迭代变化和个人知识更新

职业规划-论软件迭代变化和个人知识更新 目录概述需求&#xff1a; 设计思路实现思路分析1.历程2.第一份工作3.后来4.BK毕业5.实习 参考资料和推荐阅读 Survive by day and develop by night. talk for import biz , show your perfect code,full busy&#xff0c;skip hardnes…

冈萨雷斯DIP第6章知识点

6.1 彩色基础 区分不同颜色的特性&#xff1f; 区分不同颜色的特性通常是亮度、色调和饱和度。 亮度&#xff1a;亮度体现的是发光强度的消色概念&#xff08;不包含颜色的概念&#xff09;色调&#xff1a;表示被观察者感知的主导色&#xff0c;通常是混合光波中与主波长相关的…

深入理解设计原则之里氏替换原则(LSP)【软件架构设计】

系列文章目录 C高性能优化编程系列 深入理解软件架构设计系列 深入理解设计模式系列 高级C并发线程编程 LSP&#xff1a;里氏替换原则 系列文章目录1、里氏替换原则的定义和解读2、里氏替换原则可以用于哪些设计模式中&#xff1f;3、如何使用里氏替换原则来降低代码耦合度&a…