【回答问题】ChatGPT上线了!推荐30个以上比较好的中文bert系列的模型/压缩模型

news2024/12/26 23:12:05

在这里插入图片描述

推荐30个以上比较好的中文bert系列的模型

以下是一些中文 BERT 系列的模型:

BERT-Base, Chinese: 中文 BERT 基础版
BERT-Large, Chinese: 中文 BERT 大型版
BERT-WWM, Chinese: 中文 BERT 加入了 whole word masking 的版本
BERT-WWM-Ext, Chinese: 中文 BERT 加入了 whole word masking 且扩展了训练数据的版本
ALBERT-Base, Chinese: 中文 ALBERT 基础版,在 BERT 的基础上进行了参数压缩和优化
ALBERT-Large, Chinese: 中文 ALBERT 大型版
ALBERT-XLarge, Chinese: 中文 ALBERT 超大型版
RoBERTa-Base, Chinese: 中文 RoBERTa 基础版,在 BERT 的基础上进行了进一步优化
RoBERTa-Large, Chinese: 中文 RoBERTa 大型版
RoBERTa-WWM, Chinese: 中文 RoBERTa 加入了 whole word masking 的版本
RoBERTa-WWM-Ext, Chinese: 中文 RoBERTa 加入了 whole word masking 且扩展了训练数据的版本
XLM-RoBERTa-Base, Chinese: 中文 XLM-RoBERTa 基础版,在 RoBERTa 的基础上使用了多语言训练数据
XLM-RoBERTa-Large, Chinese: 中文 XLM-RoBERTa 大型版
GPT-2, Chinese: 中文 GPT-2,自然语言生成模型
T5, Chinese: 中文 T5,自然语言生成模型
ERNIE-Base, Chinese: 中文 ERNIE 基础版,在 BERT 的基础上加入了知识预先训练
ERNIE-Large, Chinese: 中文 ERNIE 大型版
ERNIE-Baidu, Chinese: 百度开发的中文 ERNIE 模型
ERNIE-Gen, Chinese: 中文 ERNIE

推荐30个以上比较好的中文bert系列的模型github源码

以下是30个以上比较好的中文 BERT 系列模型的 Github 源码:

BERT-Base, Chinese: https://github.com/google-research/bert/blob/master/multilingual.md#chinese-pre-trained-models
BERT-WWM-Ext, Chinese: https://github.com/ymcui/Chinese-BERT-wwm
BERT-WWM-Ext-finetune, Chinese: https://github.com/ymcui/Chinese-BERT-wwm/tree/master/finetune
RoBERTa-wwm-ext-large, Chinese: https://github.com/ymcui/Chinese-RoBERTa-wwm-ext
BERT-wwm-ext-multilingual: https://github.com/ymcui/BERT-wwm-ext
ALBERT-base, Chinese: https://github.com/brightmart/albert_zh
ALBERT-tiny, Chinese: https://github.com/brightmart/albert_tiny_zh
ALBERT-tiny-finetune, Chinese: https://github.com/brightmart/albert_tiny_zh/tree/master/finetune
ALBERT-xlarge, Chinese: https://github.com/brightmart/albert_zh/tree/master/albert_xlarge
ERNIE-v1.0, Chinese: https://github.com/PaddlePaddle/ERNIE
ERNIE-v2.0, Chinese: https://github.com/PaddlePaddle/ERNIE/tree/v2.0
ERNIE-Baidu, Chinese: https://github.com/baidu/ERNIE
GPT, Chinese: https://github.com/openai/gpt-2
GPT-2, Chinese: https://github.com/openai/gpt-2
XLNet, Chinese: https://github.com/ymcui/Chinese-XLNet
XLNet-Mid, Chinese: https://github.com/ymcui/Chinese-XLNet/tree/master/mid_data
XLNet-Large, Chinese: https://github.com/ymcui/Chinese-XLNet/tree/master/large_data
XLM-R, Chinese: https://github.com/ymcui/XLM-RoBERTa
Chinese-BART, Chinese: https://github.com/ymcui/Chinese-BART
Chinese-BART-finetune, Chinese: https://github.com/ymcui/Chinese-BART/tree/master/finetune
MT-DNN, Chinese: https://github.com/namisan/mt-dnn
MASS, Chinese: https://github.com/microsoft/MASS
T5, Chinese: https://github.com/google-research/text-to-text-transfer-transformer
DAE, Chinese: https://github.com/thunlp/DAE
DAE-finetune, Chinese: https://github.com/thunlp/DAE/tree

推荐30个以上比较好的中文bert系列的压缩模型

首先需要注意的是,推荐中文 BERT 系列的压缩模型需要考虑模型的性能、速度、大小等各方面因素,推荐的模型也需要根据具体的应用场景进行选择。以下是一些常用的中文 BERT 系列的压缩模型:

BERT-Base, Chinese: 这是 BERT 模型在中文数据集上预训练得到的基础版本,包含 12 个 transformer 层,每层有 768 个隐藏维度,总共有 110M 个参数。

BERT-Large, Chinese: 这是 BERT 模型在中文数据集上预训练得到的大型版本,包含 24 个 transformer 层,每层有 1024 个隐藏维度,总共有 340M 个参数。

RoBERTa-Base, Chinese: 这是基于 BERT 模型开发的另一个预训练模型,在训练数据和超参数设置方面有所改进,包含 12 个 transformer 层,每层有 768 个隐藏维度,总共有 125M 个参数。

RoBERTa-Large, Chinese: 这是 RoBERTa 模型的大型版本,包含 24 个 transformer 层,每层有 1024 个隐藏维度,总共有 355M 个参数。

ALBERT-Base, Chinese: 这是另一个基于 BERT 模型开发的预训练模型,主要在 BERT 模型的参数压缩方面进行了改进,包含 12 个

Bert是一种自然语言处理领域的预训练模型,它使用了大量的中文文本数据进行预训练,可以帮助你在中文任务上实现更好的性能。下面是一些比较流行的中文Bert模型,你可以根据自己的需要选择使用:

中文Bert-Base:这是一个中文Bert模型的基础版本,具有较低的计算资源要求,但性能较差。

中文Bert-Large:这是一个中文Bert模型的大型版本,具有较高的计算资源要求,但性能也更优秀。

中文Bert-wwm:这是一个中文Bert模型,在基础版本的基础上进行了加强,性能更优秀。

中文Bert-wwm-ext:这是一个中文Bert模型,在wwm版本的基础上进行了加强,性能更优秀。

中文Bert-Ernie:这是一个中文Bert模型,是Bert和Ernie模型的结合,性能更优秀。

中文Bert-RoBERTa:这是一个中文Bert模型,是Bert和RoBERTa模型的结合,性能更优秀。

中文Bert-ALBERT:这是一个中文Bert模型,是Bert和ALBERT模型的结合,性能更优秀。

推荐30个bert压缩模型

MobileBERT
TinyBERT
MiniBERT
DistilBERT
ALBERT
AdaptiveBERT
FusedBERT
SparseBERT
Two-Stream BERT
Context-Aware BERT
VisionBERT
BERTje
Stabilized BERT
BERT-of-Theseus
Self-Attentive BERT
Robust BERT
InterBERT
ProtoBERT
BERT-DA
Multilingual BERT
BERT-PTM
BERT-PKD
BERT-STC
BERT-HAN
BERT-MPG
BERT-QA
BERT-RACE
BERT-MTL
BERT-QG
BERT-LM

推荐bert压缩模型源码

在这里插入图片描述
我可以给你一些关于 BERT 压缩的一些资料和模型的链接,但是我无法直接提供 30 个 BERT 压缩模型的源码。

BERT 的一个压缩方法是通过重新训练小型的 BERT 模型来实现。您可以在 TensorFlow 官方文档中了解有关如何训练 BERT 模型的更多信息:https://www.tensorflow.org/tutorials/text/bert
Hugging Face 公司提供了一个叫做 DistilBERT 的开源 BERT 压缩模型。你可以在这里找到它的源码:https://github.com/huggingface/transformers/tree/master/src/transformers/modeling_distilbert
Google 开发的 MobileBERT 是一个轻量级的 BERT 模型,可以在移动设备上运行。你可以在这里找到它的论文和源码:https://arxiv.org/abs/2004.02984 https://github.com/google-research/google-research/tree/master/mobilebert
希望以上资料能帮助你。

bert压缩模型

Bert 压缩模型是对 BERT(Bidirectional Encoder Representations from Transformers)模型进行压缩以减少模型大小的过程。通常使用的方法包括剪枝、量化和离线压缩。剪枝是通过移除模型中不重要的权重来减小模型大小;量化是通过将模型中的 32 位浮点数转化为较小的整数来减小模型的大小;离线压缩是通过将模型的权重合并为较小的矩阵来减小模型的大小。压缩 BERT 模型可以在保持模型性能的同时减小模型的内存占用和提高模型的推理速度。

bert压缩模型源码地址

Bert 压缩模型的源代码可以在以下地址获取:

Bert 原始模型的源代码:https://github.com/google-research/bert
如果你想要使用压缩版的 Bert 模型,你可以参考以下项目:

DistilBert:https://github.com/huggingface/transformers/tree/main/src/transformers/modeling_distilbert
TinyBert:https://github.com/huggingface/transformers/tree/main/src/transformers/modeling_tinybert
MobileBert:https://github.com/huggingface/transformers/tree/main/src/transformers/modeling_mobilebert
这些压缩版的 Bert 模型都是在原始的 Bert 模型的基础上进行了改进和优化,使得它们的模型大小更小,推理速度更快,同时保留了较高的准确率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/135115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据NiFi(五):NiFi分布式安装

文章目录 NiFi分布式安装 一、​​​​​​​为什么需要NiFi集群 二、使用内嵌的zookeepe

字符串常量

文章目录1.内存分布(1) 代码区(2) 全局区(3) 栈区(stack)(4) 堆区(heap)2.字符串常量的存储字符数组与字符指针3.字符串常量内存释放问题4.字符串常量生命周期5.字符串常量定义6.字符…

Object类

文章目录面试题:和equals()的区别回顾:和equals重写后的调用重写equals方法的原则答案toString()方法面试题:和equals()的区别 回顾:和equals :运算符 1、可以使用在基本数据变量和引用数据变量中 2、如果比较的是基…

Model Animation动画页签

1、Animation动画页签 当我们选中包含动画剪辑的的模型时,该页签将显示动画设置相关的内容 动画剪辑是Unity动画的最小构成元素,代表一个单独的动作 当美术同学做好动画导出时建议将模型和动画文件分别导出 导出包含网格信息不包含动作信息模型导出不…

【大数据】CentOS7环境下安装MySQL数据库

文章目录1.安装mysql1.1 删除CentOS系统自带数据库1.2 开始安装mysql1.3 启动mysql服务,并设置密码1.4 授权所有外部用户连接MySQL(了解)2.客户端操作mysql常见查询操作解决汉字乱码问题创建操作1.安装mysql CentOS7自带的是Mariadb&#xf…

Prometheus学习和整理

是基于时序数据库的开源监控告警系统,非常适合对K8S集群的监控,它通过HTTP协议周期性的抓取被监控组件的状态,任意组件只要提供对应的HTTP接口就可以接入监控, 特点: 支持多维数据模型:由度量名和键值对组成的时间序列数据 内置时间序列数据库TSDB 支持PromQL查…

AI修复照片

一、前言 最近闲来无事,翻了翻以前的老照片,看着多年前的老照片,感慨万千,仿佛又回到了以前的青春岁月。 只可惜青春易逝,无法重来。意气风发,头角峥嵘的画面只能永远地留存在相片之中了。只叹当时没有多拍…

Windows下数据资源公开访问之环境搭建方法(2023.1.2)

Windows下数据资源公开访问之环境搭建方法(2023.1.2)1、需求分析2、常用的解决方案2.0 前提环境(Java Node)2.1 方案一:利用现有服务器容器(以Tomcat为例)2.1.1 下载Tomcat并解压2.1.2 配置系统…

数据结构-考研难点代码突破(C++实现有向图最短路径算法(Dijkstra,Floyd-Warshall算法)图解操作细节(引自C语言中文网))

以代码的方式复习考研数据结构知识点,这里在考研不以代码为重点,而是以实现过程为重点 文章目录1. 最短路径2. 单源最短路径ⅠDijkstra算法C代码3. 多源最短路径Ⅰ Floyd-Warshall算法C代码1. 最短路径 图的生成树针对的是无向图,图的最短路…

error ‘for’ loop initial declarations are only allowed in C99 mode的报错原因和两种解决办法

error: ‘for’ loop initial declarations are only allowed in C99 mode的报错原因和两种解决办法 for(int i0;i<5;i) { … } 错误&#xff1a;使用gcc编译代码报错 &#xff1a;error: ‘for’ loop initial declarations are only allowed in C99 mode note: use …

Spark02: Spark三种任务提交方式

1. 直接在IDEA中执行&#xff0c;方便在本地环境调试代码 2. 使用spark-submit提交到集群执行【实际工作中使用】 3. 使用spark-shell&#xff0c;方便在集群环境调试代码 比如&#xff1a;需要连接数据库&#xff0c;无法在本地调试的情况。 spark-shell 实现了用户可以逐…

流程控制之for循环练习

目录练习案例1. for创建20用户2. for ping测试指网段的主机3. 使用for实现批量主机root密码的修改练习案例 1. for创建20用户 用户前缀由用户输入 用户初始密码由用户输入 例如&#xff1a;test01,test10 #!/bin/bash ######################### #File name:userCreate.sh #…

[学习笔记]2021韩顺平一周学会Linux

文章目录视频链接&#xff1a;第1章&#xff1a;Linux开山篇-内容介绍1.1 本套Linux课程内容1.2 Linux使用的地方1.3 Linux应用的领域第2章&#xff1a;Linux基础篇-Linux入门&#xff1a;2.1 Linux介绍2.1.1概述2.2 Linux和Unix的关系2.2.1 Unix是怎么来的2.2.2 Linux是怎么来…

【阶段一】Python快速入门06篇:正则表达式-re 模块

本篇的思维导图: 正则表达式-re 模块 正则表达式(Regular Expression)是一种文本模式的描述方法。例如,\d是一个正则表达式,表示一位数字字符,即任何一位0到9的数字。 在 Python 语言中re 模块提供了全部的正则表达式函数,例如:compile 函数。 compile 函数 compile 函…

Qt CSV文件的创建,读写操作

文章目录一.CSV文件介绍二.创建CSV文件三.写入CSV文件四.读取CSV文件一.CSV文件介绍 逗号分隔值&#xff08;Comma-Separated Values&#xff0c;CSV&#xff0c;有时也称为字符分隔值&#xff0c;因为分隔字符也可以不是逗号&#xff09;&#xff0c;其文件以纯文本形式存储表…

基于ASP.NET MVC的运动用品网上销售系统

摘要 随着现代都市生活节奏的不断加快、网络覆盖面的日益扩大&#xff0c;越来越多的人们加入了网上购物的行列。如今&#xff0c;网购已经成为人们生活的一部分。本系统主要是使用 B/S架构开发出的一个基于ASP.NET的运动用品网上销售系统。前台页面使用htmljscss&#xff0c;S…

Freemarker指令语法

基础语法种类 1、注释&#xff0c;即<#-- -->&#xff0c;介于其之间的内容会被freemarker忽略 <#--我是一个freemarker注释-->2、插值&#xff08;Interpolation&#xff09;&#xff1a;即..部分,freemarker会用真实的值代替{..}部分,freemarker会用真实的值代…

十一、中间件的使用

Express的应用本质上就是调用各种中间件&#xff0c;中间件指的是业务流程中的中间处理环节&#xff0c;服务器的生命周期一般是 接收 —— 处理 —— 响应&#xff1b;那么中间件就充当处理的角色&#xff0c;它其实就是一个函数&#xff0c;该函数除了能够访问请求对象req和响…

TC275——02板卡简单介绍

前部 核心&#xff1a;英飞凌 32位 AURIXTC275 TriCore核 开发工具&#xff1a; AURIX™Development Studio、FreeEntryToolchain CPU&#xff1a; 最大频率&#xff1a;200M外部晶振&#xff1a;20MFPU&#xff1a;支持封装&#xff1a;LQFP176-22 FLASH&#xff1a;4M D…

高并发系统设计 -- 性能测试

响应时间&#xff1a;是客户发出请求到得到响应的整个过程的时间。 网络传输时间&#xff1a;N1N2N3N4应用服务器处理时间&#xff1a;A1A3数据库服务器处理时间&#xff1a;A2响应时间&#xff1a;N1A1N2A2N3A3N4 负载&#xff1a;模拟业务操作对服务器造成压力的过程&#x…