LLM - Hugging Face 工程 BERT base model (uncased) 配置

news2024/11/18 15:45:10

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/131400428

BERT

BERT是一个在大量英文数据上以自监督的方式预训练的变换器模型。这意味着它只是在原始文本上进行预训练,没有人以任何方式对它们进行标注(这就是为什么它可以使用大量公开可用的数据),而是用一个自动的过程来从这些文本中生成输入和标签。更准确地说,它是用两个目标进行预训练的:

  • 掩码语言建模 (Masked Language Modeling,MLM) :给定一个句子,模型随机地掩盖输入中的15%的词,然后将整个掩盖的句子通过模型,并且必须预测掩盖的词。这与传统的循环神经网络(RNN)不同,它们通常是一个接一个地看词,或者与像GPT这样的自回归模型不同,它们内部地掩盖未来的词。这使得模型能够学习句子的双向表示。
  • 下一句预测 (Next Sentence Prediction,NSP):模型在预训练期间将两个掩盖的句子作为输入拼接起来。有时它们对应于原始文本中相邻的句子,有时不是。然后模型必须预测这两个句子是否是相互跟随的。

uncased 表示不区分大小写

Hugging Face:bert-base-uncased

配置 ssh 之后,使用 git 下载工程,模型使用占位符:

git clone git@hf.co:bert-base-uncased

从 Hugging Face 网站,下载 5 个大文件:

flax_model.msgpack  # 417M
model.safetensors		# 420M
pytorch_model.bin		# 420M
rust_model.ot				# 509M
tf_model.h5					# 511M

使用 bypy 下载文件,参考:CSDN - 使用网盘快速下载 Hugging Face 大模型

bypy info
bypy downdir /bert-base-uncased/ ./bert-base-uncased/

完成更新 5 个文件。

测试脚本:

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained("bert-base-uncased")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
print(f"output.last_hidden_state: {output.last_hidden_state.shape}")

输出:

output.last_hidden_state: torch.Size([1, 12, 768])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/687225.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMQ实现延迟消息,RabbitMQ使用死信队列实现延迟消息,RabbitMQ延时队列插件

文章目录 一、什么是延迟消息1、队列的属性2、消息的属性3、什么是死信4、使用死信队列的缺点5、延时消息插件 二、JavaAPI利用死信队列实现RabbitMQ延迟消息1、代码实现2、基本流程 三、JavaAPI利用插件实现RabbitMQ延迟消息1、代码实现2、基本原理 四、Springboot利用死信队列…

5分钟自建可视化平台,在线拖拽组件也太方便了!

一、前言 我们在完成 C 端用户的业务需求时,发现大量电商推广页面的逻辑复杂度和交互程度都比较低,却要消耗大量的开发资源。同时在后台管理系统的开发过程中,我们也发现一些相同套路的页面在不同场景下需要重复开发,即使我们封装…

如何提升企业采购绩效?提高采购绩效的方法

采购是任何企业的一个重要方面,它在确保企业平稳高效运行方面发挥着重要作用。作为一名采购专业人员,你有责任确保你的企业以正确的质量、数量和价格获得所需的货物和服务。 本文将讨论一些最佳做法,这些做法可以帮助你提高采购专业人员的绩…

【032】C++高级开发之多态技术详解(虚函数最全讲解)

C的多态技术(虚函数)详解 引言一、多态的概念二、虚函数2.1、父类指针保存子类空间地址 带来的问题2.2、虚函数的定义2.3、虚函数的动态绑定机制2.4、重载、重定义、重写的区别 三、纯虚函数3.1、纯虚函数的定义方式3.2、纯虚函数的案例:饮品…

mvnd 安装和 idea配置mvnd

一、mvnd 安装 1、mvnd 下载地址 https://github.com/apache/maven-mvnd 2、安装 解压并配置环境变量到path 打开CMD终端,输入 mvnd -v 看到如下信息提示则安装成功 默认使用的是内置的maven,配置修改,兼容本地的maven 打开 Maven-mvn…

基于Java医院医患管理系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

如何测试webservice接口

看过网上很多对Web Service的解释,有些文章写得通俗易懂,但是缺少深度解读;有的文章图文并茂,但是没有现成案例;有的文章非常详细,但是没有直观感受。 于是,我想从测试一个web service接口的角…

【复习《剑指Offer》6-12题】【每天40分钟,我们一起用50天刷完 (剑指Offer)】第七天 7/50

专注 效率 记忆 预习 笔记 复习 做题 欢迎观看我的博客,如有问题交流,欢迎评论区留言,一定尽快回复!(大家可以去看我的专栏,是所有文章的目录)   文章字体风格: 红色文字表示&#…

围“桌”详谈|本周六直播,一起聊聊「发版」那些事儿!

🌍 你想要深入了解 ShardingSphere 、与业内技术大咖「面对面」探讨数据库领域的前沿趋势吗?那就一定不能错过由 ShardingSphere 社区出品、SphereEx 公司赞助的全球软件工程师必看的直播节目——《对谈时刻》!每期节目,我们都会邀…

VRRP缺省配置

一、VRRP缺省配置 表:VRRP参数缺省值 二、VRRP场景作用 表:VRRP场景作用 三、VRRP配置缺省参数汇总 1)配置VRRP备份组最大数 缺省情况下,设备只支持配置256个VRRP备份组(VRRP4和VRRP6备份组的总和) 当需…

计算机原理二:磁盘和内存速度差多少?

前言 作为程序员,我们不深究硬件,无需深入了解硬件的各个电路信号等细节,只了解存储器的基本相关知识。 存储器的层次结构 寄存器 计算机的一种硬件组件,用于存储和快速访问处理器的数据,位于CPU内部的小型存储器单…

火拼折叠屏:国产手机的杀手锏还是遮羞布?

刚过去的618,手机市场一反常态。 过去,国产安卓旗舰上演“大跳水”,苹果价格坚挺;现在,安卓旗舰优惠力度小,苹果却大降价,iPhone 14 Pro在各平台的优惠力度达到上千元。 IDC中国研究经理郭天翔…

安卓应用中的版本问题

用android Studio 做了一个应用,想发布在google play 里,就碰到一个版本的问题。 我上传了一个版本,更新了一点点,结果有这样一个错误:Version code 1 has already been used. Try another version code。本文就这问题…

【pytest学习总结2.3 】- 如何使用固定装置 fixtures (1)

目录 2.3 如何使用固定装置 fixtures 2.3.1 请求并调用固定装置 fixture 2.3.2 自动固定装置(不需要你请求调用) 2.3.3 固定装置的范围:function, class, module, package or session. 2.3.4 测试后置 teardown/cleanup 2.3.5 安全的 t…

Redis列表类型(list)模拟队列操作

文章目录 Redis列表类型模拟队列操作1. 使用用lpush和rpop模拟队列的操作1.1 lpush介绍1.2 rpop介绍1.3 llen介绍1.4 lrange介绍1.5 del命令介绍 2. 使用用rpush和lpop模拟队列的操作2.1 rpush介绍2.2 lpop介绍 Redis列表类型模拟队列操作 Redis的列表类型(list&…

JavaScript 中内存泄漏的几种情况?

一、是什么 内存泄漏(Memory leak)是在计算机科学中,由于疏忽或错误造成程序未能释放已经不再使用的内存 并非指内存在物理上的消失,而是应用程序分配某段内存后,由于设计错误,导致在释放该段内存之前就失…

emoji表情符号,unicode表情符号

目录 😎前言👨‍💻使用✈️Unicode 1.1 版本新增☙ Unicode 3.0 版本新增♻️Unicode 3.2 版本新增☕Unicode 4.0 版本新增🀨Unicode 5.1 版本新增⚽ Unicode 5.2 版本新增🌊Unicode 6.0 版本新增😙Unicode…

集合专题----List篇

1、Collection常用方法 package com.example.collection.Collection;import java.util.ArrayList; import java.util.List;public class Collection03 {public static void main(String[] args) {List list new ArrayList();//接口可以指向实现该接口的类//add:添加单个元素l…

BEVFromer论文研读

1. 总体结构 上图为BEVFormer在t时刻的网络结构。图(a) 表示的是BEVFormer的encoder层。BEVFormer有6个encoder层,每一个encoder除了本文自定义的三个组件外都和传统的transformers结果一致。自定义的三个组件分别是网格状的BEV queries,TSA和SCA。其中B…

【智慧交通项目实战】 《 OCR车牌检测与识别》(三):基于改进CRNN的车牌识别

👨‍💻作者简介: CSDN、阿里云人工智能领域博客专家,新星计划计算机视觉导师,百度飞桨PPDE,专注大数据与AI知识分享。✨公众号:GoAI的学习小屋 ,免费分享书籍、简历、导图等&#xf…