Huggingface学习笔记

news2024/9/30 17:26:16

课程地址:【HuggingFace简明教程,BERT中文模型实战示例.NLP预训练模型,Transformers类库,datasets类库快速入门.】

什么是huggingface?
huggingface是一个开源社区,提供了先进的NLP模型、数据集以及工具。

主要模型:
在这里插入图片描述
安装环境:推荐pip安装

在这里插入图片描述

字典和分词工具

简单的编码

大于max_length截断,小于padding
返回列表,包括max_length长度的数字
bert_chinese对中文处理时,每个字作为一个词(token)
在这里插入图片描述

增强的编码函数

增强编码返回的input_ids和简单编码相同
多输出了几个mask
在这里插入图片描述
在这里插入图片描述

批量编码句子

函数名字加上了plus,参数传入的方式也改变了
在这里插入图片描述
在这里插入图片描述
批量成对编码
在这里插入图片描述
结果
在这里插入图片描述

字典操作

以字为词,每个字对应了一个词
在这里插入图片描述

数据集操作

加载一个情感分类的数据集
在这里插入图片描述
数据集有很多操作函数,但大多比较简单,也不是重点
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

使用评价函数

有很多评价指标
在这里插入图片描述
在这里插入图片描述
计算正确率和f1
在这里插入图片描述

使用管道函数

使用pipeline可以解决一些简单的NLP任务。不需要训练模型就能调用的工具。但是实用价值不高

如,情感分类
在这里插入图片描述
阅读理解。答案需要在文本中
在这里插入图片描述
完型填空
在这里插入图片描述
文本生成
在这里插入图片描述
命名实体识别,识别城市名,公司名,人名等等
在这里插入图片描述
文本总结
在这里插入图片描述
翻译
在这里插入图片描述

实战任务1:中文分类

定义数据集

数据集包括:酒店评价、书籍评价等,分为好评和差评(二分类)
训练集:9600句话

在这里插入图片描述

加载tokenizer

即加载字典和分词工具
采用bert-base-chinese分词工具,需要与预训练模型相匹配
在这里插入图片描述

定义批处理函数

数据一条一条的转化为一批,进行分词和编码,并将分词的结果取出来
在这里插入图片描述

定义数据加载器

在这里插入图片描述

加载bert中文模型

不调整预训练模型的参数,直接应用于下游的任务中
定义每句话500个词的长度,768是词编码的维度,将每个词编码为768维度的向量
在这里插入图片描述

定于下游任务模型

只是一个单层的全连接网路。
将预训练模型输出的数据特征,放到全连接网络中运算,只取第0个词的特征来进行分类,这与bert模型的设计有关
在这里插入图片描述

训练

简单算一个交叉熵损失
在这里插入图片描述

迁移学习:利用bert预训练模型迁移到下游任务中,可以在非常短的时间上得到非常高的正确率。以后的NLP任务都应该是基于预训练模型来抽取特征,极大节约训练的时间和精力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1472663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Rust升级慢,使用国内镜像进行加速

背景 rustup 是 Rust 官方的跨平台 Rust 安装工具,国内用户使用rustup update的时候,网速非常慢,可以使用国内的阿里云镜像源来进行加速 0x01 配置方法 1. Linux与Mac OS用户配置环境变量 修改~/.bash_profile文件添加如下内容&#xff1…

Docker基础篇(六) dockerfile体系结构语法

FROM:基础镜像,当前新镜像是基于哪个镜像的 MAINTAINER :镜像维护者的姓名和邮箱地址 RUN:容器构建时需要运行的命令 EXPOSE :当前容器对外暴露出的端口号 WORKDIR:指定在创建容器后,终端默认登…

lv21 QT入门与基础控件 1

1 QT简介 QT是挪威Trolltech开发的多平台C图形用户界面应用程序框架 典型应用 2 工程搭建 2.1 新建ui工程 不要写中文路径 2.1 不勾选UI(主讲) 3 QT信号与槽机制 语法:Connect(A, SIGNLA(aaa()), B, SLOT(bbb()))…

算法--贪心

这里写目录标题 区间问题区间选点引入算法思想例题代码 最大不相交区间的数量算法思想例题代码 区间分组算法思想例题代码 一级目录二级目录二级目录二级目录 区间问题 区间选点 引入 区间问题会给定几个区间,之后要求我们在数轴上选取尽量少的点,使得…

电脑休眠之后唤不醒

现象:午休时间电脑休眠了,醒来之后发现在密码输入界面,但鼠标键盘没反应。按重启键或电源机重新开机,结果开不了机。 原因:1、内存条脏了,导致内存条读取失败 2、休眠的时候硬盘休眠了,导致按…

欢迎免费申报讯方技术HarmonyOS人才训练营!

在今年1月备受瞩目的鸿蒙生态千帆启航仪式上,华为宣布:HarmonyOS NEXT星河预览版正式面向开发者开放申请,意味着鸿蒙将建立更广泛的生态系统,迎来更多的应用和软硬件产品,加速自我技术迭代,同时推动华为全场…

变革中的容器技术

容器化技术的优点 容器化是一种将应用程序和其所需的依赖项,封装在一个可在任何基础架构上一致运行的轻量级可执行文件(即容器)的技术。容器化技术可以大大简化应用程序的部署、管理和维护,提高运维效率和可靠性。 容器化技术有…

LeetCode_Java_动态规划(2)(题目+思路+代码)

131.分割回文串 给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是 回文串 。返回 s 所有可能的分割方案。 回文串 是正着读和反着读都一样的字符串。 示例 1: 输入:s "aab" 输出:[["a&qu…

工具篇-- 定时任务xxl-job的集群部署

文章目录 前言一、xxl-job-admin 集群部署:1.1 部署步骤:1.2 部署求和建议:1.3 集群部署模拟(单机): 二、xxl-job 执行器 集群部署:2.1 集群部署要求:2.2 集群部署模拟: …

pthread_exit和pehread_join函数

pthread_exit: 在线程中禁止调用exit函数,否则会导致整个进程退出,取而代之的是调用pthread_exit函数,这个函数只会使一个线程退出,如果主线程使用pthread_exit函数也不会使整个进程退出,不会影响其他线程…

【基础知识】MPP架构和hadoop架构比对

架构比对 简单一句描述。 mpp架构,就是找一群和自己能力差不多的任一起做事,每个人做的事情是一致的。 hadoop架构,就是找一群能力差一些的人,但只需要他们每个人只做一部分工作。 举例说明 一个特色小饭店如何成为连锁餐饮巨…

【国密算法】深入理解国密算法:原理、实践及注意事项

目录 引言 1. 国密算法概述 2. 国密算法的实践应用 2.1 对称加密(SM1算法) 2.2 非对称加密(SM2算法) 2.3 哈希算法(SM3算法) 3. 国密算法的注意事项 结论 引言 国密算法,即中国密码算法…

AI数字人SadTalker实战

1.概述 AI数字人在营销和品牌推广中扮演着至关重要的角色,许多企业和个人正积极利用数字技术来打造属于自己的财富。有没有一种简单而免费的方式来创建自己的数字人呢?本篇博客笔者将为大家介绍如何搭建属于自己的AI数字人。 2.内容 2.1 什么是SadTalker…

内存卡无法读取?这里有救!

一、遭遇内存卡无法读取的困境 在日常生活和工作中,我们越来越依赖电子设备来存储和传输数据。然而,当遇到内存卡无法读取的问题时,很多人会感到困惑和焦虑。无论是重要的工作文件、珍贵的家庭照片,还是其他个人数据,…

基于springboot+vue的音乐网站(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

C++力扣题目 42--接雨水 84--柱状图中最大的矩形

42. 接雨水 力扣题目链接(opens new window) 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1]输出:6解释&#xff…

C++17之折叠表达式

相关文章系列 深入理解可变参数(va_list、std::initializer_list和可变参数模版) 目录 1.介绍 2.应用 2.1.使用折叠表达式 2.2.支持的运算符 2.3.使用折叠处理类型 3.总结 1.介绍 折叠表达式是C17新引进的语法特性。使用折叠表达式可以简化对C11中引入的参数包的处理&…

原型设计工具Axure RP

Axure RP是一款专业的快速原型设计工具。Axure(发音:Ack-sure),代表美国Axure公司;RP则是Rapid Prototyping(快速原型)的缩写。 下载链接:https://www.axure.com/ 下载 可以免费试用…

windows安装onlyoffice8.0

安装erlang 安装Erlang25.3 下载地址 设置环境变量 ERLANG_HOME C:\Program Files\Erlang OTP Path下设置%ERLANG_HOME%\bin 打开cmd输入erl不报错即可 安装rabbitmq rabbitmq和erlang对应的关系 下载地址 执行完exe文件后,找到安装目录下的sbin&am…

H12-821_77

77.如图所示的交换网络,所有交换机都运行了STP协议,当拓扑稳定后,在以下哪台交换机上修改配置BPDU的发送周期,可以影响STD配置BPDU的发送周期? A.STC B.SWD C.SWA D.SWB 答案:C 注释: 在根桥上…