使用transformers框架导入t5-small模型做文本翻译

news2025/1/16 4:04:20

前言

在上一篇的博客基于transformer的Seq2Seq机器翻译模型训练、预测教程讲述了怎么训练一个翻译的Seq2Seq模型,这篇博客则来说说怎么使用huggingface中训练好的模型来完成翻译的任务。

环境和模型说明

要想使用huggingface中的预训练模型,首先要安装transformers、torch和SentencePiece这几个库,使用如下命令即可

pip install transformers
pip install torch
pip install SentencePiece

huggingface中有很多nlp或者大的预训练好的语言模型,这次选用的是t5-small这个小一点的模型。

T5是一种编码器-解码器模型,在非常多的无监督和有监督任务上进行多任务训练,并将每个任务转换

为文本到文本格式。T5可以很好地处理各种任务,通过在每个任务对应的输入前加上不同的前缀,例

如:translate English to German: …,摘要:summarize: ….(注:这里是指输入的文本可以通过加入特

定前缀的方式指定是那种text-to-text任务,比如你想让T5做翻译任务,那么给他的输入就可以

是"translate English to German: What is your name?")。关于使用哪个前缀的更多信息,原论文的附

录D给出了所有的前缀。对于序列到序列的生成,建议使用generate()函数。这种方法负责通过cross-

attention层将编码输入到解码器,并自动回归生成解码器输出。T5使用相对标量嵌入。编码器输入填

充可以在左边和右边完成。

代码示例

from transformers import AutoModelWithLMHead, AutoTokenizer

model = AutoModelWithLMHead.from_pretrained("t5-small")
tokenizer = AutoTokenizer.from_pretrained("t5-small")
inputs = tokenizer.encode(
    "translate English to German: Hugging Face is a technology company based in New York and Paris",
    return_tensors="pt")
print(inputs)
outputs = model.generate(inputs, max_length=40, num_beams=4, early_stopping=True)

print(outputs[0])
print(tokenizer.decode(outputs[0]))

运行上面的代码,会自动从huggingface的模型库中下载t5-small,同样,如果遇到自动下载失败,则可以手动下载模型,然后放置在相应的文件夹下,详情可以参考ReadTimeoutError: HTTPSConnectionPool(host=‘cdn-lfs.huggingface.co‘, port=443)这篇博客,里面有详细的教程。

运行上面的代码,就会输出Hugging Face is a technology company based in New York and Paris的德文翻译结果
在这里插入图片描述

上面的是单条数据预测,可以使用batch数据预测:

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

# when generating, we will use the logits of right-most token to predict the next token
# so the padding should be on the left
tokenizer.padding_side = "left"
tokenizer.pad_token = tokenizer.eos_token # to avoid an error

task_prefix = 'translate English to German: '
sentences = ['The house is wonderful.', 'I like to work in NYC.'] # use different length sentences to test batching
inputs = tokenizer([task_prefix + sentence for sentence in sentences], return_tensors="pt", padding=True)

output_sequences = model.generate(
    input_ids=inputs['input_ids'],
    attention_mask=inputs['attention_mask'],
    do_sample=False, # disable sampling to test if batching affects output
)

print(tokenizer.batch_decode(output_sequences, skip_special_tokens=True))

模型输出结果为:

在这里插入图片描述

另外,如果你想要在这个预训练模型基础上做finetuning,训练自己的数据集,当然也可以按照下面的示例代码操作:

这是无监督的数据训练

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

input_ids = tokenizer('The <extra_id_0> walks in <extra_id_1> park', return_tensors='pt').input_ids
labels = tokenizer('<extra_id_0> cute dog <extra_id_1> the <extra_id_2>', return_tensors='pt').input_ids
# the forward function automatically creates the correct decoder_input_ids
loss = model(input_ids=input_ids, labels=labels).loss

这是有监督的数据训练

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

input_ids = tokenizer('translate English to German: The house is wonderful.', return_tensors='pt').input_ids
labels = tokenizer('Das Haus ist wunderbar.', return_tensors='pt').input_ids
# the forward function automatically creates the correct decoder_input_ids
loss = model(input_ids=input_ids, labels=labels).loss

总结一下,如果你的业务可以用这些通用的模型就可以cover住,或者你刚开始进入到机器翻译这个领域的研究,可以先玩一玩这些预训练模型,尝试看看效果如何。亦或者,你有一批小的数据集,也可也基于这个预训练模型做一些迁移学习来提升算法精度。上面的代码都可以给你一些参考

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/533116.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

并行分布式计算 并行算法常用设计技术

文章目录 并行分布式计算 并行算法常用设计技术划分设计技术均匀划分 - PSRS方根划分- Valiant 归并算法对数划分功能划分 分治设计技术双调归并网络凸包问题 平衡树设计技术求最大值前缀和 倍增设计技术表序问题 流水线设计技术卷积 并行分布式计算 并行算法常用设计技术 这里…

空调群控、智能报警,这些设备有点牛

空调绝对是夏季使用率高的电器之一&#xff0c;尤其是今年全国各地高温不断&#xff0c;说“命都是空调给的”都不为过...... 在家的时候&#xff0c;我们可以随手开关空调&#xff0c;非常方便&#xff0c;如果是学校教学楼、工厂宿舍、银行网点、办公大楼、机房等地的管理者…

原神服务端搭建架设Centos系统

原神服务端搭建架设Centos系统 我是艾西&#xff0c;今天为大家带来原神服务端centos系统的教程 Step1. 准备工具 这个端在Windows、Linux系统上都可以跑&#xff0c;本次教程基于Linux。 准备如下工具&#xff1a; 服务器1台 centos7 系统 最低配置32核32G 公网联机 2. 手…

Python采集<灵剑尊>全本内容,一次性看个爽~

前言 嗨喽&#xff0c;大家好呀~这里是爱看美女的茜茜呐 环境使用: Python 3.8 Pycharm 模块使用: requests >>> pip install requests 数据请求模块 parsel >>> pip install parsel 数据解析模块 使用知识点: python基础语法: print 输出函数 字符…

如何在繁重的工作中持续成长?

目录 一、认知&#xff1a;打破成长误区误区 1&#xff1a;个人成长和工作相互冲突误区 2&#xff1a;做自己没了解过的事情才是成长误区 3&#xff1a;学的东西越多&#xff0c;成长越快 二、实施&#xff1a;如何高效的利用时间2.1常见的时间管理法2.2 记录&#xff1a;提醒事…

三、easyUI中的accordion(分类)组件

1.accordion&#xff08;分类&#xff09;组件的概述 分类空间允许用户使用多面板&#xff0c;但在同一时间只会显示一个。每个面板都内建支持展开和折叠功能。点击一个面板的标题将会展开或折叠面板主体。面板内容可以通过指定的href属性使用ajax方式读取面板内容。用户可以定…

NISP含金量如何?NISP一级好考吗?

国家信息安全水平测试&#xff08;NationalInformationSecurityTestProgram&#xff0c;通称NISP&#xff09;&#xff0c;是通过中国信息安全测评中心执行塑造我国网络空间安全优秀人才的一个项目。 含金量很高值得考&#xff0c;NISP分为一级、二级、三级&#xff0c;其中一…

【JAVA程序设计】(C00136)基于SSM(非maven)的养老院综合服务管理系统

基于SSM&#xff08;非maven&#xff09;的养老院综合服务管理系统 项目简介项目获取开发环境项目技术运行截图 项目简介 本项目为基于SSM养老院综合服务系统&#xff0c;本项目分为二种角色:管理员、护工&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登录,个人资料…

java语法(二)线程并发、Juit单元测试、反射机制、注解、动态代理、XML解析、JVM

文章目录 线程并发多线程多线程的创建Thread常用API 线程同步与通信线程同步&#xff1a;单例模式的三种写法同步代码块同步方法Lock锁 线程通信 线程池获取线程池对象ThreadPoolExecutor线程池处理runnable任务线程池处理callable任务 Executors定时器Timer调度可重复执行任务…

Springboot +Flowable,会签、或签简单使用(一)

一.简介 **会签&#xff1a;**在一个流程中的某一个 Task 上&#xff0c;这个 Task 需要多个用户审批&#xff0c;当多个用户全部审批通过&#xff0c;或者多个用户中的某几个用户审批通过&#xff0c;就算通过。 例如&#xff1a;之前的请假流程&#xff0c;假设这个请假流程…

勇于创新,全力以赴,流辰信息快速开发平台助力企业提质增效!

在科技、社会、信息都快速发展的今天&#xff0c;每一家企业都希望能跟上时代的发展步伐&#xff0c;提质增效&#xff0c;获得长远发展。如今&#xff0c;办公自动化正在迅猛发展&#xff0c;数字化转型升级成为了各大企业的发展趋势和奋斗目标&#xff0c;流辰信息快速开发平…

【大数据模型】使用Claude浅试一下

汝之观览&#xff0c;吾之幸也&#xff01;本文主要聊聊Claude使用的流程&#xff0c;在最后对国内外做了一个简单问题的对比&#xff0c;希望国内的大数据模型更快的发展。 一、产品介绍 claude官网 Claude是一款由前OpenAI的研究员和工程师开发的新型聊天机器人&#xff0c;…

chatGPT嵌入浏览器搜索

正文 看效果&#xff0c;注意右侧&#xff1a; 更牛的是你还可以继续向他回答的进行下一步更细节的提问&#xff0c;互动交流问题&#xff0c;妥妥的一对一辅导啊。 安装此插件后&#xff0c;你还可以通过选中 文字 来解读&#xff0c;真是爱了爱了&#xff0c;只想说 "&a…

数据安全治理流程设计

在上一篇讲了 政务数据分级安全保护要求(明细) 只能说可以作为前期咨询工作的理论依据之一,但数据治理具体如何展开工作?这篇简单设计下,后续会有定期更新数据安全治理这方面的文章。 数据治理是大数据发展而来也是信息技术发展而来,在之前最多是数据安全防护,当然目前很…

专业的ADAS测试记录仪ETHOS

随着ADAS驾驶辅助系统技术的快速发展及日臻成熟&#xff0c;近年来ADAS在全球汽车市场已开始快速普及和商业化&#xff0c;而如何确保ADAS系统的可靠和安全俨然成为汽车领域的重要问题。因此&#xff0c;ADAS驾驶辅助系统的测试也成为了各大整车厂及零部件厂商关注的热点。 一 …

内网搭建Jenkins自动化远程部署项目到Windows服务器

一、下载Jenkins War Jenkins Packages Jenkins War Packages This is the WAR package repository of Jenkins for installation.You will need to explicitly install a supported Java runtime environment (JRE), e.g. Eclipse Temurin.Weekly Release Line Supported Ja…

Philosophy of life: Love and Time

背景介绍: 因为爱、幸福、快乐、悲伤、富有、悲伤等交织在一起组成了人这样一个特殊的感情个体&#xff0c;现实生活中很多人忽视了爱的珍贵&#xff0c;这个故事讲的是"富有"&#xff0c;"虚荣","悲伤","狂喜" 都不能理解爱的珍贵&am…

docker安装kafka(M2芯片)

背景&#xff1a;想通过kafka做一个需求&#xff0c;之前没有用过&#xff0c;将TXT文件中的数据加载到kafka中&#xff0c;再通过logstash将kafka中的数据加载到es中。 基本操作环境介绍 操作系统苹果M2kafka镜像版本wurstmeister/kafkazookeeper镜像版本zookeeper:latestka…

ERM LABS 与 The Sandbox 战略合作,将真人密室逃脱游戏引进元宇宙

将现实生活中的体验带入一个全新的维度&#xff01;ERM LABS 专注于将现实生活中的娱乐及冒险体验以游戏独特架构设计扩展到元宇宙裡。与 The Sandbox 合作&#xff0c;该项目旨在为全球合作的真人密室逃脱场所提供无限开放形的线上虚拟世界&#xff0c;让玩家尽情享受考验智商…

【云原生进阶之PaaS中间件】第一章Redis-2.3.2哨兵模式

1 哨兵模式 由于无法进行主动恢复&#xff0c;因此主从模式衍生出了哨兵模式。哨兵模式基于主从复制模式&#xff0c;只是引入了哨兵来监控与自动处理故障。Redis Sentinel是社区版本推出的原生高可用解决方案&#xff0c;Redis Sentinel部署架构主要包括两部分&#xff1a;Red…