Transformer(四)--实现验证：transformer 机器翻译实践

news2026/2/13 22:59:19

转载请注明出处：https://blog.csdn.net/nocml/article/details/125711025

本系列传送门：
Transformer(一)–论文翻译：Attention Is All You Need 中文版
Transformer(二)–论文理解：transformer 结构详解
Transformer(三)–论文实现：transformer pytorch 代码实现
Transformer(四)–实现验证：transformer 机器翻译实践

文章目录

1 文章说明
2. 模型训练
- 2.1 训练数据
- 2.2 训练设备
- 2.3 训练参数
- 2.4 训练过程
- 2.5 模型结果
- 2.6 结果分析

1 文章说明

此篇文章是衔接上一篇的后续，在这篇blog中，我们会使用之前实现的代码，在真实的大规模语料上来训练一个机器翻译模型，用实际效果来检验我们实现的代码。
这个实验是我很早之前，也就是刚写完代码时做的，只不过模型结果没有经过系统评估，连blue分也没计算，所以当时就没有整理成blog。最近想了想，还是把结果粘上来，大家看一下。然后transformer这块就结束了。最近一直在搞chatgpt相关的事情，有时间了也会整理下。

2. 模型训练

2.1 训练数据

训练数据使用中英平行语料，共1000W。

2.2 训练设备

服务器型号：T7920 塔式机
gpu: 2080ti 11G 单卡 (由于只是验证模型的正确性，所以只使用了一块卡)
cpu: 至强 5218N * 2
内存：128G

2.3 训练参数

$lr ：{6.26} ×10^{-5}$
$ba t c h s i ze : 16$
$\ max \ length: 128$ （语料中的最大长度）
$warm\ step : 10000$
$token\ num:45000$
$e p oc h : 5$

2.4 训练过程

训练时长：7d（一个epoch 大概需要一天多）
训练损失：从百分位降到千分位，具体见下图
- 训练初始：
- 训练结束：

2.5 模型结果

结果展示：
在这里插入图片描述
注：最后一个例子超过我设置的解码长度了，没有翻译完。

2.6 结果分析

没有计算具体的评估指标，主要是当时忙着做其它项目，没有过多的时间，且当时训练的目的也只是为了通过实验来看看代码是否有致命缺陷。从结果来看，已经有一定的翻译效果了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/698831.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

sql server 触发器往链接服务器同步数据的坑

sql server 触发器往链接服务器同步数据的坑

链接服务器无法启动分布式服务检查数据库是否勾选了一下按钮，双方都要检查链接服务器属性，需要检查这些地方是否已经设置为true 该伙伴事务管理器已经禁止了它对远程/网络事务的支持双方启动MSDTC服务 (1)在windows控制面版–>windows 工具->…

阅读更多...

Sourcetree： The host key is not cached for this server:

Sourcetree： The host key is not cached for this server:

使用Sourcetree 出现提示：The host key is not cached for this server: 工具>选项>一般确认完成，解决问题。

阅读更多...

【嵌入式Qt开发入门】使用 UI 设计器开发程序

【嵌入式Qt开发入门】使用 UI 设计器开发程序

本文我们继续学习如何使用 Qt Designer 开发程序，Qt Designer 是属于 Qt Creator 的一个功能而已，大家不要搞混了。Qt Designer 也叫 UI 设计师或者 UI 设计器，这都是指的同一个东西。下面简单介绍如何使用 UI 设计器开发程序，以…

阅读更多...

webassembly如何在js侧使用注册的容器类型

webassembly如何在js侧使用注册的容器类型

需求：是有个C接口，参数是vector<string>类型，那么如何在js端调用这个接口呢？ #include <emscripten/emscripten.h> #include <emscripten/bind.h> #include <vector> #include <string> #include …

阅读更多...

Modbus Slave和Modbus Poll的使用说明

Modbus Slave和Modbus Poll的使用说明

文章目录 1 软件说明2 本例目标3 Modbus Poll配置步骤4 Modbus Slave配置步骤5 各种测试5.1 正常显示5.2 Slave Id不一致5.3 Quantity不够5.4 测试IP Address 6 总结 1 软件说明 Modbus Poll：是Witte Software公司开发的的Modbus主机仿真器，用于测试和调…

阅读更多...

2022年影响因子新鲜出炉！（附↓）

2022年影响因子新鲜出炉！（附↓）

【SciencePub学术】6月28日,科睿唯安发布2023年度《期刊引证报告》（Journal Citation Reports，简称 JCR）。本年度《引证报告》对Web of Science核心合集收录的所有期刊赋予期刊影响因子，同时，为鼓励用户在比较期刊时…

阅读更多...

续篇-docker篇: 优势与安装方式及基础指令整合

续篇-docker篇: 优势与安装方式及基础指令整合

目录 1. 前言简介: 1.1 docker的优势: 1.2 docker的简易理解 2. 指令安装 2.1 安装yum的插件 ps: 提示没权限加上sudo即可 root用户不用 2.2 设置yum仓库地址 ps: 设置多个镜像仓库, 不设置可能会下载变慢 ps: 如图所示 2.3 更新缓存 2.4 安装docker 2.5 查看do…

阅读更多...

Spring Boot 中的事务超时时间

Spring Boot 中的事务超时时间

Spring Boot 中的事务超时时间在 Spring Boot 中，事务管理是一个非常重要的话题。当我们在数据库中执行一些复杂的操作时，需要确保这些操作能够在一定的时间内完成，否则可能会导致数据一致性问题。为了解决这个问题，Spring Boot…

阅读更多...

Linux--12--Kernel panic – not syncing: Attempted to kill init! Redhat6.2故障修复

Linux--12--Kernel panic – not syncing: Attempted to kill init! Redhat6.2故障修复

1、Linux环境 Redhat6.2， Linux version 2.6.32-220.el6.i686 (mockbuildx86-003.build.bos.redhat.com) (gccversion 4,4.5 20110214 (Red Hat 4.4.5-6) (GCC) ) #1 SMP Wed Nov 9 08:02:18 EST 2011 2、故障现象修改TCP相关文件，重启完Linux系统之…

阅读更多...

ModaHub魔搭社区：Milvus的工作原理和为什么选择Milvus？

ModaHub魔搭社区：Milvus的工作原理和为什么选择Milvus？

目录为什么选择 Milvus？ Milvus 的工作原理是什么？ Milvus 由存储层和计算层组成，为了增强弹性和灵活性，Milvus 中的所有组件都是无状态的。系统由四个层级组成： Milvus 用于什么？ 如今，已…

阅读更多...

java学习记录之struts2struts标签上传国际化

java学习记录之struts2struts标签上传国际化

Strtus2 OGNL表达式的结合描述: struts2为OGNL表达式准备了两个对象 ActionContext: 作为ognl表达式的Context valueStack: 作为ognl表达式的Root 以上两个对象的创建都是strutsPrepareAndExecuteFilter中准备好. Ognl和Struts使用上的结合: 表单提交,其中提交的键可以看作…

阅读更多...

iview切换Select时选项丢失，重置Seletc时选项丢失

iview切换Select时选项丢失，重置Seletc时选项丢失

分析原因在旧版本的iview中如果和filterable一起使用时，当值清空选项或者使用重置按钮清空时选项会丢失。解决方式一把去掉filterable 解决方式二使用ref，调用clearSingleSelect()方法清空 ref"perfSelect" this.$refs.perfSelect.c…

阅读更多...

Nginx上游节点健康检测

Nginx上游节点健康检测

Nginx默认是没有支持上游节点健康检测的。可以使用Tengine 文档 - The Tengine Web Server 或者自行下载nginx然后自己安装nginx_upstream_check_module 模块在linux下载nginx wget http://nginx.org/download/nginx-1.25.1.tar.gz 下载插件 GitHub - yaoweibin/nginx_u…

阅读更多...

【Java高级编程】Java8的新特性

【Java高级编程】Java8的新特性

Java8的新特性 1、Java8的新特性概述2、Lambda表达式2.1、Lambda表达式使用前后的对比2.2、Lambda表达式的基本语法2.3、如何使用：分为六种情况 3、函数式接口3.1、函数式接口的使用说明3.2、Java8中关于Lambda表达式提供的4个基本的函数式接口3.3、总结 4、方法引用…

阅读更多...

开源建站博客社区系统大放送

开源建站博客社区系统大放送

前言软件开发成本非常高昂，写demo易，做产品难，难就难在无数细节需要精雕细琢。学习博客、论坛、内容管理系统这些典型的、通用型的系统，能极大提升你的软件架构和开发能力。本文筛选了目前主流的开源项目，帮助大家入…

阅读更多...

动手学深度学习v2 p1引言监督学习与无监督学习

动手学深度学习v2 p1引言监督学习与无监督学习

1.引言 1.2. 机器学习中的关键组件首先介绍一些核心组件。无论什么类型的机器学习问题，都会遇到这些组件： 可以用来学习的数据（data）； 如何转换数据的模型（model）； 一个目标函数…

阅读更多...

linux--用户相关

linux--用户相关

目录一.要在云服务器官网重置root密码成功后才能登录xshell(重装系统后登录也不例外） 二.添加普通用户： 三.查看root下有几个普通用户： 四.给用户设置密码： 五、用户登录编辑六、查看当前所在用户： 七、查看…

阅读更多...

windows上phpstudy 在切换php7.0到7.2后项目404

windows上phpstudy 在切换php7.0到7.2后项目404

项目从7.0切换到7.2.9一访问本地就报404，然后重启重新配置nginx.conf也无效然后取查看phpstudy 的 nginx/logs/error.log 发现一访问本地网站就报下面错 phpstudy报错 2023/06/28 11:36:28 [error] 14128#19616: *1 upstream prematurely closed connection whi…

阅读更多...

Linux——扩容/根分区(LVM+非LVM)

Linux——扩容/根分区(LVM+非LVM)

摘要本博文主要是对linux虚拟机进行磁盘得扩容操作。在计算机中MBR（Master Boot Record）（主引导记录）和GPT（GUID Partition Table）（GUID意为全局唯一标识符）是在磁盘上存储分区信…

阅读更多...

Redis跳跃表是如何添加元素的？

Redis跳跃表是如何添加元素的？

今天分享的这道题来自于蔚来的真实面试题。 Java 面试不可能不问 Redis，问到 Redis 不可能不问 Redis 的常用数据类型，问到 Redis 的常用数据类型，不可能不问跳跃表，当问到跳跃表经常会被问到跳跃表的查询和添加流程，…

阅读更多...

推荐文章

最新文章