训练seq2seq模型的一些Tips——李宏毅机器学习笔记

news2026/2/11 6:07:32

Copy Mechanism

有时我们并不需要decoder创造一些东西出来，有些内容是可以从encoder复制而来。最早具有复制能力的模型：Pointer Network
例如：

chat-bot

在这里插入图片描述

Summarization

至少要训练百万篇文章
在这里插入图片描述

Guided Attention

Monotonic Attention
Location-aware attention

语音识别往往也会犯很多低级的错误，例如语音合成中念短句子时出错。在这里插入图片描述
guided attend 要做的事情就是要求机器在做attention的时候有固定的方式。
以语音合成为例：
我们在输入一段文字后，机器显然是应该从左念到右。

如果机器颠三倒四，显然会出错

此时Guided Attention所做的事情是强迫Attention的位置是从左到右，直接将这个限制放入training里面，要求机器学到应该由左到右。

Beam Search

Greedy Decoding :每次分数都选最高的一个在这里插入图片描述
但是，red path不一定是最好的方法，例如：
green path最终结果更好

爆搜所有可能，可以找到一条最优路径，但是计算量太大，几乎不可能。

Beam Search是一个比较有效的方法，其每次都保留B个最好的路径。Beam size的大小需要自己去考量的。但是其有时有用，有时候没用。

有时候没有找到最好的路，反而结果比较好。具体要看自己任务的特性，比如答案是不是非常明确，以语音辨识来说，一句话只有一个可能，通常beam search会有帮助。需要机器发挥一些创造力，不是只有一个答案时，则beam search则没有太多帮助，并且需要加入一些随机性。例如，在做TTS语音合成的时候decode要加一些noise。

在test的时候考虑bleu score，而不是cross-entropy

为什么我们train的时候考虑cross-entropy而不是bleu score？
因为bleu score无法作微分。

遇到optimization无法解决的问题，可以用RL硬train一发；遇到无法 optimize的Loss function，把它当作是RL的Reward，Decoder当作agent，把它当作RL的问题硬做也是有可能的。
在这里插入图片描述

Scheduled Sampling

exposure bias:训练时decoder看到的是正确信息，测试时不是。但是如果训练时，decoder只看过正确的东西。则在测试时看到错误的东西的时候可能会导致整个结果坏掉，解决的方向：在训练的时候加入一些错误的东西。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/107785.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

PPT怎么转化成PDF？这两种方法教你快速解决!

PPT怎么转化成PDF？这两种方法教你快速解决!

今天我们将向您介绍如何将 PowerPoint 演示文稿 (PPT) 转换为 PDF 文件。我们将通过两种方法来做到这一点： 将 PowerPoint 演示文稿另存为 PDF 文件。使用奇客免费PDF转换将 PowerPoint 演示文稿转换为 PDF。方法一：使用 Microsoft PowerPoint 将 P…

阅读更多...

合理利用chatGpt之新冠阳性

合理利用chatGpt之新冠阳性

🏆今日学习目标： 🍀合理利用chatGpt之新冠阳性 ✅创作者：林在闪闪发光 ⏰预计时间：30分钟 🎉个人主页：林在闪闪发光的个人主页 🍁林在闪闪发光的个人社区，欢迎你的加入:…

阅读更多...

AI 预测到了正确的世界杯胜利者吗？

AI 预测到了正确的世界杯胜利者吗？

在过去的一个月里，卡塔尔 2022 年世界杯让我们目睹了一个又一个令人震惊的结果，甚至在决赛之前，让所有人的目光都聚焦在法国和阿根廷两支球队上，其实在球迷们心中，早就开始了各种猜测。😄现在是时候回顾一下…

阅读更多...

基于CNN和LSTM的气象图降水预测示例

基于CNN和LSTM的气象图降水预测示例

我们是否可以通过气象图来预测降水量呢？今天我们来使用CNN和LSTM进行一个有趣的实验。我们这里使用荷兰皇家气象研究所(也称为KNMI)提供的开放数据集和公共api，来获取数据集并且构建模型预测当地的降水量。数据收集 KNMI提供的数据集，我…

阅读更多...

excel函数公式大全，最常用的6个公式

Excel中的函数引用一些预定义的公式，可以通过输入参数值来计算函数的对应函数，并且函数名称基本上与函数相对应，这很容易记住。在日常工作中，功能可用于数据统计、计算、处理和分析。本文主要介绍EXCEL中一些常用公式，…

阅读更多...

视唱练耳训练小程序开发，摆脱传统训练制约性

视唱练耳训练小程序开发，摆脱传统训练制约性

视唱练耳作为一门综合性的音乐基础理论学科，对于声乐、器乐、舞蹈等音乐学科中的各个方面都起着十分重要的作用，尤其是突出表现在基本理论、基本技能和音乐审美上，对培养和发展学生的乐感、唱奏技巧以及音乐思维等都有着非常重要的意义。世界…

阅读更多...

Databend 开源周报 #71

Databend 开源周报 #71

Databend 是一款强大的云数仓。专为弹性和高效设计，自由且开源。即刻体验云服务：https://app.databend.com。 What’s New 探索 Databend 本周新进展，遇到更贴近你心意的 Databend 。 Features & Improvements Planner 优化集群模…

阅读更多...

简单易用的监控告警系统 | HertzBeat 在 Rainbond 上的使用分享

简单易用的监控告警系统 | HertzBeat 在 Rainbond 上的使用分享

在现有的监控告警体系中 Prometheus AlertManger Grafana 一直是主流，但对于中小团队或个人来说，这种体系显的较为复杂。而 HertzBeat 能让中小团队或个人很快速的搭建监控告警系统，并通过简单的配置实现应用、数据库、操作系统的监控与告警…

阅读更多...

k8s HPA升级 KEDA 基于事件驱动的自动伸缩

k8s HPA升级 KEDA 基于事件驱动的自动伸缩

说明：KEDA有啥用，相对HPA有啥优势。HPA针对于cpu,内存来进行弹性伸缩，有点不太精确。KEDA可以接入prometheus，根据prometheus的数据指标进行弹性伸缩，相比更加的精准实用。安装k8s环境部署prometheus 创建ns&#xf…

阅读更多...

HashMap最全面试题

HashMap最全面试题

文章目录一、存储结构字段结构二、索引计算三、put方法四、扩容机制五、其他一、存储结构 HashMap的底层数据结构是什么？ 在JDK1.7 和JDK1.8 中有所差别： 在JDK1.7 中，由“数组链表”组成，数组是 HashMap 的主体，链…

阅读更多...

Django学习Day6

Django学习Day6

1.ORM故障处理 1)当执行python manager.py makemigrations出现迁移问题时，如何进行解决。处理方案：在models.py中，为book表的des非空字段设置一个默认值。 2）数据库的迁移文件混乱问题数据库中的django_migrations记录了migra…

阅读更多...

健康指标管理系统

健康指标管理系统

开发工具(eclipse/idea/vscode等)： 数据库(sqlite/mysql/sqlserver等)： 功能模块(请用文字描述，至少200字)： 模块划分：公告类型、公告信息、地区信息、用户信息、人员分类、人员信息、指标信息、健康信息管理员功能&a…

阅读更多...

Java+MYSQL基于ssm在线投票管理系统

Java+MYSQL基于ssm在线投票管理系统

随着社会的发展,人们在处理一些问题的时候不同意见越来越多,这源于人们对思想的解放和对社会的认识。所以在处理同一问题上,为了征求不同人的意见在线投票系统诞生了。传统的投票模式都是通过人工手动填写问卷的方式来进行,这在很大程度上会造成人力和资源上的浪费。随着科技的…

阅读更多...

擎创技术流 | ClickHouse实用工具—ckman教程（7）

擎创技术流 | ClickHouse实用工具—ckman教程（7）

一期一会的“ckman”教程又跟大家见面了，本期分享的重点主要针对上期后台陆续收到的问题展开，解答完问题后再带入一些关于“ckman”升级的相关讲解。感兴趣的朋友可以先关注一波。还是老规矩，先带大家复习下前几期的分享内容↓↓↓ 擎创…

阅读更多...

springboot整合mongodb 保姆级教程

springboot整合mongodb 保姆级教程

1、确保mongodb是否安装 Linux安装docker 保姆级教程_ 来杯咖啡的博客-CSDN博客（可以看这篇文章） 2、代码展示 2.1 使用 MongoTemplate 创建boot项目，导入架包。 <?xml version"1.0" encoding"UTF-8"?> <p…

阅读更多...

带你深入了解一下vue.js中的this.$nextTick！

带你深入了解一下vue.js中的this.$nextTick！

我们先看看nextTick究竟是个啥？ console.log(this.$nextTick); // 控制台打印 if(fn){return nextTick(fn, this); } 我们可以看出nextTick就是一个方法，方法有两个参数：fn和this，fn就是需要传的回调函数，this就是所…

阅读更多...

主轴承盖螺栓拧紧机PLC控制程序

主轴承盖螺栓拧紧机PLC控制程序

HMI为西门子TP900触摸屏，支持屏幕触摸和按键操作设备主要参数设备外形尺寸：长*宽*高 2180*1900*2500mm 生产节拍： 55 S 电源电压： AC380V5%，50HZ，三相五线制系统组态常见故障处理气缸报警报警原…

阅读更多...

Windows下安装VTK8.2.0

Windows下安装VTK8.2.0

Windows下安装VTK8.2.0 1、依赖 VS2017 Qt5 cmake 2、前期准备 2.1、访问vtk官方下载VTK8.2.0源码 VTK源码下载地址：https://vtk.org/download/ 2.2、配置环境变量配置CMAKE_PREFIX_PATH，值为Qt的bin路径 2.3、新建2个文件夹一个用于存放cm…

阅读更多...

11 个有用的现代 JavaScript 技巧

11 个有用的现代 JavaScript 技巧

在我们日常开发工作中，我们经常使用到字符串的转换、检查它是否存在的对象中的键、有条件地操作对象数据、过滤数组中的假值等。在这里，我整理了一些很棒的JavaScript的技巧，这些技巧是我个人最喜欢的，因为它使我的代码更短更干…

阅读更多...

亚马逊云科技：还在苦于ETL？Zero ETL的时代已全面到来

亚马逊云科技：还在苦于ETL？Zero ETL的时代已全面到来

在2022亚马逊云科技re:Invent全球大会上，亚马逊云科技数据和机器学习副总裁Swami Sivasubramanian表示：“当前，客户管理的数据既庞大又复杂，这意味着他们不能只用单一技术或几个工具来分析和探索这些数据。在此次2022亚马逊云科技…

阅读更多...

推荐文章

最新文章