【李宏毅 DLHLP 深度学习人类语言处理 HW1】

news2024/12/23 17:44:35

李宏毅 DLHLP 深度学习人类语言处理 HW1

  • 相关资料
  • HW1

语音小白在网上没有找到这门课的作业分享,那就记录一下自己的作业吧。

相关资料

课程官网:https://speech.ee.ntu.edu.tw/~hylee/dlhlp/2020-spring.php
作业github代码1:https://github.com/Alexander-H-Liu/End-to-end-ASR-Pytorch
作业github代码2:https://github.com/DLHLP2020/hw1-speech-recognition/tree/master
其中代码1是你用来跑模型写作业的代码,代码2只是辅助,帮你eval结果和把答案转换成提交要求格式。
提交作业kaggle网站:https://www.kaggle.com/competitions/dlhlp2020spring-asr/leaderboard
目前还是可以提交的,选late submmission,不会参与打榜。

首先大家好好听课,然后按照课件说明去下载作业slide、数据、github代码,最后按照作业slide一步一步往下走就可以。作业总体思路就是尝试不同元素的LAS模型:
Listen = encoder
Attention = Attention
Spell = Decoder

在作业里,会让你尝试
1,用最基础的seq2seq
2,在训练模型时,encoder部分叠加使用CTC,别的部分保持不变,所以loss会变成CTC+seq2seq混合loss
3,CTC joint的模型,decoder只用CTC
4,decoder部分,借助LM
5,不同beam size的效果

HW1

1,Train a seq2seq attention-based ASR model. Paste the learning curve and alignment plot from tensorboard. Report the CER/WER of dev set and kaggle score of testing set. (2 points)

一开始的时候,成绩很烂啦,虽然alignment plot看起来还挺合理的,不过打不过baseline
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
提交到kaggle上,成绩是这样的,比baseline烂不少
在这里插入图片描述

2,Repeat 1. by training a joint CTC-attention ASR model (decoding with seq2seq decoder). Which model converges faster? Explain why. (2 points)

这里我用的CTC weight是0.3,可以看到joint CTC-attention ASR收敛更快,而且模型效果更好。网上搜了一下,大概原因是ASR中attention是非常非常灵活的,joint CTC-attention相当于在前期encoder部分就做了对齐,所以会更快收敛,效果也更好。
在这里插入图片描述
在这里插入图片描述

这个时候结果已经可以比baseline好了在这里插入图片描述3,Use the model in 2. to decode only in CTC (ctc_weight=1.0). Report the CER/WER of dev set and kaggle score of testing set. Which model performs better in 1. 2. 3.? Explain why. (2 points)

1,2,3里面应该是2结果最好,因为2的decode有了CTC的帮助,但3中纯粹用CTC decode的话,就像老师在课上讲的,CTC不考虑前面的输出,效果不会特别好,往往需要后处理。

作业slide里面说CTC decode后的结果要再处理一下,但是我看结果没有什么重复和空的地方,应该是助教后期写好了吧,以下是eval的结果:
在这里插入图片描述

kaggle提交结果如下,还挺惊讶3的效果比1好。
在这里插入图片描述

4,Train an external language model. Use it to help the model in 1. to decode. Report the CER/WER of dev set and kaggle score of testing set. (2 points)

这里我的lm训练了超级久都没有结束,但我看ckpt里面模型早就不再更新,所以就手动停止了程序。
decode的时候,我的lm weight取的0.5。最后的结果,只能说比1提升了一点吧,比不过CTC,离baseline还很远,可能是我的LM不太好的原因。
在这里插入图片描述
在这里插入图片描述

5,Try decoding the model in 4. with different beam size (e.g. 2, 5, 10, 20). Which beam size is the best? (2 points)

这里我只有beam size从2加到5的时候,private score有了一个相对明显的提升,beam size再提升的时候,效果就不在提升了。

beam size 5
在这里插入图片描述在这里插入图片描述

beam size 10
在这里插入图片描述
在这里插入图片描述
beam size 20
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/801004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

用抓包工具结合局域网代理技术爬取meituan某些商家的数据

众所周知,爬虫玩的好,牢饭吃的早(如有侵犯利益,请您告知,我将立删!)。 其实抓包嘛,简单的H5网页直接就能用浏览器的开发者工具进行抓包,但是很多平台剔除了网页版&#…

《面试1v1》Kafka与传统消息系统区别

🍅 作者简介:王哥,CSDN2022博客总榜Top100🏆、博客专家💪 🍅 技术交流:定期更新Java硬核干货,不定期送书活动 🍅 王哥多年工作总结:Java学习路线总结&#xf…

C语言:动态版本通讯录(静态版本的改进)

文章目录 一、改进方向1.结构2.初始化3.增加联系人and检查容量4.退出 二、代码实现总结 通讯录静态版本的实现思路与完整代码 一、改进方向 对于管理数据,我们主要进行增删查改操作,我们要改进静态版本的通讯录,主要在于增加数据方向。而删除…

C++数组、向量和列表的练习

运行代码&#xff1a; //C数组、向量和列表的练习 #include"std_lib_facilities.h"int main() try {int ii[10] { 0,1,2,3,4,5,6,7,8,9 };for (int i 0; i < 10; i)//把数组中的每个元素值加2ii[i] 2;vector<int>vv(10);for (int i 0; i < 10; i)vv…

Transformer模型简单介绍

Transformer是一个深度学习模型。主要功能通俗的来说就是翻译。输入&#xff0c;处理&#xff0c;输出。 https://zhuanlan.zhihu.com/p/338817680 大牛写的很完整 目录 总框架Encoder输入部分注意力机制前馈神经网络 Decoder 总框架 Encoders: 编码器Decoders: 解码器 Encoder…

AT指令介绍

一、基础知识 1、用途&#xff1a;用来控制TE&#xff08;TerminalEquipment&#xff09;和MT(Mobile Terminal)之间交互的规则&#xff0c;如下图所示。在GSM网络中&#xff0c;用户可以通过AT命令进行呼叫、短信、电话本、数据业务、传真等方面的控制。&#xff08;AT指令只…

BUG:pm2启动verdaccio报错:Invalid or unexpected toke

输入命令&#xff1a; pm2 state verdaccio 问题描述&#xff1a; pm2 logs verdaccio报错翻译&#xff1a;数据格式错误 导致我呢提原因&#xff0c;没有找到运行文件&#xff0c; 发现问题&#xff1a;因为命令默认查找verdaccio是去系统盘查找。 解决方式 1&#xff1a;…

探索单例模式:设计模式中的瑰宝

文章目录 常用的设计模式有以下几种&#xff1a;一.创建型模式&#xff08;Creational Patterns&#xff09;&#xff1a;二.结构型模式&#xff08;Structural Patterns&#xff09;&#xff1a;三.行为型模式&#xff08;Behavioral Patterns&#xff09;&#xff1a;四.并发…

js逆向中高级案例-文章标题汇总

一、详细文章 点击链接查看如图案例标题

Tensorflow benchmark 实操指南

环境搭建篇见环境搭建-CentOS7下Nvidia Docker容器基于TensorFlow1.15测试GPU_东方狱兔的博客-CSDN博客 1. 下载Benchmarks源码 从 TensorFlow 的 Github 仓库上下载 TensorFlow Benchmarks&#xff0c;可以通过以下命令来下载 https://github.com/tensorflow/benchmarks 我…

LeetCode每日一题-接雨水

给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 示例 1&#xff1a; 输入&#xff1a;height [0,1,0,2,1,0,1,3,2,1,2,1] 输出&#xff1a;6 解释&#xff1a;上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表…

宋版“三国演义”(北宋、辽、西夏和南宋、金、蒙古)

1 北宋、辽、西夏三国演义 宋、辽、西 夏鼎立形势图 公元960年&#xff08;后周显德七年&#xff09;&#xff0c;后周大将赵匡胤陈桥兵变黄袍加身&#xff0c;建立了宋朝。 然而&#xff0c;北方有一个资格比它老的国家&#xff0c;是为契丹人建立的辽国。 辽创立于五代初。…

《MySQL》第十一篇 SQL_MODEL模式简述

目录 一. 介绍与使用二. 模式类型三. 常用模式演示ANSI 模式TRADITIONAL 模式STRICT_TRANS_TABLES 模式 一. 介绍与使用 SQL Mode定义了MySQL应支持的SQL语法、数据校验等&#xff0c;这样可以更容易地在不同的环境中使用MySQL 常用来解决下面几类问题&#xff1a; 通过设置S…

ad+硬件每日学习十个知识点(14)23.7.25(以太网IC)

文章目录 1.什么是隔离电路&#xff0c;什么是隔离芯片&#xff1f;2.网线接口RJ45和RJ11的区别&#xff1f;&#xff08;我们用的电脑都是RJ45&#xff09;3.什么是rgmii协议&#xff1f;4.什么是以太网协议&#xff1f;5.以太网IC的连接方式6.以太网协议都包含哪些协议&#…

RocketMQ, Dashboard, 控制台安装

文章说明 本文主要说明RocketMQ的控制台&#xff08;Dashboard&#xff09;的安装过程。工作中一直用的是别人装好的&#xff0c;这次终于自己亲手装了一遍。 由于每次都要启动三个应用&#xff0c;比较烦&#xff0c;于是我写了一键启动脚本&#xff0c;分享给大家。这个脚本…

AC695-按键处理-带UI

AC695-按键修改 消息发出 对应界面处理

0725 区块链1.0 2.0 3.0 智能合约 比特币 以太坊 DAG 有向无环图

文献阅读&#xff1a;[1]华亚洲. 基于改进Block-DAG区块链的时空数据存储及查询方法研究[D].辽宁大学,2022.DOI:10.27209/d.cnki.glniu.2022.001364.[1]华亚洲,丁琳琳,陈泽等.面向时空数据的区块链构建及查询方法[J].计算机应用,2022,42(11):3429-3437. 文献总结&#xff1a; …

基于MQTT阿里云服务器的物联网关灯项目--舵机

一、关灯神器 本文章由作者李建华所编写,用到的服务器是阿里云部署好的mqtt,链接如有失效,请联系作者微信:Likz777777 要求&#xff1a;不破坏原有功能、可以接入苹果、网页小程序均可控制 设备&#xff1a;香橙派、舵机 具体实现方法&#xff1a; 1.局域网控制&#xff1a…

PHP在线相册--【白嫖项目】

强撸项目系列总目录在000集 PHP要怎么学–【思维导图知识范围】 文章目录 本系列校训本项目使用技术 上效果图phpStudy 设置导数据库项目目录如图&#xff1a;代码部分&#xff1a;主页 配套资源作业&#xff1a; 本系列校训 用免费公开视频&#xff0c;卷飞培训班哈人&…

LeetCode算法心得——合并后数组中的最大元素

大家好&#xff0c;我是晴天学长&#xff0c;这是一道动态规划的逆向思维题&#xff0c;此题甚是神奇&#xff01;&#x1f4aa;&#x1f4aa;&#x1f4aa; 1 &#xff09;合并后数组中的最大元素 2) .算法思路 只能选择旁边的&#xff0c;而且还是比自己等大或者比自己小的…