吴恩达深度学习笔记:序列模型(Sequence Models) 1.1-1.2

news2024/11/13 3:54:02

目录

  • 第五门课 序列模型(Sequence Models)
    • 第一周 循环序列模型(Recurrent Neural Networks)
      • 1.1 为什么选择序列模型?(Why Sequence Models?)
      • 1.2 数学符号(Notation)

第五门课 序列模型(Sequence Models)

第一周 循环序列模型(Recurrent Neural Networks)

1.1 为什么选择序列模型?(Why Sequence Models?)

在本课程中你将学会序列模型,它是深度学习中最令人激动的内容之一。循环神经网络(RNN)之类的模型在语音识别、自然语言处理和其他领域中引起变革。在本节课中,你将学会如何自行创建这些模型。我们先看一些例子,这些例子都有效使用了序列模型。

在这里插入图片描述
在进行语音识别时,给定了一个输入音频片段 𝑥,并要求输出对应的文字记录 𝑦。这个例子里输入和输出数据都是序列模型,因为 𝑥是一个按时播放的音频片段,输出 𝑦是一系列单词。所以之后将要学到的一些序列模型,如循环神经网络等等在语音识别方面是非常有用的。

音乐生成问题是使用序列数据的另一个例子,在这个例子中,只有输出数据 𝑦是序列,而输入数据可以是空集,也可以是个单一的整数,这个数可能指代你想要生成的音乐风格,也可能是你想要生成的那首曲子的头几个音符。输入的 𝑥可以是空的,或者就是个数字,然后输出序列𝑦。

在处理情感分类时,输入数据𝑥是序列,你会得到类似这样的输入:“There is nothing to like in this movie.”,你认为这句评论对应几星?

系列模型在 DNA 序列分析中也十分有用,你的 DNA 可以用 A、C、G、T 四个字母来表示。所以给定一段 DNA 序列,你能够标记出哪部分是匹配某种蛋白质的吗?

在机器翻译过程中,你会得到这样的输入句:“Voulez-vou chante avecmoi?”(法语:要和我一起唱么?),然后要求你输出另一种语言的翻译结果。

在进行视频行为识别时,你可能会得到一系列视频帧,然后要求你识别其中的行为。在进行命名实体识别时,可能会给定一个句子要你识别出句中的人名。

所以这些问题都可以被称作使用标签数据 (𝑥, 𝑦)作为训练集的监督学习。但从这一系列例子中你可以看出序列问题有很多不同类型。有些问题里,输入数据 𝑥和输出数据𝑦都是序列,但就算在那种情况下,𝑥和𝑦有时也会不一样长。或者像上图编号 1 所示和上图编号 2 的𝑥和𝑦有相同的数据长度。在另一些问题里,只有 𝑥或者只有𝑦是序列。

所以在本节我们学到适用于不同情况的序列模型,下节中我们会定义一些定义序列问题要用到的符号。

1.2 数学符号(Notation)

本节先从定义符号开始一步步构建序列模型。

比如说你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于 J.K.Rowling 笔下的系列小说 Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题,这常用于搜索引擎,比如说索引过去 24 小时内所有新闻报道提及的人名,用这种方式就能够恰当地进行索引。命名实体识别系统可以用来查找不同类型的文本中的人名、公司名、时间、地点、国家名和货币名等等。

在这里插入图片描述
现在给定这样的输入数据𝑥,假如你想要一个序列模型输出𝑦,使得输入的每个单词都对应一个输出值,同时这个𝑦能够表明输入的单词是否是人名的一部分。技术上来说这也许不是最好的输出形式,还有更加复杂的输出形式,它不仅能够表明输入词是否是人名的一部分,它还能够告诉你这个人名在这个句子里从哪里开始到哪里结束。比如 Harry Potter(上图编号 1 所示)、Hermione Granger(上图标号 2 所示)。

更简单的那种输出形式:这个输入数据是 9 个单词组成的序列,所以最终我们会有 9 个特征集和来表示这 9 个单词,并按序列中的位置进行索引, x < 1 > 、 x < 2 > 、 x < 3 > x^{<1>}、x^{<2>}、x^{<3>} x<1>x<2>x<3>等等一直到 x < 9 > x^{<9>} x<9>来索引不同的位置,我将用 x < t > x^{<t>} x<t>来索引这个序列的中间位置。𝑡意味着它们是时序序列,但不论是否是时序序列,我们都将用𝑡来索引序列中的位置。

输出数据也是一样,我们还是用 y < 1 > 、 y < 2 > 、 y < 3 > y^{<1>}、y^{<2>}、y^{<3>} y<1>y<2>y<3>等等一直到 y < 9 > y^{<9>} y<9>来表示输出数据。同时我们用 T x T_x Tx来表示输入序列的长度,这个例子中输入是 9 个单词,所以 T x T_x Tx= 9。我们用𝑇𝑦来表示输出序列的长度。在这个例子里 T x = T y T_x = T_y Tx=Ty,上个视频里你知道 T x T_x Tx T y T_y Ty可以有不同的值。

你应该记得我们之前用的符号,我们用 x ( i ) x^{(i)} x(i)来表示第𝑖个训练样本,所以为了指代第𝑡个元素,或者说是训练样本𝑖的序列中第𝑡个元素用 x ( i ) < t > x^{(i)<t>} x(i)<t>这个符号来表示。如果 T x T_x Tx是序列长度,那么你的训练集里不同的训练样本就会有不同的长度,所以 T x ( i ) T_x^{(i)} Tx(i)就代表第𝑖个训练样本的输入序列长度。同样 y ( i ) < t > y^{(i)<t>} y(i)<t>代表第𝑖个训练样本中第𝑡个元素, T y ( i ) T_y^{(i)} Ty(i)就是第𝑖个训练样本的输出序列的长度。

所以在这个例子中, T x ( i ) T_x^{(i)} Tx(i)= 9,但如果另一个样本是由 15 个单词组成的句子,那么对于这个训练样本, T x ( i ) T_x^{(i)} Tx(i)= 15。

既然我们这个例子是 NLP,也就是自然语言处理,这是我们初次涉足自然语言处理,一件我们需要事先决定的事是怎样表示一个序列里单独的单词,你会怎样表示像 Harry 这样的单词, x < 1 > x^{<1>} x<1>实际应该是什么?

接下来我们讨论一下怎样表示一个句子里单个的词。想要表示一个句子里的单词,第一件事是做一张词表,有时也称为词典,意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是 a,也就是说词典中的第一个单词是 a,第二个单词是 Aaron,然后更下面一些是单词 and,再后面你会找到 Harry,然后找到 Potter,这样一直到最后,词典里最后一个单词可能是 Zulu。

在这里插入图片描述
因此 a 是第一个单词,Aaron 是第二个单词,在这个词典里,and 出现在 367 这个位置上,Harry 是在 4075 这个位置,Potter 在 6830,词典里的最后一个单词 Zulu 可能是第 10,000个单词。所以在这个例子中我用了 10,000 个单词大小的词典,这对现代自然语言处理应用来说太小了。对于商业应用来说,或者对于一般规模的商业应用来说 30,000 到 50,000 词大小的词典比较常见,但是 100,000 词的也不是没有,而且有些大型互联网公司会用百万词,甚至更大的词典。许多商业应用用的词典可能是 30,000 词,也可能是 50,000 词。不过我将用 10,000 词大小的词典做说明,因为这是一个很好用的整数。

如果你选定了 10,000 词的词典,构建这个词典的一个方法是遍历你的训练集,并且找到前 10,000 个常用词,你也可以去浏览一些网络词典,它能告诉你英语里最常用的 10,000个单词,接下来你可以用 one-hot 表示法来表示词典里的每个单词。

在这里插入图片描述
举个例子,在这里 x < 1 > x^{<1>} x<1>表示 Harry 这个单词,它就是一个第 4075 行是 1,其余值都是 0的向量(上图编号 1 所示),因为那是 Harry 在这个词典里的位置。

同样 x < 2 > x^{<2>} x<2>是个第 6830 行是 1,其余位置都是 0 的向量(上图编号 2 所示)。and 在词典里排第 367,所以$x^{<3>}}就是第 367 行是 1,其余值都是 0 的向量(上图编号3 所示)。如果你的词典大小是 10,000 的话,那么这里的每个向量都是 10,000 维的。

因为 a 是字典第一个单词,$x^{<7>}}对应 a,那么这个向量的第一个位置为 1,其余位置都是 0 的向量(上图编号 4 所示)。

所以这种表示方法中,$x^{}}指代句子里的任意词,它就是个 one-hot 向量,因为它只有一个值是 1,其余值都是 0,所以你会有 9 个 one-hot 向量来表示这个句中的 9 个单词,目的是用这样的表示方式表示𝑋,用序列模型在𝑋和目标输出𝑌之间学习建立一个映射。我会把它当作监督学习的问题,我确信会给定带有(𝑥, 𝑦)标签的数据。

那么还剩下最后一件事,我们将在之后的视频讨论,如果你遇到了一个不在你词表中的单词,答案就是创建一个新的标记,也就是一个叫做 Unknow Word 的伪单词,用作为标记,来表示不在词表中的单词,我们之后会讨论更多有关这个的内容。

总结一下本节课的内容,我们描述了一套符号用来表述你的训练集里的序列数据𝑥和𝑦,在下节课我们开始讲述循环神经网络中如何构建𝑋到𝑌的映射。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2236378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装和运行开发微信小程序

下载HBuilder uniapp官网 uni-app官网 微信开发者工具 安装 微信小程序 微信小程序 官网 微信小程序 配置 运行 注意&#xff1a;运行前需要开启服务端口 如果运行看不到效果&#xff0c;设置下基础库选别的版本 配置

Java反射、注解、泛型——针对实习面试

目录 Java反射、注解、泛型什么是反射&#xff1f;反射有什么优缺点&#xff1f;优点缺点 什么是泛型?泛型的优点泛型的实现 泛型怎么使用&#xff1f;泛型类泛型方法泛型接口类型参数命名约定泛型的类型限定泛型的通配符 什么是泛型擦除机制&#xff1f;为什么要擦除&#xf…

【SpringMVC】——Cookie和Session机制

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯 你们的点赞收藏是我前进最大的动力&#xff01;&#xff01; 希望本文内容能够帮助到你&#xff01;&#xff01; 目录 一&#xff1a;实践 1&#xff1a;获取URL中的参数 &#xff08;1&#xff09;PathVariable 2&…

webWorker基本用法

我们都知道js是一个单线程的语言&#xff0c;当线程堵塞时&#xff0c;可能会导致页面无法正常交互&#xff0c;如一些复杂的可视化处理。即使是异步处理&#xff0c;也只是将其暂存到任务队列中去&#xff0c;等主线程执行完后依然会从任务队列中取过去。 为此&#xff0c;js提…

一文学习Android中的Property

在 Android 系统中&#xff0c;Property 是一种全局的键值对存储系统&#xff0c;允许不同组件和进程间以轻量级的方式进行数据传递。它主要用于系统配置、状态标识等场景&#xff0c;使得不同进程能够通过属性的设置或获取来通信。property 的核心特性是快速、高效&#xff0…

使用PEFT在多个AMD GPU上进行StarCoder的指令微调

Instruction fine-tuning of StarCoder with PEFT on multiple AMD GPUs — ROCm Blogs 2024年4月16日&#xff0c;由 Douglas Jia撰写。 在这篇博客中&#xff0c;我们将向您展示如何使用指令-答案对数据集在AMD GPU上微调StarCoder基础模型&#xff0c;以便它能够根据指令生…

后台管理系统窗体程序:文章管理 > 文章列表

目录 文章列表的的功能介绍&#xff1a; 1、进入页面 2、页面内的各种功能设计 &#xff08;1&#xff09;文章表格 &#xff08;2&#xff09;删除按钮 &#xff08;3&#xff09;编辑按钮 &#xff08;4&#xff09;发表文章按钮 &#xff08;5&#xff09;所有分类下拉框 &a…

微软的新模拟器将为 Windows on Arm 带来更多游戏

微软正在测试一项重大的 Windows on Arm 更新&#xff0c;以便让更多 x64 软件和游戏在配备高通 Snapdragon X Elite 或 X Plus 处理器的 Copilot Plus PC 上的 Prism 仿真下运行。 该功能是 Windows 11 Insider Preview Build 27744 的一部分&#xff0c;已向 Canary Channel …

NVR小程序接入平台/设备EasyNVR多品牌NVR管理工具/设备汇聚公共资源场景方案全析

随着信息技术的飞速发展&#xff0c;视频监控已经成为现代社会安全管理和业务运营不可或缺的一部分。特别是在公共资源管理方面&#xff0c;视频监控的应用日益广泛&#xff0c;涵盖了智慧城市、智能交通、大型企业以及校园安防等多个领域。NVR小程序接入平台EasyNVR作为一款功…

从单层到 MVC,再到 DDD:架构演进的思考与实践

引言 在日常开发中&#xff0c;我们之前工作中经常接手的大多数都是传统 MVC 架构体系的项目。然而&#xff0c;随着现在分布式和微服务架构的普及&#xff0c;越来越多的项目开始重构、拆分&#xff0c;传统的 MVC 架构也逐渐向 DDD 架构演进。为什么需要将传统架构重构为 DD…

CDN到底是什么?

文章目录 CDN到底是什么&#xff1f;一、引言二、CDN的基本概念1、CDN的定义2、CDN的作用3、代码示例&#xff1a;配置CNAME记录 三、CDN的工作原理1、请求流程2、代码示例&#xff1a;DNS解析过程3、完整的CDN工作流程 四、总结 CDN到底是什么&#xff1f; 一、引言 在互联网…

uniapp—android原生插件开发(3Android真机调试)

本篇文章从实战角度出发&#xff0c;将UniApp集成新大陆PDA设备RFID的全过程分为四部曲&#xff0c;涵盖环境搭建、插件开发、AAR打包、项目引入和功能调试。通过这份教程&#xff0c;轻松应对安卓原生插件开发与打包需求&#xff01; 一、打包uniapp资源包&#xff1a; 打包…

嵌入式采集网关(golang版本)

为了一次编写到处运行&#xff0c;使用纯GO编写&#xff0c;排除CGO&#xff0c;解决在嵌入式中交叉编译难问题 硬件设备&#xff1a;移远EC200A-CN LTE Cat 4 无线通信模块&#xff0c;搭载openwrt操作系统&#xff0c;90M内存

IDEA中maven更新pom文件后使其生效(自动 + 手动)

pom文件更新后默认是不生效的&#xff0c;需要手动刷新maven&#xff0c;即点击Reload Project&#xff0c;注意尽量不要用最上面那个Reload all project&#xff0c;这样的话刷新会很慢&#xff0c;因为会对整个项目Reload Project 如果懒得每次手动Reload&#xff0c;那么可…

单调栈—acwing

一、题目&#xff1a; AcWing 830. 单调栈 - AcWing 暴力算法思想 双指针算法&#xff0c;本质上是比较操作&#xff0c;两个循环&#xff0c;时间复杂度高。通过栈可以一次遍历。 可以知道&#xff0c;只要前面有一个小于我的数&#xff0c;就可以。如果前面的数&#xff…

Linux内核中IRQ Domain的结构、操作及映射机制详解

往期内容 本专栏往期内容&#xff0c;interrtupr子系统&#xff1a; 深入解析Linux内核中断管理&#xff1a;从IRQ描述符到irq domain的设计与实现 pinctrl和gpio子系统专栏&#xff1a; 专栏地址&#xff1a;pinctrl和gpio子系统 编写虚拟的GPIO控制器的驱动程序&#xff1a;…

C++ 继承:代码传承的魔法棒,开启奇幻编程之旅

文章目录 一.继承的概念及定义1.1继承的概念1.2继承类1.2.1继承方法 1.3继承模板 二.基类和派生类的转换三.继承中的作用域四.派生类的默认成员函数4.1默认成员函数的行为4.2实现一个无法被继承的类 五.继承与友元六.继承与静态成员七.多继承和菱形继承7.1多继承和菱形继承7.2虚…

无人车之编队控制算法篇

一、编队控制算法概述 无人车编队控制算法旨在实现多辆无人车之间的协同行驶&#xff0c;保持预定的队形和间距&#xff0c;以应对各种复杂环境和任务需求。该算法通常包括队形生成、队形保持、队形变换和编队模式切换等关键步骤。 二、编队控制算法的核心要素 队形生成&…

【大数据学习 | kafka高级部分】kafka的数据同步和数据均衡

1. 数据同步 通过上图我们发现每个分区的数据都不一样&#xff0c;但是三个分区对外的数据却是一致的 这个时候如果第二个副本宕机了 但是如果是leader副本宕机了会发生什么呢&#xff1f; 2. 数据均衡 在线上程序运行的时候&#xff0c;有的时候因为上面副本的损坏&#xff…

计算机网络——TCP篇

TCP篇 基本认知 TCP和UDP的区别? TCP 和 UDP 可以使用同一个端口吗&#xff1f; 可以的 传输层中 TCP 和 UDP在内核中是两个完全独立的软件模块。可以根据协议字段来选择不同的模块来处理。 TCP 连接建立 TCP 三次握手过程是怎样的&#xff1f; 一次握手:客户端发送带有 …