6 序列数据和文本的深度学习

news2024/12/23 15:30:05

6.1 使用文本数据

        文本是常用的序列化数据类型之一。文本数据可以看作是一个字符序列或词的序列。对大多数问题,我们都将文本看作词序列。深度学习序列模型(如RNN及其变体)能够从文本数据中学习重要的模式。这些模式可以解决类似以下领域中的问题:

  • 自然语言理解;
  • 文献分类;
  • 情感分类。

        这些序列模型还可以作为各种系统的重要构建块,例如问答(Question and Answering,OA)系统。
        虽然这些模型在构建这些应用时非常有用,但由于语言固有的复杂性,模型并不能真正理解人类的语言。这些序列模型能够成功地找到可执行不同任务的有用模式。将深度学习应用于文本是一个快速发展的领域,每月都会有许多新技术出现。我们将会介绍为大多数现代深度学习应用提供支持的基本组件。
        与其他机器学习模型一样,深度学习模型并不能理解文本,因此需要将文本转换为数值的表示形式。将文本转换为数值表示形式的过程称为向量化过程,可以用不同的方式来完成,概括如下:

  • 将文本转换为词并将每个词表示为向量;
  • 将文本转换为字符并将每个字符表示为向量;
  • 创建词的 n-gram 并将其表示为向量。

        文本数据可以分解成上述的这些表示。每个较小的文本单元称为token,将文本分解成 token 的过程称为分词(tokenization)。在Python 中有很多强大的库可以用来进行分词一旦将文本数据转换为 token序列,那么就需要将每个 token 映射到向量。one-hot(独热)编码和词向量是将 token 映射到向量最流行的两种方法。图6.1总结了将文本转换为向量表示的步骤。

        下面介绍分词、n-gram 表示法和向量化的更多细节。

6.1.1 分词

        将给定的一个句子分为字符或词的过程称为分词。诸如spaCy等一些库,它们为分词提供了复杂的解决方案。让我们使用简单的Python函数(如split和list)将文本转换为 token。
        为了演示分词如何作用于字符和词,让我们看一段关于电影Thor:Ragnarok 的小评论。我们将对这段文本进行分词处理:
        The action scenes were top notch in this movie. Thor has never been this epic in the MCUHe does some pretty epic sh*t in this movie and he is definitely not under-powered anymore.Thor in unleashed in this, I love that.

        1. 将文本转换为字符

        Python的list函数接受一个字符串并将其转换为单个字符的列表。这样做就将文本转换为了字符。下面是使用的代码和结果:

thor review="the action scenes were top notch in this movie.
Thor hasnever been this epic in the McU.
He does some pretty epic sh*t in thismovie and 
he is definitely not under-powered anymore.
Thor in unleashed inthis,I love that."
Print(list(thor_review))

        以下是结果:

        结果展示了简单的 Python 函数如何将文本转换为token。

        2. 将文本转换为词

        我们将使用 Python 字符串对象函数中的 split 函数将文本分解为词。split 函数接受一个参数,并根据该参数将文本拆分为 token。在我们的示例中将使用空格作为分隔符。以下代码段演示了如何使用 Python 的 split 函数将文本转换为词:

print(Thor_review.split())

        在前面的代码中,我们没有使用任何的分隔符,默认情况下,split 函数使用空格来分隔。

        3. n-gram表示法

        我们已经看到文本是如何表示为字符和词的。有时一起查看两个、三个或更多的单词非常有用。n-gram是从给定文本中提取的一组词。在n-gram中,n表示可以一起使用的词的数量。看一下bigram(当n=2时)的例子,我们使用 Python 的 nltk 包为 thor_review 生成一个 bigram ,以下代码块显示了 bigram 的结果以及用于生成它的代码:

from nltk import ngrams
print(list(ngrams(thor_review.split(),2)))

        ngrams 函数接受一个词序列作为第一个参数,并将组中词的个数作为第二个参数。以下代码块显示了 trigram 表示的结果以及用于实现它的代码:

print(list(ngrams(thor_review.split(),3)))

        在上述代码中唯一改变的只有函数的第二个参数n的值。
        许多有监督的机器学习模型,例如朴素贝叶斯(NaiveBayes),都是使用n-gram来改善它的特征空间。n-gram同样也可用于拼写校正和文本摘要的任务。
        n-gram 表示法的一个问题在于它失去了文本的顺序性。通常它是和浅层机器学习模型一起使用的。这种技术很少用于深度学习,因为 RNN 和 Conv1D 等架构会自动学习这些表示法。

6.1.2 向量化

        将生成的 token 映射到数字向量有两种流行的方法,称为独热编码和词向(wordembedding,也称之为词嵌入)。让我们通过编写一个简单的Python 程序来理解如何将 token 转换为这些向量表示。我们还将讨论每种方法的各种优缺点。

        1. 独热编码

        在独热编码中,每个 token 都由长度为N的向量表示,其中N是词表的大小。词表是文档中唯一词的总数。让我们用一个简单的句子来观察每个 token 是如何表示为独热编码的向量的。下面是句子及其相关的 token 表示:

         An apple a day keeps doctor away said the doctor.

       上面句子的独热编码可以用表格形式进行表示,如下所示。

        该表描述了 token 及其独热编码的表示。因为句子中有9个唯一的单词,所以这里的向量长度为9。许多机器学习库已经简化了创建独热编码变量的过程。我们将编写自己的代码来实现这个过程以便更易于理解,并且我们可以使用相同的实现来构建后续示例所需的其他功能。以下代码包含 Dictionary类,这个类包含了创建唯一词词表的功能,以及为特定词返回其独热编码向量的函数。让我们来看代码,然后详解每个功能:

class Dictionary(object):
    def _init_(self):
        self.word2idx={}
        self.idx2word =[]
        self.length=0
    def add_word(self, word):
        if word not in self.idx2word:
            self.idx2word.append(word)
            self.word2idx[word]=self.length + 1
            self.length +=1
        return self.word2idx[word]
    def _len_(self):
        return len(self.idx2word)
    def onehot_encoded(self,word):
        vec =np.zeros(self.length)
        vec[self.word2idx[word]] = 1
        return vec

        上述代码提供了3个功能。

  • 初始化函数_init_创建一个 word2idx 字典,它将所有唯一词与索引一起存储。idx2word 列表存储的是所有唯一词,而 length 变量则是文档中唯一词的总数。
  • 在词是唯一的前提下,add_word 函数接受一个单词,并将它添加到 word2idx 和 idx2word 中,同时增加词表的长度。
  • onehot_encoded函数接受一个词并返回一个长度为N,除当前词的索引外其余位置全为0的向量。比如传如的单词的索引是2,那么向量在索引2处的值是1,其他索引处的值全为0。

        在定义好了 Dictionary 类后,准备在 thor_review 数据上使用它。以下代码演示了如何构建 word2idx 以及如何调用 onehot_encoded 函数:

die = Dictionary()
for tok in thor_review.split():
    dic.add_word(tok)
print(dic.word2idx)

        上述代码的输出如下:

        单词were的独热编码如下所示:

        独热表示的问题之一就是数据太稀疏了,并且随着词表中唯一词数量的增加,向量的大小迅速增加,这也是它的一种限制,因此独热很少在深度学习中使用。

        2. 词向量

        词向量是在深度学习算法所解决的问题中,一种非常流行的用于表示文本数据的方式。词向量提供了一种用浮点数填充的词的密集表示。向量的维度根据词表的大小而变化。通常使用维度大小为50、100、256、300,有时为 1000 的词向量。这里的维度大小是在训练阶段需要使用的超参数。
        如果试图用独热表示法来表示大小为 20000 的词表,那么将得到 20000 x 20000 个数字,并且其中大部分都为0。同样的词表可以用词向量表示为 20000 x 维度大小,其中维度的大小可以是 10、50、300等。
        一种方法是为每个包含随机数字的 token 从密集向量开始创建词向量,然后训练诸如文档分类器或情感分类器的模型。表示 token 的浮点数以一种可以使语义上更接近的单词具有相似表示的方式进行调整。为了理解这一点,我们来看看图6.2,它画出了基于 5 部电影的二维点图的词向量。

        图6.2显示了如何调整密集向量,以使其在语义上相似的单词具有较小的距离。由于Superman、Thor 和 Batman 等电影都是基于漫画的动作电影,所以这些电影的向量更为接近,而电影 Titanic 的向量离动作电影较远,离电影Notebook 更近,因为它们都是浪漫型电影。
        在数据太少时学习词向量可能是行不通的,在这种情况下,可以使用由其他机器学习算法训练好的词向量。由另一个任务生成的向量称为预训练词向量。下面将学习如何构建自己的词向量以及使用预训练词向量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1868881.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python实训day5

1、 from ming import getconn conn getconn("gaoming") print() sql [("select * from dept", ()),#"dept"的表中选择所有列("delete from person where sid<%s", (4,)),#删除"person"表中"sid"列小于4的记…

WinForm 关闭指定的窗体

在需要关闭某一个不是当前窗体的时候&#xff0c;一般需要先实例化该窗体才能使用关闭方法&#xff0c;但是实例化的时候这个窗体就又创建了一次导致关不掉。 根据窗体名称关闭指定的窗体&#xff1a; Application.OpenForms["窗体名字"].Close(); PS: this.Invoke…

MySQL理解-下载-安装

MySQL理解: mysql:是一种关系型数据库管理系统。 下载&#xff1a; 进入官网MySQLhttps://www.mysql.com/ 找到download 滑动到最下方&#xff1a;有一个开源社区版的链接地址&#xff1a; 然后就下载完成了 安装&#xff1a; 双击&#xff1a; 一直next 一直next这一步&…

Centos7创建mysql容器

Centos7创建mysql容器 目录 Centos7创建mysql容器安装Docker安装Mysql镜像创建Mysql容器进入容器并执行命令远程连接授权扩展&#xff1a;为Mysql做文件映射 安装Docker 确保你的宿主机上安装了Docker&#xff0c;可以参考文章&#xff1a;Centos7安装Docker 安装Mysql镜像 …

手机越用越慢?试试这4个秘籍,让手机流畅如新

智能手机作为日常生活的得力助手&#xff0c;最初总是以惊人的速度和流畅性给我们留下深刻印象。 但你有没有发现&#xff0c;随着时间的推移&#xff0c;手机似乎开始变得不那么敏捷&#xff0c;甚至出现了反应迟缓和卡顿的情况&#xff1f; 别让这个问题困扰你,下面是四个关…

内网穿透小工具

内网穿透小工具 前言 当在本地或者虚拟机&#xff0c;内网搭建了项目&#xff0c;数据库。可是在外网无法访问。下面的两款小工具可以暂时实现内网穿透能力。&#xff08;不支持自定义域名&#xff0c;但是不限制隧道数量&#xff01;且免费&#xff01;免费&#xff01;免费…

宝塔面板之 wwwroot修改不了权限

宝塔使用Apache环境&#xff0c;搭建网站出现 You don’t have permission to access this resource.Server unable to read h出错时的解决办法 今天由于某些原因导致我宝塔 在Apache和Nginx运行环境下不断切换&#xff0c;结果我网站全部不能正常打不开了 结果我发现原本宝塔…

RHCE这玩意儿好考吗,到底有没有用?

在信息技术领域&#xff0c;各类认证层出不穷&#xff0c;而其中最受关注之一的就是RHCE&#xff08;Red Hat Certified Engineer&#xff09;。作为全球领先的开源解决方案提供商&#xff0c;红帽公司推出的认证体系因其高标准和实际应用价值而备受认可。RHCE认证不仅是对个人…

高校外卖点餐系统

摘 要 随着互联网的快速发展&#xff0c;外卖点餐已经成为人们生活中的一部分。为了满足高校学生的需求&#xff0c;本文设计和实现了一个基于Java Web的高校外卖点餐系统。该系统采用B/S架构&#xff0c;使用Java语言和SSM框架进行开发&#xff0c;前端使用Vue框架进行设计。…

560.滑动窗口最大值

滑动窗口最大值 239. 滑动窗口最大值 - 力扣&#xff08;LeetCode&#xff09; 题目大意&#xff0c;返回每个窗口内的最大值。 思路-优先队列 优先队列&#xff08;堆&#xff09;&#xff0c;其中的大根堆可以实时维护一系列元素中的最大值。 每当我们向右移动窗口时&#…

vscode中快捷生成自定义vue3模板

需求描述 新建 vue 文件后&#xff0c;需要先写出 vue3 的基础架构代码&#xff0c;手动输入效率低下&#xff01; 期待&#xff1a;输入 v3 按 Tab 即刻生成自定义的vue3模板&#xff08;如下图&#xff09; 实现流程 vscode 的设置中&#xff0c;选择 用户代码片段 输入 vue…

windows远程桌面你会了吗?

1、当你发现正常连接无法连接时&#xff1f; 试试以管理员身份连接 mstsc /admin /v:IP 2、当本机与远程桌面分辨率不一致时? 指定分辨率连接&#xff0c;如1920*1080 mstsc /w:1920 /h:1080 /v:IP 适应本机分辨率连接 mstsc /span /v:IP 3、当远程连接的端口不是3389…

边缘计算VNC智能盒子如何助力HMI设备实现二次开发?

HMI&#xff08;Human-Machine Interface&#xff09;又称人机界面&#xff0c;是用户与机器之间交互和通信的媒介。今天带你了解智能盒子如何助力HMI设备实现二次开发&#xff1f; HMI设备被广泛应用在工业自动化中&#xff0c;具有显示设备信息&#xff0c;实时监测&#xf…

高德.js2.0绘制多条折线(轨迹)及清除所有折线

2.0版本的地图,需要绘制多条折线的时候,就需要循环生成,因此也需要循环清除 for (let j 0; j < combinedArray.length; j) {const item combinedArray[j];this.polyline new AMap.Polyline({map: this.map,path: item,showDir: true,strokeColor: "#28F", //线…

海豚调度调优 | 如何解决任务被禁用出现的Bug

&#x1f4a1; 本系列文章是 DolphinScheduler 由浅入深的教程&#xff0c;涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。 祝开卷有益。 本系列教程基于 DolphinScheduler 2.0.5 做的优化。&#xff…

将某列缺失分隔符的文字读入 Excel

有个逗号分隔的 txt&#xff0c;共 10 列&#xff0c;第 3 列有时候缺少分隔符&#xff0c;导致该列缺失&#xff0c;数据不齐只剩 9 列。比如最后两行&#xff1a; 01-0104-0133,MAYO, RONIE #2,202403,2024-03-21 22:51:43.000,1449.49,0.00,0.00,08,6CC6BDAC7E45 17-1782-02…

MyBatis-在分步查询的基础上配置懒加载

Hibernate中&#xff0c;涉及到关联查询的时候&#xff0c;懒加载是默认就开启着的&#xff0c;前面讲过设计懒加载就是&#xff0c;在关联查询中&#xff0c;真正需要用到关联的对象的时候&#xff0c;才发起sql语句&#xff0c;从数据库中查询数据&#xff0c;从而实现提升数…

Django安装与启动

1、Django是什么&#xff1f; 基于python的Web开发框架&#xff0c;支持用户快速开发安全、可维护的网站 2、怎么安装&#xff1f; pip install Django4.2 3、如何启动&#xff1f; 不写ip和端口时候&#xff0c;默认启动http://127.0.0.1:8000/ python .\manage.py runse…

uniapp开发H5、手机APP、微信小程序 可拖动菜单按钮

ml-fab 插件地址&#xff1a;https://ext.dcloud.net.cn/plugin?id18909 1、可拖拽悬浮按钮 ml-fab&#xff0c;支持自定义插槽&#xff0c;点击可展开一个图标按钮菜单&#xff0c;可随意拖拽。 2、支持自定义插槽&#xff0c;可实现自定义配置。 3、操作简单易上手。 ml-f…

197.回溯算法:复原IP地址(力扣)

代码解决 class Solution { public:// 存储最终结果的向量vector<string> result;// 判断字符串s从start到end范围内的子串是否是一个合法的IP地址段bool isValid(const string& s, int start, int end){if (start > end) {return false; // 起始位置大于结束位置…