从爱尔兰歌曲到莎士比亚:LSTM文本生成模型的优化之旅

news2025/1/8 5:57:17

上一篇:《再用RNN神经网络架构设计生成式语言模型》

序言:本文探讨了如何通过多种方法改进模型的输出,包括扩展数据集、调整模型架构、优化训练数据的窗口设置,以及采用字符级编码。这些方法旨在提高生成文本的准确性和合理性,同时强调实验和调整对模型设计与优化的重要性。

扩展数据集

你可以很简单地将硬编码数据集的模式扩展为使用文本文件。我已经托管了一个包含大约1700行文本的文件,这些文本从许多歌曲中收集而来,供你进行实验。稍作修改,你就可以使用这个文本文件,而不是单个硬编码的歌曲。

在 Colab 中下载数据,可以使用以下代码:

!wget --no-check-certificate \

https://storage.googleapis.com/laurencemoroney-blog.appspot.com/ \

irish-lyrics-eof.txt -O /tmp/irish-lyrics-eof.txt

然后,你可以像这样将文本加载到你的语料库中:

data = open('/tmp/irish-lyrics-eof.txt').read()

corpus = data.lower().split("\n")

接下来的代码无需修改即可运行!将这个数据集训练1000个epoch后,准确率大约可以达到60%,但增长曲线趋于平缓(图8-7)。

图8-7. 在更大的数据集上进行训练

再次尝试短语“in the town of athy”时,预测结果是“one”,但这次的概率只有40%。

对于“sweet jeremy saw dublin”,预测的下一个词是“drawn”,概率为59%。预测接下来的10个词的结果为:

sweet jeremy saw dublin drawn and fondly i am dead and the parting graceful

结果看起来稍微好了一些!但我们还能进一步改进吗?

调整模型架构

改进模型的一种方法是更改其架构,使用多个堆叠的LSTM层。这非常简单,只需要确保在第一层LSTM中将return_sequences设置为True。以下是代码:

python

Copy code

model = Sequential()

model.add(Embedding(total_words, 8))

model.add(Bidirectional(LSTM(max_sequence_len-1, return_sequences='True')))

model.add(Bidirectional(LSTM(max_sequence_len-1)))

model.add(Dense(total_words, activation='softmax'))

model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

history = model.fit(xs, ys, epochs=1000, verbose=1)

你可以在图8-8中看到这种更改对1000个epoch训练的影响。其结果与之前的曲线没有显著差异。

图8-8. 添加第二层LSTM后的结果

在用之前相同的短语测试时,这次我得到了“in the town of athy”之后的下一个词是“more”,概率为51%;而对于“sweet jeremy saw dublin”,预测下一个词是“cailín”(盖尔语中表示“女孩”的词),概率为61%。不过,再次预测更多单词时,输出很快陷入无意义的混乱。

以下是一些例子:

sweet jeremy saw dublin cailín loo ra fountain plundering that fulfill

you mccarthy you mccarthy down

you know nothing jon snow johnny cease and she danced that put to smother well

i must the wind flowers

dreams it love to laid ned the mossy and night i weirs

如果你得到不同的结果,不用担心,这并不是你的错。随机初始化神经元会影响最终的分数。

用不同的数据窗口

有一个小技巧可以在不添加新歌曲的情况下扩展数据集的大小,这叫做数据的滑动窗口处理。目前,每首歌中的每一行都被视为单独的一行,然后转化为输入序列,如图8-2所示。虽然人类按行阅读歌曲以感受押韵和节奏,但模型并不需要这么做,尤其是在使用双向LSTM时。

因此,与其逐行处理,比如处理“in the town of Athy, one Jeremy Lanigan”后转到下一行“Battered away till he hadn’t a pound”,我们可以将所有行视为一段连续的文本。然后,我们可以在这段文本中创建一个包含n个单词的“窗口”,处理该窗口的内容,再向前移动一个单词来获取下一个输入序列(图8-9)。

图8-9. 移动单词窗口

通过这种方式,可以通过增加输入序列的数量大幅增加训练数据。将窗口滑过整个文本语料库会生成((单词总数 - 窗口大小) × 窗口大小)个输入序列。

代码非常简单——在加载数据时,我们不再将每一行歌曲分割成“句子”,而是动态地从语料库中的单词创建句子:

window_size = 10

sentences = []

data = open('/tmp/irish-lyrics-eof.txt').read()

corpus = data.lower()

words = corpus.split(" ")

range_size = len(words) - window_size

for i in range(0, range_size):

thissentence = ""

for word in range(0, window_size-1):

word = words[i+word]

thissentence = thissentence + word + " "

sentences.append(thissentence)

在这种情况下,由于不再使用完整的句子,而是创建与滑动窗口大小相同的序列,因此max_sequence_len就是窗口的大小。整个文件会被读取,转换为小写,并通过字符串分割生成一个单词数组。代码然后遍历这些单词,从当前索引到当前索引加上窗口大小的范围内生成句子,并将这些新构造的句子添加到句子数组中。

在训练时,你会注意到,由于数据量的增加,每个epoch的训练速度会变慢,但结果会有显著改进,并且生成的文本陷入混乱的速度会明显减缓。

这是一个引起我注意的例子——特别是最后一行!

you know nothing, jon snow is gone

and the young and the rose and wide

to where my love i will play

the heart of the kerry

the wall i watched a neat little town

有很多超参数可以尝试调整。改变窗口大小会影响训练数据的数量——窗口越小,可以生成更多的数据,但用于标签的单词会变少,所以如果设置得太小,最终会得到毫无意义的诗句。你还可以调整嵌入的维度、LSTM的层数或用于训练的词汇表大小。考虑到准确率百分比并不是最好的衡量标准——你可能更需要主观地评估诗句的“合理性”——因此,没有固定规则可以判断你的模型是否“好”。

例如,当我尝试使用窗口大小为6,增加嵌入维度到16,将LSTM的数量从窗口大小(即6)增加到32,并提高Adam优化器的学习率时,我得到了一个平滑的学习曲线(图8-10),而且生成的诗句开始变得更有意义。

图8-10. 调整超参数后的学习曲线

当使用“sweet jeremy saw dublin”作为种子短语(记住,种子中的所有单词都在语料库中)时,我得到了这首诗:

sweet jeremy saw dublin

whack fol

all the watch came

and if ever you love get up from the stool

longs to go as i was passing my aged father

if you can visit new ross

gallant words i shall make

such power of her goods

and her gear

and her calico blouse

she began the one night

rain from the morning so early

oer railroad ties and crossings

i made my weary way

through swamps and elevations

my tired feet

was the good heavens

虽然短语“whack fol”对许多读者来说可能没有意义,但在一些爱尔兰歌曲中它是常见的,类似于“la la la”或“doobie-doobie-doo”。让我特别喜欢的是一些后面的短语似乎有一定的意义,比如“such power of her goods and her gear, and her calico blouse”——但这可能是因为过拟合到语料库中的现有短语。例如,从“oer railroad ties...”到“my tired feet”的部分,直接取自语料库中一首叫《The Lakes of Pontchartrain》的歌曲。如果你遇到类似的问题,最好降低学习率,或减少LSTM的数量。但最重要的是,进行实验并享受其中的乐趣!

字符级编码

在过去的几章中,我们探讨了基于单词的编码进行自然语言处理。我发现它更容易入门,但在生成文本时,你可能也想考虑使用字符级编码,因为语料库中唯一字符的数量通常远少于唯一单词的数量。因此,你的输出层所需的神经元会更少,输出预测的概率也分布得更均匀。

例如,在研究莎士比亚全集的数据集时,你会发现整个数据集中只有65个唯一字符。所以,与在爱尔兰歌曲数据集中需要处理2700个单词的下一个词的概率相比,这里只需要处理65个字符的概率。这使得你的模型更简单!字符编码的另一个好处是标点符号也被包括在内,因此可以预测换行符等。

作为例子,当我使用一个训练在莎士比亚语料上的RNN来预测接在我最喜欢的《权力的游戏》台词之后的文本时,我得到了以下内容:

YGRITTE:

You know nothing, Jon Snow.

Good night, we’ll prove those body’s servants to

The traitor be these mine:

So diswarl his body in hope in this resceins,

I cannot judg appeal’t.

MENENIUS:

Why, ’tis pompetsion.

KING RICHARD II:

I think he make her thought on mine;

She will not: suffer up thy bonds:

How doched it, I pray the gott,

We’ll no fame to this your love, and you were ends

有趣的是,她把他认定为叛徒并想绑住他(“diswarl his body”),但我完全不知道“resceins”是什么意思!如果你看过这部剧,这确实是情节的一部分,所以也许莎士比亚在无意间预见了什么!

当然,当使用像莎士比亚这样的文本作为训练数据时,我们往往会更加宽容,因为这些语言本身就有些陌生。与爱尔兰歌曲模型一样,输出很快会退化为无意义的文本,但这仍然很有趣。

总结

在最近的这三篇中,我们探讨了如何使用基于RNN神经网络的LSTM的模型进行基本的文本生成。你了解了如何将文本拆分为训练特征和标签(以单词为标签),并再次创建了一个生成式模型,当给定种子文本时,可以预测下一个可能的单词。你通过迭代改进模型以获得更好的结果,并探索了传统爱尔兰歌曲的数据集(dataset)。你还了解了一些关于如何通过基于字符的文本生成改进模型的方法,并使用莎士比亚文本进行了示例。希望这对大家理解人工智能模型(这里讲的是机器学习/Machine Learning细分领域模型)如何生成文本是一些有意义的介绍!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2257303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mysql | 尚硅谷 | 第02章_MySQL环境搭建

Mysql笔记:第02章_MySQL环境搭建 说明:本内容整理自尚硅谷B站MySQL视频>>尚硅谷B站MySQL视频 文章目录 Mysql笔记:第02章_MySQL环境搭建第02章_MySQL环境搭建 1. MySQL的卸载步骤1:停止MySQL服务步骤2:[软件](h…

unity 让文字呈现弧度变化

效果: using UnityEngine; using TMPro; using Core;[ExecuteInEditMode] public class TMTextWrap : MonoBehaviour {private TMP_Text m_TextComponent;public AnimationCurve VertexCurve new AnimationCurve(new Keyframe(0, 0), new Keyframe(0.5f, 1), new …

java抽奖系统(一)2.0

1. 项⽬介绍 1.1 背景 随着数字营销的兴起,企业越来越重视通过在线活动来吸引和留住客⼾。抽奖活动作为⼀种有效的营 销⼿段,能够显著提升⽤⼾参与度和品牌曝光率。于是我们就开发了以抽奖活动作为背景的Spring Boot项⽬,通过这个项⽬提供⼀…

【5G】Spectrum 频谱

频谱是移动运营商的关键资产,可用的频谱是定义移动网络容量和覆盖范围的重要因素。本章讨论了5G的不同频谱选项、它们的特性以及5G早期部署阶段的预期频谱。5G是首个旨在利用大约400 MHz到90 GHz之间所有频段的移动无线系统。5G还设计用于在许可、共享和非许可频谱带…

复现论文:PromptTA: Prompt-driven Text Adapter for Source-freeDomain Generalization

github:zhanghr2001/PromptTA: Source-free Domain Generalization 论文:[2409.14163] PromptTA: Prompt-driven Text Adapter for Source-free Domain Generalization 自己标注:PromptTA: Prompt-driven Text Adapter for Source-free Domai…

电子应用设计方案-43:智能手机充电器系统方案设计

智能手机充电器系统方案设计 一、引言 随着智能手机的广泛应用,对充电器的性能、效率和安全性提出了更高的要求。本方案旨在设计一款高效、安全、兼容多种快充协议的智能手机充电器。 二、系统概述 1. 系统目标 - 提供快速、稳定、安全的充电功能。 - 兼容主流的智…

基于springboot+vue实现的项目评审系统 (源码+L文+ppt)4-116

摘 要 相比于以前的传统手工管理方式,智能化的管理方式可以大幅降低运营人员成本,实现了项目评审系统的标准化、制度化、程序化的管理,有效地防止了项目评审的随意管理,提高了信息的处理速度和精确度,能够及时、准确…

深入了解架构中常见的4种缓存模式及其实现

4种缓存模式 随着应用程序的复杂性日益增加,缓存管理变得至关重要。缓存不仅能有效减轻数据库负载,还能显著提升数据访问速度。选择合适的缓存模式能够在不同的业务场景下发挥出最佳效果。 本文将详细介绍四种常见的缓存模式:Cache-Aside (…

【论文阅读】处理器芯片敏捷设计方法:问题与挑战

作者:包云岗老师 包云岗老师是计算机体系结构方向的大牛,推动了体系结构方面的开源事业! 欢迎对本栏目感兴趣的人学习"一生一芯"~ 学习体会: 已有的软硬件生态系统和开发成本制约了对新结构的探索。但目前仍在几种路线上做尝试~ 1…

Android记单词app(包含数据库)

一、功能与要求 实现功能:设计与开发记单词系统的,系统功能包括用户登录、用户注册、单词操作(单词的添加、查询、修改及删除)以及忘记密码等。 指标要求:通过用户登录、用户注册、单词操作、忘记密等功能的设计与开发,掌握Android常用布局、控件的使用、监听器的设置以及…

数据结构与算法学习笔记----树与图的深度优先遍历

数据结构与算法学习笔记----树与图的深度优先遍历 author: 明月清了个风 first publish time: 2024.12.9 pa⭐️这里只有一道题哈哈。 Acwing 846.树的重心 给定一棵树,树中包含 n n n个节点(编号 1 ∼ n 1 \sim n 1∼n)和 n − 1 n - 1 n…

TSWIKI知识库软件

TSWIKI 知识库软件介绍 推荐一个适合本地化部署、自托管的知识库软件 TSWIKI介绍 tswiki 是一个适合小团队、个人的知识库、资料管理的软件,所有数据均本地化存储。可以本地化、私有云部署,安装简单。在线预览。 主要功能说明 1、简化的软件依赖和安…

mid360使用cartorapher进行3d建图导航

1. 添加urdf配置文件&#xff1a; 添加IMU配置关节点和laser关节点 <!-- imu livox --> <joint name"livox_frame_joint" type"fixed"> <parent link"base_link" /> <child link"livox_frame" /> <o…

第四十六篇 Vision Transformer论文翻译

论文连接:https://arxiv.org/abs/2010.11929 GitHub:https://github.com/google-research/vision_transformer 摘要 虽然Transformer架构已成为自然语言处理任务的实际标准,但其在计算机视觉中的应用仍然有限。在计算机视觉中,注意力机制要么与卷积网络结合使用,要么在保…

【VUE2】纯前端播放海康视频录像回放,视频格式为rtsp格式,插件使用海康视频插件

一、需求 1、后端从海康平台拉流视频回放数据&#xff0c;前端进行页面渲染播放&#xff0c;视频格式为rtsp eg&#xff1a; 基本格式&#xff1a;rtsp://<username>:<password><ip_addr>:<port>/<path>参数说明&#xff1a; username&#xff…

STL库中list的使用与迭代器的实现

STL库中list的使用与迭代器的实现 1.使用list中的部分函数assignspliceremoveuniquemeger 2.list的部分功能实现&#xff08;重点&#xff09;框架迭代器的实现 1.使用list中的部分函数 assign 功能一&#xff1a;当前链表的节点全部销毁&#xff0c;替换成迭代区间的值 功能二…

2024年华中杯数学建模C题基于光纤传感器的平面曲线重建算法建模解题全过程文档及程序

2024年华中杯数学建模 C题 基于光纤传感器的平面曲线重建算法建模 原题再现 光纤传感技术是伴随着光纤及光通信技术发展起来的一种新型传感器技术。它是以光波为传感信号、光纤为传输载体来感知外界环境中的信号&#xff0c;其基本原理是当外界环境参数发生变化时&#xff0c…

ETCD的封装和测试

etcd是存储键值数据的服务器 客户端通过长连接watch实时更新数据 场景&#xff1a; 当主机A给服务器存储 name&#xff1a; 小王 主机B从服务器中查name ,得到name-小王 当主机A更改name 小李 服务器实时通知主机B name 已经被更改成小李了。 应用&#xff1a;服务注册与发…

Cesium 问题: 添加billboard后移动或缩放地球,标记点位置会左右偏移

文章目录 问题分析原先的:添加属性——解决漂移移动问题产生新的问题:所选的经纬度坐标和应放置的位置有偏差解决坐标位置偏差的问题完整代码问题 添加 billboard 后, 分析 原先的: // 图标加载 function addStation ({lon, lat, el, testName

进入 Dystopia:第九周游戏指南

本指南将为大家详细说明在第八周的每个体验中可以获得的奖励。 在杂草丛生的反乌托邦废墟中生存&#xff0c;随着大自然重新开垦这片土地&#xff0c;文明已陷入绝望。穿越高耸入云、摇摇欲坠的摩天大楼&#xff0c;抵御末世社会的各种危险。适应这个文明与荒野之间的界限已经消…