【古诗生成AI实战】之五——加载模型进行古诗生成

news2024/11/28 16:53:31

  回顾上一篇博客,我们已经成功地训练了我们的模型,并将其保存下来。这是一个重要的里程碑,因为训练好的模型是我们进行文本生成的基础。

  现在,接下来的步骤是加载这个训练好的模型,然后使用它来生成古诗。

  本章的内容属于文本生成阶段。在这一阶段,我将详细介绍古诗生成的代码实现。这部分是项目中非常激动人心的一环,因为我们将看到我们的模型如何利用先前学习的知识来创造出新的古诗文本。让我们一起深入探索古诗生成的过程,并理解背后的技术细节。

在这里插入图片描述

[1] 开始生成

  生成的代码仍然和模型训练很相像,只是在文本生成时需要额外写些代码。整体代码如下:

def create_trainer(wrapper):
    # 分词器, 模型
    model = wrapper.model

    args = TrainingArguments(
        './checkpoints',  # 模型保存的输出目录
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
    )

    trainer = Trainer(
        model,
        args
    )
    return trainer

def softmax( f ):
    # 坏的实现: 数值问题
    return np.exp(f) / np.sum(np.exp(f))


def main():
    # ##
    # @通用配置
    # ##
    with open('config.yaml', 'r', encoding='utf-8') as f:
        conf = yaml.load(f.read(), Loader=yaml.FullLoader)
        conf_pre = conf['pre']
        conf_sys = conf['sys']

    # 系统设置初始化
    System(conf_sys).init_system()

    # 初始化任务加载器
    Task = TASKS[conf_pre['task_name']]()
    data = Task.get_train_examples(conf_pre['dataset_url'])


    # 初始化数据预处理器
    Processor = PROCESSORS[conf_pre['task_name']](data, conf_pre['max_seq_len'], conf_pre['vocab_path'])
    tokenizer = lambda text: Processor.tokenizer(text, add_end=False)
    vocab = Processor.vocab

    # 初始化模型包装配置
    wrapper_config = WrapperConfig(
        tokenizer=tokenizer,
        max_seq_len=conf_pre['max_seq_len'],
        vocab_num=len(Processor.vocab),
        word2vec_path=conf_pre['word2vec_path']
    )
    x = import_module(f'main.model.{conf_pre["model_name"]}')
    wrapper = NNModelWrapper(wrapper_config, x.Model)

    trainer = create_trainer(wrapper)

    wrapper.model.load_state_dict(torch.load(conf_pre['model_save_dir'] + conf_pre['task_name'] + '/' + conf_pre['model_name'] + '/' + 'pytorch_model.bin', map_location=torch.device('cpu')))
    poem = '天'
    l = len(poem)

    for i in range(l, 32):
        test_data = Task.get_single_examples(poem)
        test_dataset = wrapper.generate_dataset(test_data, labeled=False)
        output = trainer.predict(test_dataset=test_dataset)[0][0]
        # 逐字生成
        pred = output[i]
        pred = softmax(pred)
        pred /= np.sum(pred)
        sample = np.random.choice(np.arange(len(pred)), p=pred)
        # sample = np.argmax(pred)
        if sample > len(vocab):
            new_word = ' '
        else:
            # vocab通过键查找key
            new_word = vocab[sample]
        poem += new_word

    print(poem)

  在这部分内容中,我们将探讨如何使用预训练的模型来生成文本,例如古诗。整个过程包括以下步骤:

  * 从config.yaml文件中加载配置。
  * 初始化系统设置和任务加载器task
  * 加载数据并初始化数据预处理器processor
  * 创建模型包装配置WrapperConfig
  * 动态加载模型类并创建NNModelWrapper实例。
  * 创建训练器trainer,用于预测。
  * 加载预训练的模型权重。
  * 生成文本:从初始文本(例如“天”)开始,逐字生成新的文本,直到达到指定长度(如32个字符)。

  在文本生成部分,关键步骤包括:
  * 使用模型预测下一个字符的概率分布。
  * 应用softmax函数得到标准化的概率分布。
  * 从概率分布中随机抽取下一个字符(或选择概率最高的字符)。
  * 将新字符添加到现有文本中,并重复上述过程。

[2] 生成模式

  在古诗生成的过程中,我们可以采用几种不同的生成模式:

  1. 补词生成:输入古诗的前几个字,然后让模型补齐剩余部分。
  2. 无词生成:不输入任何前缀,直接让模型生成完整的古诗。
  3. 藏头诗:输入四个字ABCD,手动在第1、9、17、25个位置赋值A、B、C、D,其余部分由模型生成。

[3] 展望

在这里插入图片描述

  在评价生成的古诗质量时,我们需要考虑以下几个关键因素:

  · 语境连贯(Context Coherence):生成的文本应逻辑上与上下文相符,并贯穿始终保持一致性。
  · 主题相关(Topic Relevance):内容应与预定的主题或主旨相关。
  · 新颖性(Novelty):文本应引入新颖、创造性或创新元素。
  · 风格化(Stylization):文本应展示特定的风格或审美质量。
  · 情感化(Sentimentalization):文本应有效且恰当地表达情感。

  高质量的文本生成,尤其是在诗歌这样的创意领域,不仅仅是串联词语那么简单。它必须在语境连贯、主题相关、创新性、风格和情感深度等多个层面上产生共鸣。

  本实战项目只提供了基础的古诗生成功能,在以上这些注意点上并没有过多探究。如果想更进一步研究和提升生成文本的质量,可以参考相关的学术论文进行深入研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1256768.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI4S Cup学习赛-中枢神经系统药物研发:药物筛选与优化

赛题介绍 链接:Bohrium 案例广场 (dp.tech) 中枢神经系统类疾病长期以来存在着重要的临床未满足需求。据统计,在当前人口老龄化趋势下,阿兹海默(AD)、帕金森病(PD)等神经退行性疾病和脑癌、中…

ATK-ESP8266 WIFI模块串口通信通用实现方案

ATK-ESP8266 WIFI模块是一种常用的无线模块,它可以通过串口与外部设备进行通信,实现数据的收发和控制。本文将介绍一种通用的实现方案,帮助您在项目中使用ATK-ESP8266 WIFI模块进行串口通信。 【方案概述】 这个通用实现方案涵盖了ATK-ESP82…

探索 Rollup:简化你的前端构建流程

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

SCI一区级 | Matlab实现GWO-CNN-LSTM-selfAttention多变量多步时间序列预测

SCI一区级 | Matlab实现GWO-CNN-LSTM-selfAttention多变量多步时间序列预测 目录 SCI一区级 | Matlab实现GWO-CNN-LSTM-selfAttention多变量多步时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现GWO-CNN-LSTM-selfAttention灰狼算法优化卷积长短…

Java8实战-总结49

Java8实战-总结49 CompletableFuture:组合式异步编程对多个异步任务进行流水线操作构造同步和异步操作将两个 CompletableFuture 对象整合起来,无论它们是否存在依赖 CompletableFuture:组合式异步编程 对多个异步任务进行流水线操作 构造同…

jdk17安装全方位手把手安装教程 / 已有jdk8了,安装JDK17后如何配置环境变量 / 多个不同版本的JDK,如何配置环境变量?

🧸欢迎来到dream_ready的博客,📜相信您对博主首页也很感兴趣o (ˉ▽ˉ;) 学生邮箱白嫖/免费安装JetBrains全家桶(IDEA/pycharm等) —— 保姆级教程 目录 1、下载jdk17 2、安装jdk17 3、配置环境变量 -> 电脑无其他jdk 4、…

Windows安装Python环境(V3.6)

文章目录 一:进入网址:https://www.python.org/downloads/ 二:执行安装包 默认C盘,选择自定义安装目录 记得勾选add python path 下面文件夹最好不要有 . 等特殊符号 可以创建 python36 如果安装失败Option可以选默认的&#x…

IDEA DeBug

文章目录 01_Debug简介和意义02_IDEA中的Debug步骤03_跳转到当前代码执行的行04_步过调试的使用05_步入调试的使用06_强制步入调试的使用07_步出调试的使用08_回退断点调试的使用09_运行到光标处10_计算表达式11_条件断点12_多线程调试 01_Debug简介和意义 什么是程序DeBug&am…

PCIE链路训练-状态机描述4

Recovery Recovery.RcvrLock (1)如果link是在8.0GT/s或以上的速率工作,那么rx只会认为当前lane获得Block alignment之后收到的TS0,TS1,TS2是有效的。如果进入当前状态是从L1或recovery.speed或L0s,获取Blo…

STK Components 二次开发-地面站传感器

上一篇我们说了创建地面站,那么这次我们在地面站添加一些特效。 1. 创建地面站 var locationPoint1 new PointCartographic(m_earth, new Cartographic(Trig.DegreesToRadians(117.17066), Trig.DegreesToRadians(31.84056), 240.359)); m_facility new Platfor…

大型网站系统架构演化(Web)

大型网站系统架构演化 大型网站系统架构演化需要关注的维度涉及的技术演进过程单体架构垂直架构使用缓存改善网站性能缓存与数据库的数据一致性问题缓存技术对比Redis分布式存储方案Redis集群切片的常见方式Redis数据类型Redis 淘汰算法 大型网站系统架构演化 需要关注的维度 …

【虚拟机Ubuntu 18.04配置网络】

虚拟机Ubuntu 18.04配置网络 1.配置网络连接方式,查看自己网关 2.修改主机名 3.修改系统配置1.配置网络连接方式,查看自己网关 选择虚拟机镜像设置网络连接模式,可以选择桥接或者NAT连接(我这里选择是NAT连接) 确定自己网关,可以在虚拟机 -》 编辑 -》虚拟网络编…

Android 10.0 mtp模式下连接pc后显示的文件夹禁止删除copy重命名功能实现

1.前言 在10.0的系统开发中,usb连接pc端的时候有好几种模式,在做otg连接pc端的时候,改成mtp模式的时候,在pc端可以看到产品设备 的显示的文件夹的内容,对于产品设备里面的文件在pc端禁止做删除重命名拷贝等操作功能的实现 2.mtp模式下连接pc后显示的文件夹禁止删除copy重命…

微信小程序开发学习——小程序基本架构

1.创建一个包含:首页、咨询、关于我们 3个标签的小程序,每个标签都有对应的页面、图标和标签文字。 知识点:app.json文件对小程序进行全局配置,同名.json文件对本窗口进行配置 app.json属性: pages用于指定小程序由哪…

sql语句在字段中使用select

有两个表如下;产品表,产品评论表; 查询全部产品信息和每种产品的评论数量; 这也是子查询的一种; select * from product1; select * from comment; SELECT product1.*,(select count(id) from comment where product1…

docker打包前端镜像

文章目录 一、构建镜像二、查看本地镜像三、启动容器四、查看启动的容器五、保存镜像六、读取镜像七、创建镜像八、最后 docker官网 一、构建镜像 -t是给镜像命名,.(点)是基于当前目录的Dockerfile来构建镜像 docker build -t image_web .二、查看本地镜像 docke…

nodejs微信小程序+python+PHP-婚纱摄影预约系统的设计与实现-安卓-计算机毕业设计

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

Ubuntu:安装VSCode

参考博客Ubuntu下安装VSCODE_ubuntu安装vscode-CSDN博客中的第二种方式【安装包方式安装】,即可,安装非常easy~~~ 安装包方式安装: 1. 从VSCode官网下载最新版的deb安装包: https://code.visualstudio.com/Download,…

手把手教会你--github的学习--持续更新

有什么问题,请尽情问博主,QQ群796141573 前言1.1 使用过程(1) 进入某个项目(2) 点击某个文件(3) 在源码区域下面(4) 源码区的头顶上 1.2 作者的其他项目1.3 搜索1.4 复制别人的代码(即项目)到自己的空间内1.5 上传自己的Bugs(bushi1.6 在线修改文件1.7 评…

JVM——垃圾回收算法(垃圾回收算法评价标准,四种垃圾回收算法)

目录 1.垃圾回收算法发展简介2.垃圾回收算法的评价标准1.吞吐量2.最大暂停时间3.堆使用效率 3.垃圾回收算法01-标记清除算法垃圾回收算法-标记清除算法的优缺点 4.垃圾回收算法02-复制算法垃圾回收算法-复制算法的优缺点 5.垃圾回收算法03-标记整理算法标记整理算法的优缺点 6.…