提升大模型内容创作能力

news2024/9/22 4:06:19

前言

现在的大模型能够创作一些故事、小说等等,但是大多数时候创作出来的剧情都是泛泛而谈,并没人给读者很爽的感觉。近期已经有一些工作开始在该方面进行发力,即让大模型做内容消费,如果大模型能够源源不断的创作出好的剧情来供读者消费,那是非常不错的赛道。

本次笔者就介绍两篇最新的paper供大家参考,他们一个共同的思路都是去利用挖掘好已有的优秀作品,甚至请一些专业编剧合作完成。

论文链接:

《Ex3》:https://arxiv.org/pdf/2408.08506

《SKYSCRIPT-100M》:https://arxiv.org/pdf/2408.09333

其中第二篇其实更强调镜头、关键信息的创作(因为其聚焦的是短视频创作)

Ex3

该篇主要就是聚集如何创作一篇爽点密集、逻辑一致性长篇小说。看完整个paper后,笔者感觉其整个思路就是把map-reduce理念应用到极致即先分为处理然后聚合处理最终达到写长篇小说。

其整个框架一共分为三块如下,其中Extract、Excelsior是在制作训练样本进行训练;Expand是在inference推理阶段做了一些事情。下面我们来一个个模块看。

  • Extract

如上图所示,以小说每一段为一个最小单位然后进行分组,但是分组的逻辑是基于语义的,而不是按照字数。具体来说就是会计算所有相邻段落之间的语义相似度,当某两个段落之间突然出现较低相似度,那么就以此进行分割分组。

同时小说基本天然都会有目录结构,这些信息也是一个粗粒度的分割,于是我们就可以在每一章节下先进行分组,然后各个组进行聚合就可以得到当前这一章节的摘要

可以看到上图展示了一个章节6的摘要聚合过程。

同理有了各个章节的摘要,那么我们就可以再向上聚合出更高层次的大纲直到得到整个小说的一个摘要。

可以看到作者整个过程是从低到高、从下到上不断分块总结处理,然后向上聚合。

插曲:总结摘要的时候为了保证关键信息的存在以及整个故事的完整,作者特意还做了一个实体抽取,保住关键人物等等。具体可以看Entity Extraction一节。

  • Excelsior

经过上一步我们已经抽取得到了各个结构化的数据,这一步就是要组合成真真的训练样本来训练模型

可以看到其实就是把上述各个聚合过程都进行了prompt反向化组成训练样本,进行训练,确保了模型能够在各个粒度(章节等等)进行创作。

  • Expanding

用上面数据训练后的模型具备各种粒度的创作能力,那么最后该如何创作一部完整的长篇小说呢?小说再次按照从高到低的思路进行创作,比如先创作章节,再创作细节,且会利用前面的剧情作为铺垫。

关于更多的一些细节和case,大家感兴趣可以去看附录。

  • 总结

可以看到作者在训练和推理阶段都是用map-reduce的思想,通过对小说进行解刨然后进行训练,再反向创作。

SKYSCRIPT-100M

该工作其实是聚焦做短视频,而做短视频底层需要的也是一个好的剧本甚至要细到镜头描写。所以一个好的剧本是一个短视频能否火的关键,为此作者挖掘生成了一个SKYSCRIPT-100M数据集,专门聚焦剧本创作。不过目前数据集还没开源,可以期待一波。

github: https://github.com/vaew/SkyScript-100M

  • 关键信息预提取

由于其是想从视频这个源提取脚本,那第一步肯定是要想办法将视频转化为文本,为了减少人力,作者这里使用多模态大模型先做了一个预提取。这里对比很多多模态大模型,最终选择了InternVL2-Llama3-76B。作者也给出了提取prompt,输出的格式是json。

并给出了一些抽取的case

需要注意的是作者专门做了“Continuous Emotion”的抽取即对于关键人物的情绪等变化。

  • 关键信息清理和像素化

经过上面抽取的信息可能还是存在格式等方面的错误,于是需要再清洗一遍具体来说就是用gpt4再来润色一遍,作者也给出了相应的prompt

同时为了安全等,作者对图像进行了模糊处理

  • 关键物体检测

基于前面识别出的物体名称和关键词组成一个开放词汇列表,连同像素化图片一起输入到开放词汇检测模型中,以便进一步标定物体位置。

  • 主角信息的后期处理

为了进一步细化和校准人物信息,作者进一步使用了Deepface对人脸进行检测并标注其在整帧中的位置,用于后续模型对人物二维位置的理解。而且还对主角的年龄、性别、情感和民族进行预测,以使人物的信息更加完整。总的来说就是更加细化补充各种关键信息。

  • 数据校准

让12名专业短剧编剧对数据进行最后的校准。

  • 创作视频

有了上面的数据,就可以直接输入给视频模型进行创作了,不同于传统的拍摄(需要完整剧情等等),这里更需要关键信息的描述即上面的所做的抽取。

总结

(1)对于短视频的创作,镜头等描写很关键,而且只写了一些关键人物等等,脚本剧情本身的冲击感不强,而对于创作小说来说文字本身的刺激感更关键,所以根据最终产品形态的不同侧重点不同,那么可以利用挖掘的数据源也不一样。

(2)AIGC本身还是做内容消费,如果模型能够持续不断的创作好内容(不论是搞笑、段子等等),那都可以有一席之地!

关注笔者

知乎,csdn,github,微信公众号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2069913.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

幅频特性曲线分析及使用WPF绘制

文章目录 1、一阶惯性环节的幅频特性曲线分析及绘制2、二阶系统的幅频特性曲线分析及绘制3、一般的系统4、上位机代码实现4.1 一阶惯性系统4.2 二阶系统 5、稳定裕度5.1 幅值裕度5.2 相角裕度 参考 1、一阶惯性环节的幅频特性曲线分析及绘制 这里的a和b可以根据系统的不同修改,…

Ubuntu 22.04上稳定安装与配置搜狗输入法详细教程

摘要:本教程详细介绍了如何在Ubuntu 22.04上安装和配置搜狗输入法,每个步骤详细配图。由于在Ubuntu 24.04上存在兼容性问题,建议用户继续使用稳定的22.04版本。教程涵盖了从更新系统源、安装fcitx输入法框架,到下载和配置搜狗输入…

12、stm32通过dht11读取温湿度

一、配置 二、代码 dht11.c /** dht11.c** Created on: Aug 19, 2024* Author: Administrator*/#include "main.h" #include "tim.h" #include "usart.h" #include "gpio.h" /**TIM3定时器实现us级延时*/ void Delay_us(uint16…

谷歌登录的时候,要求在手机的通知点是,并按数字来验证身份,但是手机通知栏没有收到通知和数字,原因是什么,怎么办?

前两天,有个朋友联系到GG账号服务,说他的一个谷歌账号在新设备登录的时候,提示说要在手机的通知栏点击谷歌发来的通知,点击是确认,并且要点按相应的数字。 但问题是他反复刷新手机的通知栏都没有看到谷歌发来的通知&a…

谷粒商城实战笔记-255~256-商城业务-消息队列-SpringBoot整合RabbitMQ

文章目录 一,Spring整合RabbittMq的步骤二,AmqpAdmin使用1. createExchange()2. testCreateQueue()3. createBinding()4,发送消息 这一部分讲解Spring整合RabbitMq的步骤及其使用,包括: 255-商城业务-消息队列-SpringB…

Tita的OKR :产品经理的OKR

产品经理制定的OKR,对组织发展有重大的意义,它能促使产品经理,产品团队,乃至是公司全体员工走出舒适区,超越能力边界。正因为挑战的存在,才使得产品经理才有忧患意识,不断改进产品,从…

【操作系统】10.虚拟内存管理有什么不同?

2.虚拟内存管理有什么不同? 2.1 虚拟内存的基本概念 虚拟内存的概念 具有请求调入和置换功能,从逻辑上对内存容量加以扩充的一种存储器系统 局部性原理 时间局部性 空间局部性 虚拟内存的特征 多次性 对换性 虚拟性 2.1.1 虚拟内存的实现 请求分页存储管…

了解一点电池的工作原理,让它们更好地为我们工作。【手机充电小技巧】(影响电池寿命的主要因素:过充、过放以及高温)

文章目录 引言I 充电小技巧,充分发挥电池性能随充随用都行充电时移除某些保护壳不正常的持续发烫,建议停止充电及时拔掉充电器或者关闭插座电源长期存放时,请保持一半电量。电池健康自动管理II 电池的工作原理快充为便捷,慢充保寿命。锂离子电池以充电周期方式工作,让充电更…

网络层 I(网络层的功能)【★★★★★★】

(★★)代表非常重要的知识点,(★)代表重要的知识点。 一、 路由与转发(★★) 路由器主要完成两个功能: 1. 路由选择 【(确定哪一条路径)根据路由选择协议构…

从零开始搭建Aliyun ESC高可用集群 (HaVip+KeepAlived)

从零开始搭建Aliyun ESC高可用集群 (HaVip+KeepAlived) 架构 架构 本设计方案采用两台阿里云ECS服务器搭建Keepalived结合LVS的高可用集群。使用LVS的TUN模式进行负载均衡,同时利用阿里云的弹性IP(EIP)与高可用虚拟HaVIP实现跨服务器的高可用性。架构中,一台ECS服务器作为…

一文彻底理解大模型 Agent 智能体原理和案例

1 什么是大模型 Agent ? 大模型 Agent,作为一种人工智能体,是具备环境感知能力、自主理解、决策制定及执行行动能力的智能实体。简而言之,它是构建于大模型之上的计算机程序,能够模拟独立思考过程,灵活调…

防火墙基础概念与实验配置

目录 1.防火墙简介 1.1 什么是防火墙? 1.2 防火墙的功能 1.3 防火墙的类型 2.防火墙配置实验 2.1 基本要求 2.2 实验top 3.实验配置 3.1 基础配置 3.1.1 基础配置 3.1.2 安全域配置 3.1.3 配置安全策略 3.1.4 配置NAT 3.1.5 trust->dmz 3.1.6 端口…

代码随想录算法训练营day27 | 贪心算法 | 455.分发饼干、376.摆动序列、53.最大子序和

文章目录 理论基础解题步骤455.分发饼干思路小结 376.摆动序列简单思路贪心思路 53.最大子序和思路 今天是贪心算法的第一天 理论基础 贪心的本质是选择每一阶段的局部最优,从而达到全局最优 在理论上,能使用贪心解决的问题有两个特点:具有…

buuctf [HDCTF2019]Maze

前言:做题笔记。 常规 下载 解压 查壳 脱壳后用32IDA Pro打开。 得,迷宫类型的题目。(字符串有说。) 咳,此前思路对半分不行了。。。 合理猜测步数为:14。 那可以看看7 * 10的迷宫类型。(手动猜测的时候去取倍数如:0 2…

什么牌子的蓝牙耳机性价比高?2024年四款最值得买王牌耳机推荐!

在当前的手机备件市场中,蓝牙耳机已经逐渐成为智能手机备件的热门之选。然而,面对众多的耳机品牌和型号,消费者在选购时可能会感到困惑,稍微不留言就会买到不专业产品,那么什么牌子的蓝牙耳机性价比高?作为…

STM32的串口通信——HAL库

TTL串口 TTL串口仅仅需要两根数据线就可以进行串口通信: ①一条是从A设备发送的IO口连接到B设备的接收IO口 ②一条是从B设备发送的IO口连接到A设备的接收IO口 ③共地(GND)是两个设备通信的前提(保证他们的电平标准一致&#x…

使用css如何获取最后一行的元素?使用css解决双边框问题

一、项目场景: 在小程序上需要实现一个如下图的ui效果图 需要满足以下条件 一行放不下 自动换行最后一行或者只有一行时,文字底部不能有线 二、初版实现 按照上面的要求,最开是的实现代码如下 我是给每一个元素都添加了一个下边框&#x…

Python酷库之旅-第三方库Pandas(095)

目录 一、用法精讲 406、pandas.DataFrame.index属性 406-1、语法 406-2、参数 406-3、功能 406-4、返回值 406-5、说明 406-6、用法 406-6-1、数据准备 406-6-2、代码示例 406-6-3、结果输出 407、pandas.DataFrame.columns属性 407-1、语法 407-2、参数 407-3…

楼顶气膜羽毛球馆:城市健身新空间—轻空间

随着城市化进程的加快,城市土地资源愈发紧张,如何高效利用有限的空间成为一大挑战。楼顶气膜羽毛球馆作为一种创新的体育场馆建设方式,凭借其独特的优势,逐渐成为城市健身的新宠。它不仅有效利用了楼顶闲置空间,还为市…

新160个crackme - 039-eKH.1

运行分析 需要破解Name和Serial,写出注册机 PE分析 - Delphi程序,32位,无壳 静态分析&动态调试 ida搜索关键字符串,跳转到关键代码 静态分析,修改变量如上,关键在于sub_427A20函数返回值需要大于等于1…