南开大学与字节跳动研究人员推出开源AI工具ChatAnything:用文本描述生成虚拟角色

news2024/10/2 16:24:36

南开大学与字节跳动研究人员合作推出了一项引人注目的研究,发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型(LLM)的角色的拟人化形象,从而创造具有定制视觉外观、个性和语调的人物。

简答的说,ChatAnything是一个创新的产品,利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念,用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集,通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入,为用户提供创造独特虚拟角色的自由度。

图片

研究团队充分利用了LLMs的上下文学习能力,通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音(MoV)和扩散混合(MoD),以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调,根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法,简化了生成交互式对象的过程。

然而,研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战,即这些对象通常无法被预先训练的面部关键点检测器检测到,导致面部运动生成失败。为了解决这个问题,他们在图像生成过程中引入了像素级的引导,注入人脸关键点,显著提高了面部关键点检测率,从而实现了基于生成的语音内容的自动面部动画。

图片

研究人员在论文中详细讨论了大型语言模型(LLMs)的最新进展以及它们在上下文学习方面的能力,将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成,他们利用LLMs的上下文学习能力,使用文本到语音(TTS)API创建了一个声音模块池,MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块,包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制,创建了一个模块化和灵活的系统。为了验证引导扩散的有效性,研究人员创建了一个包含不同类别提示的验证数据集,并使用预训练的面部关键点检测器评估了面部关键点检测率,展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案,并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1241281.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

越南服务器租用:企业在越南办工厂的趋势与当地(ERP/OA等)系统部署的重要性

近年来,越南逐渐成为全球企业布局的热门目的地之一。许多企业纷纷选择在越南设立工厂,以利用其低廉的劳动力成本和优越的地理位置。随着企业在越南的扩张,对于当地部署ERP系统或OA系统等的需求也日益增长。在这种情况下,租用越南服…

lv11 嵌入式开发 FS4412开发环境搭建 8

目录 1 开发板硬件资源介绍 2 初始原理图 3 交叉开发环境搭建 3.1 在ubuntu下安装交叉编译工具链 3.2 在windows下安装SecureCRT 3.3 在windows下安装USB转串口驱动 3.4 下载测试程序 4 硬件控制原理 4.1 地址映射表 4.2 查看数据手册 1 开发板硬件资源介绍 …

transformer之KV Cache

一、为什么要研究KV Cache 非常有效的加速推理速度,效果如下所示: import numpy as np import time import torch from transformers import AutoModelForCausalLM, AutoTokenizer NAME_OR_PATH r*************** device "cuda" if torch.cu…

人工智能-循环神经网络的简洁实现

循环神经网络的简洁实现 如何使用深度学习框架的高级API提供的函数更有效地实现相同的语言模型。 我们仍然从读取时光机器数据集开始。 import torch from torch import nn from torch.nn import functional as F from d2l import torch as d2lbatch_size, num_steps 32, 35…

如何利用工业以太网网关实现上位机无线控制plc?

Modbus TCP/IP 是对成熟的 Modbus 协议的改编, 因其开放性、简单性和广泛接受性而在工业自动化系统中发挥着举足轻重的作用。它作为连接各种工业设备的通用通信协议,包括可编程逻辑控制器 (PLC)、远程终端单元 (RTU) 和传感器。它提供标准化的 TCP 接口&…

使用Python的turtle模块创建一幅哆啦A梦

1.1引言: 在Python中,turtle模块是一个非常有趣且强大的工具,它允许我们以一个可视化和互动的方式学习编程。通过调用各种命令,我们可以引导turtle画出一个指定的图形。在本博客中,我们将使用turtle模块来绘制一幅哆啦…

NX二次开发UF_CAM_set_lower_limit_plane_tag 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CAM_set_lower_limit_plane_tag Defined in: uf_cam_planes.h int UF_CAM_set_lower_limit_plane_tag(tag_t object_tag, tag_t target_tag ) overview 概述 Set the tag of a …

华大基因认知障碍基因检测服务,助力认知障碍疾病防控

认知障碍是一种严重的神经系统疾病,对人类的脑健康产生了重大影响。据报告显示,在我国65岁以上的人群中,存在轻度认知障碍的患者约为3,800万,而中重度痴呆患者则约为1,500万,患病人口数量庞大。这种疾病不仅会对患者的…

nc命令记录

nc是什么 image-20231122074312187 nc是netcat的简写,是一个功能强大的网络工具,有着网络界的瑞士军刀美誉。nc命令在linux系统中实际命令是ncat,nc是软连接到ncat。 目录 nc是什么目录常用命令1、网络连通性测试和端口扫描 tcp测试udp测试…

文件的上传

文件上传方便用户将本地文件传输到互联网上的应用程序或网站中,实现信息的共享和传递。它不仅提供了便捷的数据传输方式,还增强了用户的体验,使用户能够轻松分享个人创作、照片、视频、文档等内容。同时,文件上传也促进了远程协作…

Linux常用命令——blockdev命令

在线Linux命令查询工具 blockdev 从命令行调用区块设备控制程序 补充说明 blockdev命令在命令调用“ioxtls”函数,以实现对设备的控制。 语法 blockdev(选项)(参数)选项 -V:打印版本号并退出; -q:安静模式; -v&…

免费多域名SSL证书

顾名思义,免费多域名SSL证书就是一种能够为多个域名或子域提供HTTPS安全保护的证书。这意味着,如果您有三个域名——例如example.com、example.cn和company.com,您可以使用一个免费的多域名SSL证书为所有这些域名提供安全保障,而无…

【LeetCode】每日一题 2023_11_23 HTML 实体解析器(调库/打工)

文章目录 刷题前唠嗑题目:HTML 实体解析器题目描述代码与解题思路 结语 刷题前唠嗑 题目:HTML 实体解析器 题目链接:1410. HTML 实体解析器 题目描述 代码与解题思路 func entityParser(s string) (ans string) {return strings.NewRepla…

【Java工具篇】Java反编译工具Bytecode Viewer

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

ps软件下载PS2024正式版下载安装教程 ps新功能25.0 AI创成式填充中文版本ps2024神经滤镜平面设计摄影后期修图软件Adobe Photoshop2024下载

Photoshop简称“PS”,是一款常用和功能强大的图像处理软件。主要处理以像素所构成的数字图像。使用其众多的编修与绘图工具,可以有效地进行图片编辑工作。PS有很多功能,在图像、图形、文字、视频、出版等各方面都有涉及。 一、PS软件下载 1、…

【双指针】有效三角形的个数

有效三角形的个数 611. 有效三角形的个数 - 力扣(LeetCode) 题目描述 给定一个包含非负整数的数组 nums ,返回其中可以组成三角形三条边的三元组个数。 示例 1: 输入: nums [2,2,3,4] 输出: 3 解释:有效的组合是: 2,3,4 (使用第一个 2…

Mybatis-Plus3.0默认主键策略导致自动生成19位长度主键id的坑

码字不易,如果对您有用,求各位看官点赞关注~ 原创/朱季谦 目前的Mybatis-Plus版本是3.0,至于最新版本是否已经没有这个问题,后续再考虑研究。 某天检查一位离职同事写的代码,发现其对应表虽然设置了AUTO_INCREMENT自…

第95步 深度学习图像目标检测:Faster R-CNN建模

基于WIN10的64位系统演示 一、写在前面 本期开始,我们学习深度学习图像目标检测系列。 深度学习图像目标检测是计算机视觉领域的一个重要子领域,它的核心目标是利用深度学习模型来识别并定位图像中的特定目标。这些目标可以是物体、人、动物或其他可识…

事关Django的静态资源目录设置与静态资源文件引用(Django的setting.py中的三句静态资源(static)目录设置语句分别是什么作用?)

在Django的setting.py中常见的三句静态资源(static)目录设置语句如下: STATICFILES_DIRS [os.path.join(BASE_DIR, static_list)] # 注意这是一个列表,即可以有多个目录的路径 STATIC_ROOT os.path.join(BASE_DIR, static_root) STATIC_URL /static-url/本文介…

气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品

简介: 气候变化和人类活动对中国植被固碳的贡献量化数据月度合成产品包括中国2001~2018年地表短波波段反照率、植被光合有效辐射吸收比、叶面积指数、森林覆盖度和非森林植被覆盖度、地表温度、地表净辐射、地表蒸散发、地上部分自养呼吸、地下部分自养呼吸、总初级…