豆包大模型视觉、语音能力升级!文生图更懂“国风”,TTS“拿捏”情绪

news2025/1/6 19:18:31

2024 火山引擎 AI
创新巡展・成都站于近日正式举办。活动现场发布了豆包・图生图模型,以及升级版的豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。

本文介绍了升级版文生图、语音合成、声音复刻模型特征,包括图像生成方面更深刻理解主客体关系、空间构造等特点,语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。

日均 tokens 使用量突破 5000 亿——近日,2024 火山引擎 AI 创新巡展・成都站上,豆包大模型最新进展对外公布。一同发布的,还有豆包・图生图模型,以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。

今年 5 月,字节跳动发布豆包大模型家族。据后续第三方 FlagEval 大模型评测平台发布的榜单显示,豆包大模型(Doubao-Pro-4k)在闭源大模型的“客观评测”中,以综合评分 75.96 分排名第二,仅次于 GPT-4 ,是得分最高的国产大模型。在“主观评测”中,豆包大模型同样排名第二。

2 个多月过去,平均每家企业客户日均大模型 tokens 使用量较发布时增长了 22 倍。爆发式增长的背后,也是豆包大模型模型能力和应用效果受到认可的体现。

豆包大模型团队为本次发布的主要能力提供了技术支持,本文将介绍这些主要能力细节,解读背后涉及的技术内核。

1.更懂“国风”的文生图模型

本次文生图模型升级能力体现在三个方面:

其一,新一代模型能够深度理解复杂 prompt ,包括多主体、反现实、主客体关系等内容,图文匹配更精准。

在这里插入图片描述

prompt:摄影作品,超现实主义,电影质感,一只超级巨大的猫咪,陆家嘴,超级可爱,躺在上海的街头,小汽车,猫咪和大楼一样高,和马路一样宽,堵住了马路,马路上很多车辆来来往往,汽车和猫爪一样大

其二,模型也更善于从光影明暗、氛围色彩和人物美感三个方向提升画面质感。

prompt:大卫雕像,站在草地上,扔铅球的姿势,石膏材质,在现代奥运会场馆内,史诗般的构图,超精细,完美的光照

其三,强化中国特色内容,能够对中国元素,包括中国人物、物品、朝代、地理、美食、节日等精准理解。

团队认为,此次发布模型的“中国风”生成能力是最大亮点。我们使用了原生双语 LLM + 数据,实现了精准的中国元素生成。

prompt:一个国风女孩穿着清朝的服装,眼神灵动,鼻子自然且好看,头上戴着黄金头饰,复杂的纹理,皇后,红色的袍子上面是龙和凤凰的刺绣,复杂的图案,珍珠项链,下雪,金色的指套,红色的大门和城墙

prompt:一个中国古代女侠,指向前方,侧身侧脸,表情凝重,中景镜头,风沙,(背后许多剑都朝手指的方向飞去:1.4 ),史诗般的构图,中式玄幻,细腻的皮肤,写实风格,景深,摄影艺术,极致的细节,阴影,电影海报,胶片噪点,低饱和度

prompt:电影质感,摄影作品,哈苏,极简主义,意境构图,大面积留白,雾凇,一座苏州园林里,树梢挂满了雾凇,超高质量,超精细,最佳质量,禅意,东方意境

prompt:classic red and white,细线条,水墨写意,含苞待放的梅花上有落雪,天气极寒,一个穿着清朝斗篷的女人,在巨大的梅花树下斜倚着,吹笛子,忧伤的思绪,担心笛声会惊扰梅花

为使模型实现能力提升,团队进行了多方面准备。

在数据上,团队持续加强数据 Re-caption 能力,对数据进行精确打标以实现对数据质量更高把控。面向大批量数据进行管理和处理,团队还对训练集群稳定性也进行了优化。

文本理解模块,团队采用原生双语大语言模型作为文本编码器,显著提升对中文的理解能力。它能拥有更广泛的世界知识并对不同语言已经形成基础认知,换而言之,无论面对中文特色用语,还是英语俚语,语言模型都能提供更准确的 Text Embedding ,让模型能够精准的学习原始的文化元素。

部署推理方面,团队使用蒸馏方式,解决模型推理耗时问题,以实现在更低部署环境下,完成高质量的图片生成。从数据上看,他们将原有模型生成图像步数简化,消耗时长压缩到原有 40%。

最后,团队还规划了更全面、准确的维度以评价图片生成质量,其中包括:结构准确度、画质、图像美感、图文一致性、内容创造、复杂度适应性等。即便是同维度中,团队还会通过主体准确性、多主体准确性、动作数量等维度对生成效果进行评价。

除却文生图模型,本次发布还包含图生图模型,不仅能高度保留原图的人物轮廓、表情、空间结构等多维特征,还支持 50 余种不同风格,支持图片扩展、局部重绘和涂抹玩法,让图片进行创意延展。现已应用于抖音、剪映、豆包、星绘等应用,并已服务于三星、努比亚等企业,涵盖了手机相册、工具助手、电商营销、广告投放等多个领域。

2.让数据自己“说话”的语音基座模型

**
语音同样是本次发布重点,包括升级版豆包・语音合成模型和豆包・声音复刻模型。

**

其中,语音合成模型能深度理解故事情节和人物角色,正确表达情绪,还能保留吞音、口音等发音习惯,媲美真人音色,让发声更自然。团队针对 26 个精品音色进行了更精细的把控,以支持各种细分场景下专业主播需求,落地方向包括现场主持、播音、直播等场景。

与之相对,豆包・声音复刻模型则支持 5 秒复制高保真音色,高度还原说话人声音特征和口音,支持跨 6 大语种迁移,发音更接近于当地人表达。这一模型面向于“学习任一角色声音”,复刻能力更好,甚至连说话人的口癖好也能学习到。

注:声音复刻“太白金星”效果展示

上述两个模型的底层技术,都关联 Seed-TTS 。

这是一个语音生成基座模型。与传统 TTS 面向单一任务不同,Seed-TTS 能够建模各种声音,且允许同时从很多个维度进行操控,比如方言,真人口癖,甚至吞字这类语音上的瑕疵。

至于大模型如何学习“吞音”、“口音”、“口癖”的原理,团队认为,传统的 TTS 使用特定建模,针对模型框架、模型时长、能量分布、音调分布进行设计,注入了人类的先验性,没能很好反映数据特征。但大模型能“让数据自己说话”。

本身大模型就拥有建模并提取大数据特征的能力,使得语音特征得以保留,再加上 RL 、数据增强、更好的文本标注、文本表征,强化了特定层面的表现。

比如“哈哈”二字,在不同语境有截然不同的意思和表达方式,Seed-TTS 可以通过上下文理解不同场景的意思,以学习到不同场景的对应表达方式。同理,TTS 模型也能实现深度理解故事情节和人物角色,正确表达情绪。

_注:语__音合成中更多情绪表达展示

_

具体实现方面,Seed-TTS 针对语言模型系统,主要解决了语音的 tokenize 和稳定性问题。

目前市面上,连续和离散的 tokenizer 都有,团队通过研究探索发现,token 包含信息的设计,对整个模型各方面表现及稳定性有非常关键的影响,这既包括 token 的信息、帧率等,也包括如何 tokenize ,以及如何将其再变回声音。

语言模型稳定性方面,团队在 token ,模型设计,解码策略,数据准备上进行了多方面的探索,真正做到了工业及应用的要求。

对于纯 Diffusion 系统,由于去掉了额外的时长模型,其难点同样集中在稳定性上。经过多方的尝试,团队在该链路也实现了很好指标。

研究工作外,为支持本次升级发布,豆包大模型语音团队还在算法层面进行迭代,包括增加可控性、表现力和稳定性。在工程上,团队参与降低了运算量,还与工程同学一起 Debug ,确保实际效果和 Demo 一致。

3.团队持续关注并致力于解决大模型底层问题

回顾语音大模型领域发展,团队认为,传统 TTS 、ASR 等任务研究彼此分隔,落地到不同领域和场景中也相应要做适配和调整,随着大模型浪潮来临,各种任务从底层融合,才是大势所趋。

过去的研究显示,人脑学习语言和发音是通过经验和不断模仿,这一过程中,“听”与“说”两者同等重要,对机器也一样。

如果说 TTS 模型是机器的“嘴巴”,那 ASR 模型则对应“耳朵”,一个掌管发声,一个负责听见及理解,但两者的内核都依赖于对声音和文本信息的特征提取。

与之对应,豆包大模型团队在语音方向已经先后公布了 Seed-TTS、Seed-ASR 两个模型。其中,Seed-ASR 技术报告近期才对外披露,它能利用 LLM 丰富的知识,整体提升 ASR 识别结果的准确性,在多个领域、多种语言、方言、口音综合评估集上,Seed-ASR 比其他端到端模型表现出显著改进。目前,相关技术也已集成到豆包・语音识别模型中。

关于 TTS 模型和 ASR 模型的融合探索工作,团队已在进行中。

至于文生图方面的展望,豆包大模型视觉团队认为,Stable Diffusion 发布至今已过去 2 年,业内有很多新技术和插件涌现,比如 LoRA 、ControlNet 、Adapter ,也有 DiT 架构和更为强大的语言模型。团队透露,基于 DiT 架构的文生图 2.0 版本即将上线,新版本将比当前模型生成效果高 40% ,图文一致性和美感也有大幅提升。

同时,文生图领域目前仍有一些底层问题没有很好地被解决,也将是团队未来努力的方向。

一方面,模型对事件的理解能力需要进一步提升,具体来说,图文匹配能力,是文生图技术发展的核心。

另一方面,文生图需要更好的可控编辑生成能力,即便 ControlNet、Adapter,目前仍有缺陷,该问题的解决能为应用落地带来更广阔可能性。

最后是社会责任问题,文生图模型需要从公平性、安全性、消除偏见等方面进一步提升,以对社会公众更负责。

从文生图的 DiT 架构升级,到语音模型的“ All-in-One ”,我们希望持续吸引目标远大、有志于“用科技改变世界”的优秀人才加入团队,贡献创新性想法,并一同参与这些底层问题的解决与突破中。

那么,如何系统的去学习大模型LLM?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~
在这里插入图片描述

篇幅有限,部分资料如下:
👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点,扫盲必看!
在这里插入图片描述
💥既然要系统的学习大模型,那么学习路线是必不可少的,这份路线能帮助你快速梳理知识,形成自己的体系。
在这里插入图片描述

👉大模型入门实战训练👈

💥光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例,这些案例覆盖了金融、医疗、教育、交通、制造等众多领域,无论是对于大模型技术的研究者,还是对于希望了解大模型技术在实际业务中如何应用的业内人士,都具有很高的参考价值。 (文末领取)
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。

在这里插入图片描述

👉LLM大模型学习视频👈

💥观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 (文末领取)
在这里插入图片描述

👉640份大模型行业报告👈

💥包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

👉获取方式:
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1971924.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3千米以上音视频键鼠延长解决方案:KVM光纤延长器

KVM光纤延长器​​​​​​​是什么? KVM光纤延长器是一种使用光纤来传输键盘、视频和鼠标(KVM)信号的设备,由发送端和接收端组成,一般成对使用。它可以让用户在远离电脑的地方如同在本地一样方便快捷的操作电脑。 KV…

Java码农人生使用手册——类和对象

一、类的定义和使用 类是用来对一个实体(对象)来进行描述的。 注意: 类名采用大驼峰定义 二、类的实例化 定义了一个类,就相当于在计算机中定义了一个新的类型,用类的类型创建对象的过程,称为类的实例化。 …

《从U-Net到Transformer:深度模型在医学图像分割中的应用综述》论文阅读

网络首发地址:https://link.cnki.net/urlid/51.1307.tp.20231026.1648.002 摘要: U-Net以卷积神经网络(CNN)为主干,其易于优化促使在医学图像分割领域的发展, 但只擅长获取局部特征,缺乏长期相…

大模型三种模式Embedding、copilot、Agent

大模型的三种应用模式——Embedding、Copilot、Agent——代表了不同级别的智能化和自动化程度,以及与人类用户的交互方式。下面是每种模式的具体解释: 嵌入模式(Embedding Mode) 定义:在嵌入模式中,大模型…

Tomcat部署——个人笔记

Tomcat部署——个人笔记 文章目录 [toc]简介安装配置文件WEB项目的标准结构WEB项目部署IDEA中开发并部署运行WEB项目 本学习笔记参考尚硅谷等教程。 简介 Apache Tomcat 官网 Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中…

虚拟机Windows server忘记密码解决方法

原理 utilman.exe是Windows辅助工具管理器程序,‌虽然它本身不是一个关键的系统进程,‌但通过修改这个文件,‌用户可以访问一些有用的UI设置。‌在某些情况下,‌比如忘记密码需要重置时,‌通过修改utilman.exe文件为c…

别再羡慕别人了!学会这四招,你的视频也能爆红网络

现在的短视频剪辑实在是太火爆了,动不动打开抖音刷一下就两三个小时过去了,每天被这短视频洗脑慢慢地身边也越来越多人自学视频的剪辑,所以,作为自学多年的的自媒体打工人,好用的剪辑软件还是要推荐给大家的&#xff1…

包拯断案 | 数据库从库复制延迟引发高可用风险 怎么破@还故障一个真相

提问:作为DBA运维的你是否遇到过这些烦恼 1、数据库从库复制出现了延迟,是什么原因导致的? 2、延迟引发了高可用风险,应该如何处理? 心中有章,遇事不慌 作为DBA的你,遇到问题无从下手&#xf…

【轨物方案】评估光伏组件发电性能一致性方案

光伏电站建设后运行周期长达二十多年,对于电站运营者来说,基础设施的稳定、安全、高效的运行是至关重要的。然而从近些年光伏的发展过程中看到,在电站规划到后期运维整个过程中可能存在着诸多问题,如设备选型不当、施工建设质量差…

RHCSA第一次作业

目录 1、创建以上目录和文件结构,并将/yasuo目录拷贝4份到/目录下 2、查看系统合法shell 3、查看系统发行版版本 4、查看系统内核版本 5、临时修改主机名 6、为/yasuo/ssh_config文件创建软链接/ssh_config.link到/mulu下 7、创建目录/mulu ,重命名并移动/ss…

Linux用户-su命令

作者介绍:简历上没有一个精通的运维工程师。希望大家多多关注我,我尽量把自己会的都分享给大家,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。 Linux是一个多用户多任务操作系统,这意味着它可以同时支持多个用户登录并使用系统。…

【前端面试题】后端一次性返回10w条数据,该如何渲染?

后端一次返回 10w 条数据,本身这种技术方案设计就不合理。 问题分析: JS 支持处理10w 条数据,但 DOM 一次渲染 10w 条数据,可能会卡顿,所以需想办法减少 DOM 渲染 若非要实现,则可以考虑以下两种方案 自…

「测试线排查的一些经验-上篇」 后端工程师

文章目录 端口占用脚本失灵线上部署项目结构模版配置文件生效 一般产品研发过程所使用的环境可分为: 研发环境-dev测试环境-test生产环境-prod 软件开发中,完整测试环境包括:UT、IT、ST、UAT UT Unit Test 单元测试 IT System Integration …

《C语言程序设计 第4版》笔记和代码 第十二章 数据体和数据结构基础

12.1从基本数据类型到抽象数据类型 1 所有的程序设计语言都不能将所有复杂数据对象作为其基本数据类型,因此需要允许用户自定义数据类型,在C语言中,就存在构造数据类型(复合数据类型)。 2 结构体是构造数据类型的一种…

使用Openvino部署C++的Yolov5时类别信息混乱问题记录

使用Openvino部署C的Yolov5时类别信息混乱问题记录 简单记录一下。 一、问题描述 问题描述:在使用Yolov5的onnx格式模型进行C的Openvino进行模型部署时,通过读取classes.txt获得类别信息时,出现模型类别混乱,或者说根本就不给图…

【原创】java+swing+mysql学分管理系统设计与实现

个人主页:程序员杨工 个人简介:从事软件开发多年,前后端均有涉猎,具有丰富的开发经验 博客内容:全栈开发,分享Java、Python、Php、小程序、前后端、数据库经验和实战 开发背景: 随着信息技术的…

嵌入式单片机中在线调试工具使用方法

大家好,相信很多小伙伴都听说过,或者用过SystemView这款工具。 它是一个可以在线调试嵌入式系统的工具,它可以分析RTOS有哪些中断、任务执行了,以及这些中断、任务执行的先后关系。 还可以查看一些内核对象持有和释放的时间点,比如信号量、互斥量、事件、消息队列等,这在…

Vue3 form表单赋值后,input输入框无法输入

1.使用reactive初始化数据: 需要用一个对象包裹数据,使其变成响应式数据 Form表单及JS中的使用都需要 “paramr.formUser” 进行调用 原因: 使用reactive生成的响应式数据,在直接赋值时把响应式数据给替换为了普通数据了,导致无法监听数据的变化。 2. …

Flutter——权威常用组件demo代码开源

背景 自学的过程中,并记录下来仅供大家一起学习 开源地址:https://github.com/z244370114/flutter_demo