一日连发两款视频大模型,火山引擎杀疯了!

news2024/9/27 5:58:05

9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,并首次对外发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两款AI大模型,并公布了多项AI大模型的全新升级,以一种全新的姿态迎接AI时代的到来。

雷科技此次受邀参与巡展,在活动现场就发现了不一样的东西,现场设置了四个不同的展示区,用来展示目前AI大模型在C端最受欢迎的四款应用:AI奇遇、AI音乐、AI智能助手和AI Bot,分别对应娱乐、创作、问答和个性化AI需求四大板块。

图源:雷科技

这一系列的AI应用中,AI Bot受到了许多人的关注,这是一个全新的AI应用开发平台,利用AI大模型的强大理解能力,帮助用户开发专属于自己的AI应用。你不需要懂得编程、调试、DeBug,只需要按部就班地给出自己的需求,剩下的一切AI都会帮你完成。

此前,雷科技上线的小雷Bot就是基于AI Bot打造,利用雷科技过去十年积累的海量文章与评测数据,为读者提供购买咨询、产品问答等多项功能。

而在AI奇遇中,用户可以扮演一个角色,偶遇某些人或故事,通过用户给出的反馈,故事也会发生相应的改变,一切均由AI实时生成,让每个人都有独属于自己的故事。这项技术不仅可以让用户创作出属于自己的故事,同时也能为游戏厂商提供新的创作思路,真正做到千人千面的故事情节塑造。

至于AI问答,大家估计都不陌生,作为AI大模型最早期的应用,豆包对AI问答进行过多轮升级,如今已经支持最高256K的上下文理解,并且能够进行复杂的逻辑推理,满足用户多样化的提问需求。

还差个AI音乐?别急,我们待会再来聊聊。

用AI打破视频创作边界

在视频创作领域,火山引擎及其背后的字节跳动,恐怕是最有发言权的,抖音在全球掀起的全民视频创作热潮,造就了一个全新的互联网视频时代。所以,火山引擎的视频生成模型更关注用户在实际使用时的创作流程和创作效果,而不仅仅是简单地生成画面和动作。

图源:雷科技

火山引擎希望用户可以在视频生成模型中,得到与实际拍摄几乎一致的画面效果。为此他们对视频生成模型进行了大量的优化,基于DiT架构结合高效的DiT融合计算单元,让视频生成模型拥有执行复杂指令的能力,并且能够根据要求进行大动态和运镜的切换,在专业拍摄中常用的变焦、环绕、平摇、缩放、目标跟随等镜头语言效果,大模型都能做到。

借助运镜切换功能,豆包视频生成模型可以真正提供更真实的拍摄效果,并且让创作者更好地展示自己的创意想法,这在以往的视频生成大模型中少见的。

而且,火山引擎还攻克了视频主体在运动时,经常会出现的服装、头饰、光影、风格突变问题。这类问题此前一直困扰视频生成模型用户,因为人们对连贯画面里的突兀变化会更加敏感,所以即使只有些许的差异,也会让观看体验大打折扣,而AI生成的不确定性,让AI视频在这方面的问题显得尤为严重。

对此,火山引擎借助DiT架构的多种特性,让视频生成模型能够对生成的画面元素进行标记,并在后续的生成中时刻保持相关元素的存在。虽然并不能保证完全的一致,但是已经能够最大程度消除明显的服装、配饰、风格变化等问题,确保视频画面不会出现易察觉的BUG。

图源:雷科技

此外,火山引擎还解决了多动作指令互动、人物中途插入等痛点,在现场的演示视频中,就有这样的片段:一个女人生气地看向侧边,然后转头戴上眼镜,此时一个男人出画面边缘进入,拥抱住女人。虽然在传统拍摄中,这是一个很普通的镜头,但是在AI视频里,却要求AI在表情神态、多动作执行、新元素插入等方面都不能出错,才能生成一个合格的视频。

随后火山引擎还展示了多个由豆包视频生成模型制作的AI视频,从多人互动到运动长镜头,都可以在保证视频流畅度的同时确保视频元素的一致和主体风格不变化。在我看来已经完全满足日常的创作需求,如果愿意花更多的时间去打磨,即使是普通人也能坐在家里用AI制作出一部大片。

为了满足更多用户的创作风格需求,火山引擎还引入了深度优化的Transformer结构,大幅度提升了豆包视频生成模型的泛化能力,不仅支持3D动画、2D动画、国画、黑白、厚涂等多种风格,还支持多种比例的视频生成,让模型能够被应用到各个领域。

显然,这也是火山引擎对豆包视频生成模型的期待,成为每一个创作者的助手,让每个人都能创作出属于自己的作品。

豆包AI模型Pro升级

豆包视频生成模型并非巡展中唯一的看点,火山引擎同时还宣布了豆包通用模型、音乐模型等多个模型的全面升级,现在,豆包AI大模型可以给大家在更多领域提供更好的体验。

比如前面提到的AI音乐,在展示区中雷科技就已经体验到了其强大的创作能力,在极短的时间里就能生成一首朗朗上口的音乐,根据要求切换不同的曲风并生成歌词。可以说,豆包音乐生成模型已经成功打通了整个AI音乐的创作链路,普通的创作者不需要再纠结歌词、曲风和演唱效果,只需要说出要求,然后点击生成即可。

虽然现场试用时感觉创作流程非常简单,背后却是火山引擎的「负重前行」,通过对音乐模型的全面升级与优化,结合独特的音乐生成通用架构和全新的解码模型,豆包音乐生成模型能够以秒为单位完成音乐生成,并且呈现出更真实的演唱效果。

图源:雷科技

实话说,在现场聆听演示音乐时,周围不少嘉宾都下意识发出感叹:“这个真的不错”,如果不提前说是AI创作的话,估计不少人会误以为是某个新锐歌手的作品。

从视频到音乐,火山引擎已然攻克了AI创作的两大难关,并且完成了整个AI创作链路的整合:豆包通用模型完成故事脚本、文生图模型完成前期视觉设定、视频生成模型与音乐模型完成作品素材创作,最后再由剪映提供AI智能剪辑支持,让视频创作的门槛与难度得到前所未有地降低。

图源:雷科技

火山引擎还在现场展示了全新的数字人生成应用,仅需数分钟即可完成数字人生成,并在数秒内进行音色克隆。简单的操作就可以让用户得到一个专属数字人,拟真的神态和语气,可以满足直播、在线教学、智能客服对话等多个领域的应用。

此外,豆包的数字人还能与同声传译模型结合,让数字人随时切换不同的语言进行对话,这项功能在现场也引起了许多关注。近年来,出海、海外直播市场已经成为电商生态的另一个支柱,但是能够熟练掌握外语的主播数量却远无法满足市场需求,利用数字人+同声传译模型制作的外语主播,将有望成为市场的新选择,这也是火山引擎向泛领域进军的一个重磅项目。

图源:雷科技

从视频、音乐到数字人,火山引擎正在构建一个涵盖多领域的AI创作生态,推动着AI技术走向更加广泛的行业应用。未来,随着这些技术的持续优化与普及,无论是内容创作者还是企业,都能够在AI生态中找到更高效的创作方式,开启全新的智能化创作时代。

让所有人都能用上AI

为了满足日益高企的AI模型需求,火山引擎一直在升级大模型的承载能力。目前业内多数大模型最高支持300K甚至100K的TPM(每分钟token数),而豆包大模型的默认并发流量标准已经提高到800K TPM,是行业普遍标准的2-8倍以上,并且允许用户灵活扩容。

与业界最高并发流量标准相辅的,还有进一步降低的算力成本。

在会后的采访中,火山引擎CEO谭待提到,火山引擎是业内最早降低算力成本的大模型团队之一,截至目前豆包大模型的算力定价已经低于行业99%,目前定价仅为0.0008元/千Tokens,引领算力成本进入「厘」时代。

谭待认为,只有算力成本降低,才能解锁更多的应用场景,降低开发者的进入门槛,并且减少运营成本支出,才能形成更好的AI应用生态。而且,降低成本也带来了更高的调用量,让大模型获得更好的成长,得以进行快速的迭代升级。

在今年5月份推动降价后,仅4个月的时间豆包调用量就达到每天13000亿次,是5月份的10倍,市场里的AI应用覆盖增长显著,而且火山引擎在降价的同时还在提升大模型的整体能力,降价提质也让更多的开发者热衷于豆包大模型。

作为字节跳动的2B云平台,火山引擎此前就对企业开放了大量的底座模型,这在大模型团队中并不多见。针对这个问题,谭待也做了进一步的解读,火山引擎选择开放底座大模型的初衷就是推动行业创新,通过对豆包大模型的技术进行整合,为企业端提供更安全、稳定的底座大模型,并非简单地将豆包大模型丢给企业,而是从企业端的需求出发,提供更多的服务与应用,助力企业进行AI创新。

此外,采访中还提到了Sora,作为最早的视频生成模型之一,Sora的问世一度引起广泛关注,但是至今为止Sora仍未公开发布,以至于被业内称之为「期货」。因为对算力的高要求,视频生成大模型的全面开放一直存在不小的阻力,这也让我们担心豆包视频生成大模型是否可以在短期内放出。

对此,谭待充满了信心,因为豆包并非一个独立的视频生成模型,其本质上是依托于豆包通用模型等一系列技术的成果,所以许多技术挑战在此之前就已经解决了,同时火山引擎也一直在优化视频生成模型的效率,使其能够更快地进入公开市场,目前在即梦AI等功能里已经可以申请内测体验,并且在国庆节后会放出更多的公开API。

谭待在采访中还特别强调了技术积累和长期规划的重要性。他指出,火山引擎的目标不仅仅是解决当前的市场需求,更是在为未来的AI发展打下坚实的基础。通过持续优化底层技术架构,火山引擎能够以更低的成本提供更高质量的服务,从而保持技术领先优势。

最后,谭待认为随着AI技术的不断成熟,拥有庞大用户和企业支持的火山引擎将继续保持在行业内的领先地位。未来几年,火山引擎将持续专注于技术深耕和行业落地,通过更高效、更智能的AI解决方案帮助企业实现数字化转型和创新发展。

End

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2164985.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习算法与Python实战 | 三万字详解!GPT-5:你需要知道的一切(上)建议收藏!

本文来源公众号“机器学习算法与Python实战”,仅用于学术分享,侵权删,干货满满。 原文链接:三万字详解!GPT-5:你需要知道的一切 作者:Alberto Romero (青稞AI整理) 原…

2024杭电多校7——1007创作乐曲

补题链接 也是好久没补题了,欠了好多好多,我的评价是加训 题目如下: 官方题解: 官方题解一如既往的简洁, 对于不会做的人要读懂真的挺难 \sout{对于不会做的人要读懂真的挺难} 对于不会做的人要读懂真的挺难 首先询问最少删除多少音符(一般人来说不…

【教学类-52-14】20240925动物数独(N宫格通用版)1图、2图、6图、有答案、无答案 组合版18套

背景需求: 制作了3-5宫格(1、2、6图)样式18组,它们用的都是(1、2、6图)的word模板,只是宫格数量不同,图片插入大小不同,是否可以做一个通用代码? 【教学类-…

C#算法(16)—获取上升沿和下降沿信号

前言 我们在上位机软件开发的时候有时候需要抓取一个信号的上升沿或者下降沿,这时候就需要我们自己编写程序来实现抓取上升沿和下降沿的功能,详细内容如下: 一个信号从“无”到“有”,然后再从“有”到“无”,经历的过程如下:无-上升沿-有-下降沿-无,这样5个过程。 1…

基于微信小程序的电影院订票选座系统ssm(lw+演示+源码+运行)

摘 要 通过移动互联网这几年的发展,单独的开发某些APP已经到了日暮西山的地步,原因不在于单个的APP功能丰富与否,而是因为用户生态体系的问题。使用智能手机的用户经过多年的使用习惯,已经越来越不喜欢安装各种的APP,…

mysql 05 InnoDB数据页结构

01.数据页结构的快速浏览 02.记录在页中的存储 在页的7个组成部分中,我们自己存储的记录会按照我们指定的 行格式 存储到 User Records 部分。但是在一开始生成页的时候,其实并没有 User Records 这个部分,每当我们插入一条记录&#xff0c…

建立队列,插入队列,删除队列

代码&#xff1a; #include<iostream> using namespace std; template<class T> class sq_Queue {private:int mm;int front;int rear;int s;T *q; public:sq_Queue(int);void prt_sq_Queue();int flag_sq_Queue();void ins_sq_Queue(T);T del_sq_Queue(); }; tem…

【线程】自旋锁和读写锁

自旋锁 以前所讲的是挂起等待锁&#xff0c;申请锁成功继续执行&#xff0c;申请失败挂起等待 挂起等待和唤醒是需要时间的&#xff0c;有没有一种锁不会挂起等待呢&#xff1f;那就是自旋锁&#xff0c;申请锁失败它不会挂起&#xff0c;他会轮询&#xff0c;一直让我们的线…

如何给文件设置密级权限查看

一、使用文件加密软件&#xff1a; 选择专业的加密软件&#xff0c;如BitLocker&#xff08;Windows内置&#xff09; 对需要设置密级的文件进行加密&#xff0c;并设置访问密码。 这样&#xff0c;只有拥有正确密码的人才能查看或访问该文件。 二、第三方加密工具&#xff…

《Detection of Tea Leaf Blight in Low-Resolution UAV Remote Sensing Images》论文阅读

学习资料 论文题目&#xff1a;Detection of Tea Leaf Blight in Low-Resolution UAV Remote Sensing Images&#xff08;低分辨率UAV遥感图像中茶叶枯萎病的检测&#xff09;论文地址&#xff1a;https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber10345618 Abstr…

这个博览会不一般,丰收的背后故事多!

在金秋送爽、硕果累累的季节里&#xff0c;我们迎来了第七个中国农民丰收节&#xff0c;2024 年 9 月 24日&#xff0c;“中国农民丰收节毕节庆祝活动第三届毕节天麻博览会”在七星关区盛大开幕&#xff0c;一场办在农民心坎上的庆丰收活动精彩上演&#xff01;这是一场属于农民…

手把手教程 | 在 Azure OpenAI 服务上微调 4o 模型

兴奋起来——你现在可以使用 Azure OpenAI 服务微调 4o&#xff01; 我们很高兴地宣布在 Azure 上推出 4o 微调的公开预览版。在成功进行私人预览后&#xff0c;4o 现已可供我们所有的 Azure OpenAI 客户使用&#xff0c;在 Azure OpenAI 服务中提供无与伦比的定制和性能。 …

通信工程学习:什么是ODN光分配网络

ODN&#xff1a;光分配网络 ODN&#xff08;Optical Distribution Network&#xff0c;光分配网络&#xff09;是光接入网中的重要组成部分&#xff0c;它位于光线路终端&#xff08;OLT&#xff09;和光网络单元&#xff08;ONU&#xff09;/光网络终端&#xff08;ONT&#x…

itc保伦股份智慧高校整体解决方案推动教育强国、科技强国、人才强国建设!

党的二十大报告指出&#xff0c;要“统筹职业教育、高等教育、继续教育协同创新&#xff0c;推进职普融通、产教融合、科教融汇&#xff0c;优化职业教育类型定位”。itc积极响应高校人才培养相关政策要求&#xff0c;基于互联网、物联网、大数据、AI等技术&#xff0c;面向老师…

高性价比的电脑桌面记事本便签,好用便签助力工作效率

在快节奏的工作环境中&#xff0c;我们常常需要快速记录下重要的信息和任务。而一款好用的电脑桌面记事本便签工具&#xff0c;可以成为我们提高工作效率的得力助手。在这里&#xff0c;向大家介绍一款高性价比的电脑桌面记事本便签&#xff0c;好用便签&#xff0c;帮助大家更…

100个ChatGPT学术指令—助你高效完成文献综述撰写!

写文献综述是不是让你觉得头大&#xff1f;每次翻了半天资料&#xff0c;脑子还是一片空白&#xff0c;根本不知道从哪儿开始写&#xff1f; 别慌&#xff0c;其实有个简单的套路——用AI&#xff01;没错&#xff0c;只要掌握好提示词&#xff0c;AI能帮你快速理清思路、找到…

Linux系统备份Gitee等云git所有仓库与所有分支的数字资产

思路&#xff1a; 1. ssh 配置 2. reps.txt 列出所有仓库名 3. exp的自动化备份脚本 -- 环境安装&#xff1a; exp需要依赖安装的文件&#xff0c;所以先执行下(以ubuntu为例)&#xff1a; sudo apt-get install expect 操作步骤&#xff1a; ssh 配置 1. 添加公钥至 …

23. Lammps命令学习-8之read_dump

来源&#xff1a; “码农不会写诗”公众号 链接&#xff1a;Lammps命令学习-8之read_dump read_dump file … 从dump文件中读取原子信息以覆盖当前原子坐标以及原子速度和图像标志、时间步长和模拟盒尺寸等&#xff0c;以便可以从dump文件中的特定快照重新启动模拟。   https…

[笔记]某川电机变频器指标与参数

变频器是进行电机控制的一个参考源&#xff0c;所有这些电机厂商的产品中提及的功能模块&#xff0c;项点&#xff0c;都需要关注。 某些功能点&#xff0c;自定义的分类&#xff0c;都是一些可以用作参考和进一步扩展的一些基本的技术点。软硬件接口&#xff0c;可以在设计自…

2023国赛C题 蔬菜类商品的自动定价与补货决策(上)

2023国赛C题 蔬菜类商品的自动定价与补货决策&#xff08;上&#xff09; 符号说明&#xff1a; 问题1 问题1主要的代码和思路在上一篇文章“数学建模实战块速入门”中已经进行了较为详细的展示&#xff0c;在问题一种要求我们从蔬菜单品和品类两个维度去分析各自之间的关系。…