逐浪100人丨对话魔珐科技CEO柴金祥:AI时代,虚拟人的边界在哪?

news2024/10/7 14:24:15

Photo by 《机械姬》剧照

©自象限原创

访谈丨程心

生成式AI的爆发,带领全民到达AIGC的新时代。

在这个新时代,虚拟人作为一种新兴的内容载体,不仅在娱乐、教育、零售等领域中扮演着越来越重要的角色,也成为了品牌与消费者之间互动的新媒介。

在去年虚拟人技术发展的一年中,3D虚拟人与2D虚拟人成为了行业一道极为明显的分水岭。2D虚拟人通常限于平面的视觉表现,适用于传统的社交媒体和网页内容。相比之下,3D虚拟人则提供了一个三维的、可以与之互动的世界,它们不仅能够提供更加真实的视觉体验,更是未来“入口级的应用”。

从技术的发展来看,虚拟人正从单一的形象展示向更加综合和多元的“虚拟人+”阶段过渡。这一阶段的虚拟人不再仅仅是一个静态的形象,而是成为了一个具备多种功能和服务能力的智能实体。它们可以是虚拟客服、虚拟教师、虚拟主播,甚至是虚拟健康顾问。同时,虚拟人的应用场景正在迅速扩展,从而推动了相关行业的创新和变革。

在2024年开年,「自象限」关注到虚拟人已经在和其他技术进行结合。以3D虚拟人头部厂商魔珐科技为例,在其近期迭代的产品“有言”中,3D虚拟人进入了3D视频空间,用户可以直接利用该平台制作3D视频,包括脚本、虚拟人形象、AI语音合成、灯光布景等多维度的综合体现。

这也引出了另一个发人深省的问题,在技术发展的早期阶段,企业面临着技术驱动与产品驱动的战略选择。技术驱动的路径强调技术创新和突破,可能会带来颠覆性的变革,但也存在市场接受度和商业化应用的不确定性。产品驱动则更注重市场需求和用户体验,通过满足用户的实际需求来推动技术的商业化。这两种策略的选择将直接影响企业的发展轨迹和市场竞争力。

在这个行业发展的关键时期,魔珐科技作为拥有3D虚拟人及全栈AIGC技术的厂商,选择了一条产品驱动的发展路径。在《逐浪100人》的第二期,「自象限」对话魔珐科技创始人柴金祥,探讨AIGC时代,虚拟人的边界以及技术和产品的平衡。

▲魔珐科技创始人兼CEO柴金祥 受访者提供

有言,有话说

自象限:先聊聊这次有言的升级吧,我们能够感受到这是一款不一样的产品,和以往的产品相比,这一次升级特殊在哪?

柴金祥:与传统的2D视频生成工具不同,有言具有全栈的AIGC技术,能够一键生成高质量的3D视频内容。这意味着用户无需繁琐的拍摄和后期制作流程,就能够创造出具有深度和真实感的视频体验。我们的3D虚拟人角色库丰富多样,用户可以根据需要选择不同的角色和场景,实现个性化的视频创作。

在操作方面,这次升级加强了内容的可控性和编辑能力。过去,视频创作者往往受限于视频素材的可用性和编辑难度。而现在,有言提供了从角色动作、表情到场景、灯光、声音等全方位的编辑功能,使得创作者可以精准控制每一个细节,确保视频内容完全符合他们的创意和需求。

并且我们针对了多场景的应用进行了优化。有言支持团队协作、多语言输出,可以生成多语言视频助力产品出海,这对于全球化的市场环境尤为重要。无论是知识分享、教育培训还是品牌宣传,有言都能提供强大的支持。

此外,我们还关注到了3D内容与未来技术如VR/AR的结合。有言生成的3D视频内容可以直接适配未来的虚拟3D世界,这意味着我们的产品不仅仅是为了当前的市场,更是为了即将到来的元宇宙时代做准备。

自象限:技术上的难度体现在哪?相较于以往的虚拟人或者3D视频产品有哪些创新?

柴金祥:在这个用户使用简单的产品中,是很多种复合型技术形成的一个综合型的创新解决方案,举几个例子:

三维内容的AIGC化:传统的3D内容制作依赖于专业团队和复杂的软件工具,有言实现了从3D虚拟人形象建模、绑定、动作、表情的AIGC化,比如说人肌肉手工制作的过程是非常困难的,但是我们做到了AIGC化,一个人的能力,他的表情、眼神、手势、动作,声音是 AIGC。另外灯光、镜头也需要通过最佳实践,比如发布会的镜头切换需要用专业摄影师专业的方式,其实也是三维镜头,灯光模拟了专业灯光师进行调控,这些都是AIGC。

目前来说,我们把最难的部分AIGC化,少部分采用模板库的方式,比如说视频包装的片头片尾、BGM、字幕展示、贴纸文字等,随着数据增多会逐步实现从UGC到AIGC的转化。

它的难点其实还是在于高质量3D数据的缺乏,3D内容的生成需要大量的高质量数据作为训练基础。魔珐科技通过多年的积累,建立了庞大的3D数据库,这些数据不仅包括角色模型,还包括动作、表情、场景等,还要满足用户的实时渲染与编辑需求,这要求后端系统具备高效的渲染能力和灵活的编辑接口,技术上的挑战在于如何保证渲染速度和视频质量的同时,提供流畅的用户体验。

自象限:我们认为虚拟人正在走向虚拟人+,您怎么看,未来魔珐会探索更多+之外的边界么?

柴金祥:其实我们真正在做的是3D 超写实虚拟 AIGC + X, 这一趋势意味着虚拟人技术将不再局限于单一的应用场景,而是会与更多行业、领域和技术相结合,形成更加丰富和多元的产品和服务。虚拟人+的概念代表了一种开放性和扩展性,它不仅能够增强现有的业务流程,还能够创造全新的用户体验和商业模式。

有言生成的3D视频,如果你今天放在Vision Pro 里面, AR/VR 中看到的就是3D的景象,虚拟人可能就在站在你面前,这就是3D视频+VR/AR的一个应用。今天本质上是因为我们只能在 PC 端或移动端看到3D视频,因此视觉上3D场景与2D场景的感受没有那么强烈。

对于未来,魔珐科技将持续探索虚拟人技术的各种可能性,并推动其在更多“+”之外的边界的应用。半年以后我们可能也会把内部3D 超写实虚拟人AIGC全栈能力做成开放平台,就像 ChatGPT的API接口调用一样,无论是C端、 B端都可以调用API,使用背后的技术能力。

什么是魔珐?

自象限:您不断提到产品战略,所以魔珐是一家产品公司么?

柴金祥:是的,魔珐科技是一家以3D虚拟人和AIGC为核心的AI科技公司。我们的战略重点在于利用人工智能AIGC技术,创造出能够为用户带来实际价值的产品。所以你会发现我们从来不发Demo,我们推向市场时就是以产品的形态落地,技术有没有用,最终要落在产品中,看是否能给用户带来价值。

我认为不仅要关注技术的先进性,还注重产品的实用性、易用性和市场适应性。我觉得将复杂的技术转化为简单、直观且高效的用户体验,这个才是最重要的。无论是3D虚拟人、AIGC技术还是VR/AR集成,我们的最终目标都是打造出能够被广泛接受和使用的产品。

其实我们产品战略是“1 + 3”,“1”是我们底层有技术的基础设施,以3D 超写实虚拟人AIGC操作系统为核心,让所有人都能够即插即用。“3”是指有言、有灵、有光三个消费级产品平台,后面会有我们的直播产品和有灵一对一的交互虚拟人产品,越来越精细化。

自象限:为什么是产品驱动而不是技术驱动?背后的逻辑是是什么?

柴金祥:技术驱动的公司可能会面临技术过时或市场需求变化的风险,而产品驱动的公司本质上是以用户需求为核心,将用户的需求转换实际的价值,技术在进步,但用户的需求和行业kown-how有迹可循。比如3D视频制作过程中的团队协作能力几乎是一个刚需能力,无论技术怎么变,这个场景是不会变的。

相比于Sora这样的2D视频生成的产品,首先他要用户具备一定的技术背景,或者需要通过反复尝试和调整输入参数来生成满意的视频内容,其次它不可编辑,视频中一旦发生错误是不可更改的,在内容生成自由度方面有一定的限制,而且Sora目前还是还是以生成“作品”为主,没有办法在商业的场景中使用,也就无法变成生产力。

从技术的角度来看,我之前提到了3D视频AIGC的一个技术难点在于高质量数据的不足,那么我们以产品的形式向行业提供生产力工具,我们的客户也通过有言自主生成了很多高质量的3D视频数据来反哺我们的模型,去解决数据源头不足的问题,生产力工具像是一个“钩子”,以此形成飞轮效应。

过去十年,无论是B端还是C端,ChatGPT、Canva、还是Figma,你会发现一旦到了产品和市场需求匹配,增长就特别快,就是这个道理。

自象限:如今AIGC产品的核心能力还是体现在降本增效的方面,有哪些具体的数据可以分享?

柴金祥:首先肯定是虚拟人制作的成本会逐渐变低。我们最早的时候企业设计专属的虚拟人形象实际成交单价都是大几十万,我们自己的成本肯定也要几十万,但是就像上面讲的,我们的客户越来越多,数据越来越丰富,技术的进步使得内容生产变得越来越简单,从PGC到UGC再到AIGC,门槛越来越低,但质量会越来越好。

下一个版本现在我们把定制化的形象转化成了虚拟人生成的产品,企业可以自己“捏脸”,这个成本就是很低的了。到今年下半年,当一个普通人就能通过AIGC定制一个3D虚拟人的时候,AIGC的核心是使得内容创作的边际成本接近于零。

其次是3D视频的制作的成本在降低,亲身经历过动画行业的就知道,像有言生成的高质量动画一秒钟的成本在500块钱左右,如今我们已经把它AIGC化了,企业用户通过按月付费的方式就可以让所有的员工使用。

举一个头部客户的案例,这个集团客户要了100个账号,实现每天生产30多个视频,每一个账号背后有4个人轮换在用,两个月不到的时间里,做了近600条视频总计近3000分钟,这个成本和效率在以前是绝对想象不到的。

自象限:关于魔珐商业化的部分,您刚提到从项目定制化转向标准化,这中间有什么契机,是如何考虑的?

柴金祥:其实从公司一成立我们就想做产品化,只是我们那时候能力没有到,做 business 到 eventually,这不是一种契机反而是一种坚持,我们的美术水平在逐渐提升、技术在提升、算法在优化,当技术达到一定成熟期以及公司规模到一定体量的时候,才能实现标准化的产品落地。

反过来讲,当ChatGPT刚开始做的时候,1.0、2.0时期没有人相信它,只有到了3.5的时候它的能力达到了,大家才会觉得“噢,这个很了不起”,就像换做十几年前的电动车,所有都觉得马斯克就是个疯子。凡事只能先做到证明可行性,才有可能落到用户层面。

其次随着时间的推移,我们发现市场上对于高效、低成本、易于使用的视频制作解决方案的需求日益增长。客户不仅需要高质量的定制服务,还需要能够快速响应市场变化、灵活调整内容生产的标准化产品,我认为这是一种“双向奔赴”,最重要的难点是能不能实现。

早期我们自己的成本无论是研发成本还是人才成本都很高,我们自己也在攻克这些问题,但是现在有言最大的成本其实就是算力成本,所以我们需要更多的用户来对算力成本进行摊薄,用户增长,我的PMF自然就能达到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1560835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第十三届蓝桥杯国赛真题 Java C 组【原卷】

文章目录 发现宝藏试题 A: 斐波那契与 7试题 B: 小蓝做实验试题 C: 取模试题 D: 内存空间试题 E \mathrm{E} E : 斐波那契数组试题 F: 最大公约数试题 G: 交通信号试题 I: 打折试题 J: 宝石收集 发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂&#x…

关于Ansible的模块②

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 接《关于Ansible的模块 ①-CSDN博客》,继续学习和梳理Ansible的常用文件类模块 1. copy模块 从当前机器上复制文件到…

PCB表面缺陷检测项目 | 轻量化PCB表面缺陷检测算法实现

项目应用场景 面向 PCB 表面缺陷检测场景,包括漏孔 missing hole、咬伤 mouse bite、开路 open circuit、短路 short、支线 spur、杂铜 spurious copper 六种缺陷类型。 项目效果: 项目细节 > 具体参见项目 README.md (1) 下载模型 (2) 安装依赖&…

Master公式(计算递归复杂度)

Master公式 在计算涉及递归的算法的时候,计算复杂度就会变得有些麻烦。Master公式就是用来进行剖析递归行为和递归行为时间复杂度的估算的 Master公式:T(N) a*T(N/b) O(N^d) 公式解释:n表示问题的规模,a表示递归的次数也就是生…

使用 Yoda 和 ClickHouse 进行实时欺诈检测

背景 Instacart 是北美领先的在线杂货公司,拥有数百万活跃的客户和购物者。在其平台上打击欺诈和滥用行为不仅对于维护一个值得信赖和安全的环境至关重要,也对保持Instacart的财务健康至关重要。在这篇文章中,将介绍了一个欺诈平台——Yoda,解释了为什么我们选择ClickHous…

每日一题(相交链表 )

欢迎大家来我们主页进行指导 LaNzikinh-CSDN博客 160. 相交链表 - 力扣(LeetCode) 给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null 。 图示两个链表在节…

服务器主机推荐

服务器推荐:雨云 - 新一代云服务提供商 雨云的服务器享受免费使用CDN服务,当前CDN调整中; 使用CDN时域名无需备案; 注册后绑定微信可以获得一张首月5折优惠券; 雨云支持1元任意配置1天试用,试用服务器一…

2024年美团笔试题(1)

一.题目描述 小美拿到了一个排列,其中初始所有元素都是红色,但有些元素被染成了白色。 小美每次操作可以选择交换任意两个红色元素的位置。她希望操作尽可能少的次数使得数组变成非降序,你能帮帮她吗? 排列是指:一个长度为n的数组&#…

将在使用的git分支的历史其中的一个版本切换成新的git分支

要将正在使用的 Git 分支的历史中的一个版本切换成新的 Git 分支,可以按照以下步骤进行操作: 两种方式 1.(命令行)可以使用 git log 命令查看提交历史并找到对应的提交哈希值。 2.(图形化) 2.1通过idea…

Netty教程之NIO基础

NIO 介绍 NIO 全称java non-blocking IO(非阻塞 I/O),后续提供了一系列改进的输入/输出的新特性,被统称为 NIO(即 New IO),是同步非阻塞的。 阻塞和非阻塞是进程在访问数据的时候,数据是否准备就绪的一种…

Php_Code_challenge12

题目: 答案: 解析: 字符串拼接。

城市内涝模拟:慧天【HTWATER】软件,完全兼容SWMM模型格式,可以在本平台模型与SWMM模型之间实现转换

在城市排水防涝规划过程中,水文水动力耦合模型已经成为一种不可或缺的分析工具。在模型建立、城市内涝风险评估、排水系统性能诊断以及海绵城市规划等方面,内涝耦合模型提供了相应的模拟及分析工具: 一、丰富的数据处理功能,兼容…

算法刷题笔记(3.25-3.29)

算法刷题笔记 3.25-3.29 1. 相同的树2. 二叉树的最近公共祖先3. 二叉搜索树中第K小的元素通过双端队列duque 中序遍历 4. 二叉树的锯齿形层序遍历new LinkedList<Integer>(levelList)双端队列复制 数组需要左右顺序&#xff0c;考虑双端队列 5. 岛屿数量6. 字典序排数&am…

计算机视觉的应用25-关于Deeplab系列语义分割模型的应用场景,以及空洞卷积的介绍

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下计算机视觉的应用25-关于Deeplab系列语义分割模型的应用场景&#xff0c;以及空洞卷积的介绍。Deeplab是Google研发的一系列深度学习模型&#xff0c;主要用于图像语义分割任务&#xff0c;其在众多应用场景中展现出…

基于8086密码锁可修改仿真

**单片机设计介绍&#xff0c;基于8086密码锁可修改仿真 文章目录 一 概要二、功能设计三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于8086的密码锁可修改仿真设计是一个结合了微处理器控制、密码管理和仿真技术的综合性项目。通过此设计&#xff0c;用户可以设定和…

nginx界面管理工具之nginxWebUI 搭建与使用

nginx界面管理工具之nginxWebUI 搭建与使用 一、nginxWebUI 1.nginx网页配置工具 官网地址: http://www.nginxwebui.cn 源码地址&#xff1a;https://git.chihiro.org.cn/chihiro/nginxWebUI 2.功能说明 本项目可以使用WebUI配置nginx的各项功能, 包括http协议转发, tcp协议…

非关系型数据库--------------Redis配置与优化

一、关系数据库与非关系型数据库 1.1关系型数据库 关系型数据库是一个结构化的数据库&#xff0c;创建在关系模型&#xff08;二维表格模型&#xff09;基础上一般面向于记录。SQL语句&#xff08;标准数据查询语言&#xff09;就是一种基于关系型数据库的语言&#xff0c;用…

正弦实时数据库(SinRTDB)的使用(10)-数据文件的无损压缩

前文已经将正弦实时数据库的使用进行了介绍&#xff0c;需要了解的可以先看下面的博客&#xff1a; 正弦实时数据库(SinRTDB)的安装 正弦实时数据库(SinRTDB)的使用(1)-使用数据发生器写入数据 正弦实时数据库(SinRTDB)的使用(2)-接入OPC DA的数据 正弦实时数据库(SinRTDB)…

Python 用pygame简简单单实现一个打砖块

# -*- coding: utf-8 -*- # # # Copyright (C) 2024 , Inc. All Rights Reserved # # # Time : 2024/3/30 14:34 # Author : 赫凯 # Email : hekaiiii163.com # File : ballgame.py # Software: PyCharm import math import randomimport pygame import sys#…

JAVA学习笔记21

1.IDEA的使用 1.ctrl B 快速定位到方法 2.ctrl Y 快速删除行 3.ctrl D 快速复制行 4.ctrl H 查看继承的层级关系 5.快速格式化代码 ctrl shift L 6.alt R 快速允许程序 7.ctrl / 快速添加注释 1.包(软件包) 1.1包的三大作用 1.区分相同名字的类 2.当类很多的…