Google 新 AI 为视频生成配乐和对白；Runway 发布 Gen-3 视频生成模型丨 RTE 开发者日报 Vol.226

news2026/2/19 5:15:55

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@CY，@JLT，@鲍勃

01 有话题的新闻

1、日本增长最快独角兽即将诞生：人工智能公司 Sakana AI 成立一年后估值 1800 亿日元

6 月 17 日消息，日本生成式 AI 初创公司 Sakana AI 即将获得一笔新的重大投资，这将使该公司估值达到约 1800 亿日元（约合 83 亿元人民币）。「独角兽」系估值超过 10 亿美元（约合 72.76 亿元人民币）的未上市企业。报道称，去年 7 月，谷歌的人工智能研究人员在东京成立了 Sakana AI 公司，该公司对生成文本和图像的 AI 基本模型进行了研究，其具有将现有模型相互交叉的「开创性」技术，从而创建出高性能的 AI 模型。

Sakana AI 的主要投资者包括曾对 OpenAI 等公司进行了初期投资的风险投资家，他们将协调在本月底之前向 Sakana AI 投资约 200 亿日元（当前约 9.23 亿元人民币）。据报道，Sakana AI 将成为日本增长最快的「独角兽」企业。（@朝日新闻）

2、腾讯混元推出「Follow Your Emoji」

在这里插入图片描述

据 Arxiv 页面显示，腾讯混元携手香港科技大学和清华大学，共同研发出一款名为「Follow Your Emoji」的创新肖像动画生成框架。这项技术突破了传统界限，仅需一张静态照片，即可将其转化为栩栩如生的面部动画，捕捉并再现人物的微妙表情变化。用户只需上传一张照片，系统便能迅速生成一系列生动的面部表情，无论是夸张的大笑还是微妙的眨眼，都能轻松呈现。依托于先进的算法和庞大的数据支持，「Follow Your Emoji」能够对脸部进行极为精细的控制，包括眉毛的微挑、眼珠的转动，甚至是翻白眼等细节动作。( @CSDN)

3、腾讯视频号拟限制数字人带货：鼓励真人直播

近日为了优化视频号橱窗生态，营造良好的交易环境，腾讯对《视频号橱窗达人「发布低质量内容」实施细则》进行修订，修订内容于今年 6 月 7 日 -6 月 13 日进行意见征集。

据最新的修订方案，「使用插件、AI 等工具生成虚拟形象进行直播」「提供、售卖、教学或展示平台不提倡传播的内容：如讲解和售卖虚拟人代播软件」等涉及虚拟人/数字人直播，将被视频号明确列入低质量内容，并进行违规处理。

对于相关修订的原因，6 月 17 日，视频号相关人士告诉澎湃新闻记者，使用数字人/虚拟人直播目前属于平台直播带货中的违规行为，如被平台发现，将依据相关规则进行处罚，包括不限于减少直播推荐、减少账号推荐、限制直播带货能力等。

该人士称，平台希望并鼓励真实的真人主播，能跟观众进行实时的互动。（@澎湃新闻）

4、Runway 发布第三代视频生成模型，90 秒生成 10 秒片段

IT 之家 6 月 18 日消息，专为电影和图像内容创作者打造生成式 AI 工具的公司 Runway 发布了 Gen-3 Alpha 视频生成模型。

Runway 表示，与其之前的旗舰视频模型 Gen-2 相比，该模型在生成速度和保真度方面有了「重大」改进，并且对生成视频的结构、风格和运动提供了细粒度的控制。Gen-3 将在未来几天内向 Runway 订阅用户提供，包括企业客户和 Runway 创意合作伙伴计划中的创作者。

Runway 联合创始人 Anastasis Germanidis 表示，Gen-3 的视频生成时间明显快于 Gen-2。生成一个 5 秒的片段需要 45 秒，生成一个 10 秒的片段需要 90 秒。（@IT 之家）

5、抖音联合博纳出品 AIGC 科幻短剧集《三星堆：未来启示录》

6 月 17 日消息，博纳影业出品制作、抖音联合出品的 AIGC 科幻短剧集《三星堆：未来启示录亮相博纳 25 周年新闻发布会。

该剧第一季共 12 集，由抖音联合出品，将在抖音短剧暑期档播出。即梦 AI 作为首席 AI 技术支持方，基于豆包大模型技术，为《三星堆：未来启示录》提供了 AI 剧本创作、概念及分镜设计、镜头画面生成、图像到视频转换、视频编辑和媒体内容增强等十种 AI 技术。

据介绍，《三星堆：未来启示录》的故事设定在科技飞速发展的近未来。地球古文明遗迹的异变引起全球古文明研究组织的高度关注，泛大西洋人工智能组织 ACE 推测三星堆文物中蕴藏着解决文明危机的关键信息，中国古文明研究组织「西安路 34 号」派出科学家吴星言监督 ACE 组织在中国的行动。四川广汉的江家三代都是三星堆考古工作者，江城联合吴星言展开了一场跨越时空的冒险。（@IT 之家）

6、Google DeepMind 的新 AI 可以为视频生成配乐和对白

Google 的人工智能研究实验室 DeepMind 表示，它正在开发为视频生成配乐的人工智能技术。DeepMind 在其官方博客上发表文章称，它认为 V2A（「视频到音频」的缩写）技术是人工智能生成媒体拼图中必不可少的一部分。虽然包括 DeepMind 在内的许多机构已经开发出了视频生成人工智能模型，但这些模型无法在生成视频时同步生成音效。( @cnBeta)

02 有态度的观点

1、吴恩达最新演讲：除了下一代基础模型，Agent 工作流如何推动 AI 进步？

在 Snowflake Dev Day 上，斯坦福大学教授、Landing AI 创始人吴恩达与 Snowflake CEO Sridhar Ramaswamy 讨论了 AI 技术与法规。吴恩达介绍了视觉智能体（Vision Agent）的应用，它可以自动化复杂的图像处理任务，显示了 AI 在计算机视觉领域的潜力。

同时，他强调了 AI Agent 的工作流程，并提到了在 AI 研究和应用中跨学科合作的重要性。吴恩达认为 Agentic AI 是一个非常重要和令人兴奋的趋势。（@有新 Newin）

2、黄仁勋最新对话：未来互联网流量将大幅减少，计算将更多即时生成

在 2024 年 Databricks Data + AI 峰会上，英伟达创始人、CEO 黄仁勋指出生成式 AI 正以指数速度增长，强调企业需抓住此技术趋势。他认为开源和闭源 AI 模型将共存，企业需利用各自优势推动 AI 发展。

再者，AI 的发展需要考虑能源效率和可持续性。随着数据积累和智能技术进步，客户服务将成为企业实现智能化转型的关键领域。（@腾讯科技）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述