AI 语音公司 ElevenLabs 进军亚太市场设立东京子公司；EverTutor Live ：语音交互 AI 教育平台丨日报

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、字节 Seaweed：7B 模型实现 20 秒 2K 视频生成

字节最新发布的 Seaweed-7B 是一款仅 7B 参数的视频生成模型，它支持文生视频、图生视频、角色参考等多样化的生成方式，还能同时生成配套音频。

原生支持生成 20 秒时长的单镜头视频，并支持通过超分辨率技术达到 2K 画质。

该模型以 66.5 万个 H100 GPU 小时训练成本，在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1。

据官方介绍，Seaweed-7B 结合了变分自编码器（VAE）和潜在扩散变换器（DiT）。其中，VAE 负责高效的训练和推理，而 DiT 则通过扩散模型生成图像和视频，显著提高了生成的质量与效率。(@APPSO)

2、谷歌 Veo 2 视频生成模型入驻 Gemini，用户可创建 8 秒 720p 视频

Gemini Advanced 的用户可以在谷歌 Gemini 应用程序的模型下拉菜单中选择 Veo 2。用户能够通过该模型创建 8 秒钟、720p 分辨率、16:9 宽高比的视频片段，并通过 Gemini 的「分享」按钮将这些视频上传至 TikTok、YouTube 等平台。此外，Veo 2 生成的视频还可以下载为带有谷歌 SynthID 技术水印的 MP4 文件。

谷歌还在其 Google Labs 的实验性功能 Whisk 中整合了 Veo 2。Whisk 允许用户使用图片作为 Gemini 的提示词来生成新图片，而新增的 Whisk Animate 功能则可将用户生成的图片转化为由 Veo 2 生成的 8 秒视频。（@AI 小讯）

3、字节正式推出 Seedream 3.0

在这里插入图片描述

字节正式推出 Seedream 3.0，一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强：支持原生 2K 分辨率输出；响应速度更快；小字更准，文本排版效果增强；美感&结构提升，保真度和细节表现较好，在多项评估中排名领先。

在数据层面，通过一种新型的视觉语义二维协同的采样策略（基于图像聚类分布与文本语义连贯性两个正交维度），将数据集规模扩展了约 100%。
在预训练阶段，我们相比 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐：i）混合分辨率训练；ii）跨模态旋转位置编码（RoPE）；iii）表征对齐损失；iv）分辨率感知的时间步采样。
在后训练阶段，我们利用多样化的美学描述文本和基于视觉语言模型的奖励模型，进一步提升模型的综合能力。
在模型加速阶段，我们采用一致噪声期望来提升采样过程的平稳性，在保证生成质量无损的条件下大幅减少采样步数。（@AI 小小将）

4、ElevenLabs 正式进军亚太市场，在东京设立首家海外子公司

在这里插入图片描述

全球领先的 AI 语音技术公司 ElevenLabs 近日宣布在东京成立其首个海外子公司「ElevenLabs G.K。」这是该公司首个海外子公司，将作为其亚太地区业务的枢纽。此举是在公司完成 1.8 亿美元 C 轮融资后的重要战略扩张。

已有的战略合作

DOCOMO Innovations：NTT DOCOMO 的硅谷研发子公司
TBS：日本主要私营广播公司之一
MBC C&I：韩国主要广播公司 MBC 的子公司
LLSOLLU：拥有专有翻译和本地化技术的韩国科技公司

选择日本的战略理由

丰富的语言文化遗产
技术创新环境
独特的市场需求，如老龄化社会的无障碍服务和沉浸式娱乐体验
日语的特殊语言特性（语调、重音、情感微妙表达）与 ElevenLabs 技术优势相契合

应用案例

TBS 利用 ElevenLabs 的配音技术使其 KASSO 节目提供多语言版本，面向国际观众
MBC C&I 使用其 TTS 和 SFX 技术创建 AI 视频内容，包括在韩国国际 AI 电影节获得大奖的 Mateo 和在叙事类别获得第一名的 Art In the World。(@meng shao@X)

02.有亮点的产品

1、可灵 2.0 视频生成，以及可图 2.0 文生图模型

在这里插入图片描述

2025 年 4 月 15 日，快手旗下 AI 产品「可灵 AI」迎来升级，推出「可灵 2.0 视频生成」以及「可图 2.0 文生图模型」。本次更新亮点：

可灵、可图模型层面更新，快手结合多项自研技术创新，画面美学、语义响应和动态质量大幅度提升。2.0 全面升级了训练和推理策略，尤其是强化了对于复杂运动主体交互滤镜、构图术语等专业的表达和理解响应。
精准微调功能。可灵新增新增「多模态编辑」功能，支持在一段 5s 的视频的基础上，输入图片/文字，对视频进行灵活、精准的修改和再创作。可图新增「图片编辑」及「风格转绘」功能。
AI 音效生成，根据影像内容结合文字 prompt，生成适配的音效片段。

据悉，可灵这次打造一种全新的交互「语言」—— MVL（Multi-modal Visual Language）。MVL 拥有 TXT 语义骨架和 MMW 多模态描述子，即通过文本+动作描述文件，生成精细的视频成片。这套语言形成了可灵 2.0 中新增的「多模态编辑」功能，包括三种模式：替换、增加和删除。

目前，可灵 AI 全系 2.0 模型已在网页端和 App 端全量上线。(@APPSO、LitGate)

2、小红书首次为独立开发者颁奖，体感与健身智能硬件 Action&Link 获大奖

在这里插入图片描述

小红书首届「独立开发大赛」设置宝藏 APP 和最佳 AI 项目两个赛道，共有 1355 个项目报名，包含 APP、网站、硬件等多个领域。小红书的官方数据显示，这里活跃着超过 5 万名独立开发者，独立开发相关内容发布较去年增长 146%，相关话题阅读量超过 5 亿次。

4 月 15 日，小红书首届「独立开发大赛」最终获奖名单如下：

独立游戏《雨天》、AI 播客应用 Podwise、运动记录应用 Peak Watch 获宝藏 APP 奖项；
AI 二维码产品 QRBTF、AI 知识应用 nooka、AI 饮食应用《胃之书》获最佳 AI 项目；
全场大奖由智能硬件 Action&Link 斩获。

值得注意的是体感与健身智能硬件 Action&Link：它通过外设硬件+AI 姿态识别算法，将传统键鼠操作转化为全身动作指令，让《原神》《黑神话：悟空》等硬核游戏变身「健身游戏」。其核心价值在于破解体感游戏的内容荒，无需等待厂商适配，直接让绝大多数的 PC/Switch 游戏支持体感操作。(@APPSO)

3、Whyser：AI 驱动的智能用户研究平台

在这里插入图片描述

Whyser 是一款定性研究平台，它利用 AI 技术革新用户访谈体验，帮助您通过 AI 主持的语音访谈，大规模发掘有价值的客户洞察。(@producthunt)

4、EverTutor Live ：融合语音交互与自适应课程系统的 AI 导师平台
在这里插入图片描述

EverTutor Live 是一款基于 AI 语音交互的个性化在线辅导工具，通过模拟实时视频会议的教学场景提供自适应学习服务。其核心价值主张在于将人工智能导师的个性化指导与实时语音互动相结合，解决传统在线教育中缺乏即时反馈、教学方式僵化及高成本家教服务可及性差等痛点。

产品以高度自然的话术交互、动态知识图谱驱动的自适应课程系统（根据学习表现实时调整难度）及 Zoom 式界面设计（降低新用户学习成本）为核心功能。标准版/专业版的分层订阅模式满足不同学习强度需求。(@Z Potentials)

5、Sherlock：远程面试作弊检测 AI 工具

在这里插入图片描述

Sherlock 致力于解决远程面试中因人工智能滥用而引发的诚信问题。其核心价值在于利用视觉、听觉和推理能力，有效检测 AI 辅助作弊行为，从而帮助招聘方专注于进行高质量的对话。Sherlock 的目标用户群体主要包括招聘经理、人力资源团队，以及希望高效筛选候选人的企业，特别是那些依赖远程面试进行全球化招聘的组织。

Sherlock 的核心功能亮点包括：