AI 语音公司 ElevenLabs 进军亚太市场设立东京子公司;EverTutor Live :语音交互 AI 教育平台丨日报

news2025/4/18 16:59:19

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、字节 Seaweed:7B 模型实现 20 秒 2K 视频生成

字节最新发布的 Seaweed-7B 是一款仅 7B 参数的视频生成模型,它支持文生视频、图生视频、角色参考等多样化的生成方式,还能同时生成配套音频。

原生支持生成 20 秒时长的单镜头视频,并支持通过超分辨率技术达到 2K 画质。

该模型以 66.5 万个 H100 GPU 小时训练成本,在文本/图像到视频生成任务中全面超越 140 亿参数的 Wan 2.1。

据官方介绍,Seaweed-7B 结合了变分自编码器(VAE)和潜在扩散变换器(DiT)。其中,VAE 负责高效的训练和推理,而 DiT 则通过扩散模型生成图像和视频,显著提高了生成的质量与效率。(@APPSO)

2、谷歌 Veo 2 视频生成模型入驻 Gemini,用户可创建 8 秒 720p 视频

Gemini Advanced 的用户可以在谷歌 Gemini 应用程序的模型下拉菜单中选择 Veo 2。用户能够通过该模型创建 8 秒钟、720p 分辨率、16:9 宽高比的视频片段,并通过 Gemini 的「分享」按钮将这些视频上传至 TikTok、YouTube 等平台。此外,Veo 2 生成的视频还可以下载为带有谷歌 SynthID 技术水印的 MP4 文件。

谷歌还在其 Google Labs 的实验性功能 Whisk 中整合了 Veo 2。Whisk 允许用户使用图片作为 Gemini 的提示词来生成新图片,而新增的 Whisk Animate 功能则可将用户生成的图片转化为由 Veo 2 生成的 8 秒视频。(@AI 小讯)

3、字节正式推出 Seedream 3.0

在这里插入图片描述

字节正式推出 Seedream 3.0,一款原生高分辨率的中英双语图像生成基础模型。Seedream 3.0 综合能力显著增强:支持原生 2K 分辨率输出;响应速度更快;小字更准,文本排版效果增强;美感&结构提升,保真度和细节表现较好,在多项评估中排名领先。

  • 在数据层面,通过一种新型的视觉语义二维协同的采样策略(基于图像聚类分布与文本语义连贯性两个正交维度),将数据集规模扩展了约 100%。

  • 在预训练阶段,我们相比 2.0 版本进行了多项改进以实现更好的扩展性、泛化能力和视觉-语言对齐:i) 混合分辨率训练;ii) 跨模态旋转位置编码(RoPE);iii) 表征对齐损失;iv) 分辨率感知的时间步采样。

  • 在后训练阶段,我们利用多样化的美学描述文本和基于视觉语言模型的奖励模型,进一步提升模型的综合能力。

  • 在模型加速阶段,我们采用一致噪声期望来提升采样过程的平稳性,在保证生成质量无损的条件下大幅减少采样步数。(@AI 小小将)

4、ElevenLabs 正式进军亚太市场,在东京设立首家海外子公司

在这里插入图片描述

全球领先的 AI 语音技术公司 ElevenLabs 近日宣布在东京成立其首个海外子公司「ElevenLabs G.K。」这是该公司首个海外子公司,将作为其亚太地区业务的枢纽。此举是在公司完成 1.8 亿美元 C 轮融资后的重要战略扩张。

已有的战略合作

  • DOCOMO Innovations:NTT DOCOMO 的硅谷研发子公司

  • TBS:日本主要私营广播公司之一

  • MBC C&I:韩国主要广播公司 MBC 的子公司

  • LLSOLLU:拥有专有翻译和本地化技术的韩国科技公司

选择日本的战略理由

  • 丰富的语言文化遗产
  • 技术创新环境
  • 独特的市场需求,如老龄化社会的无障碍服务和沉浸式娱乐体验
  • 日语的特殊语言特性(语调、重音、情感微妙表达)与 ElevenLabs 技术优势相契合

应用案例

  • TBS 利用 ElevenLabs 的配音技术使其 KASSO 节目提供多语言版本,面向国际观众

  • MBC C&I 使用其 TTS 和 SFX 技术创建 AI 视频内容,包括在韩国国际 AI 电影节获得大奖的 Mateo 和在叙事类别获得第一名的 Art In the World。(@meng shao@X)

02.有亮点的产品

1、可灵 2.0 视频生成,以及可图 2.0 文生图模型

在这里插入图片描述

2025 年 4 月 15 日,快手旗下 AI 产品「可灵 AI」迎来升级,推出「可灵 2.0 视频生成」以及「可图 2.0 文生图模型」。本次更新亮点:

  • 可灵、可图模型层面更新, 快手结合多项自研技术创新,画面美学、语义响应和动态质量大幅度提升。2.0 全面升级了训练和推理策略,尤其是强化了对于复杂运动主体交互滤镜、构图术语等专业的表达和理解响应。

  • 精准微调功能。可灵新增新增「多模态编辑」功能,支持在一段 5s 的视频的基础上,输入图片/文字,对视频进行灵活、精准的修改和再创作。可图新增「图片编辑」及「风格转绘」功能。

  • AI 音效生成,根据影像内容结合文字 prompt,生成适配的音效片段。

据悉,可灵这次打造一种全新的交互「语言」—— MVL(Multi-modal Visual Language)。MVL 拥有 TXT 语义骨架和 MMW 多模态描述子,即通过文本+动作描述文件,生成精细的视频成片。这套语言形成了可灵 2.0 中新增的「多模态编辑」功能,包括三种模式:替换、增加和删除。

目前,可灵 AI 全系 2.0 模型已在网页端和 App 端全量上线。(@APPSO、LitGate)

2、小红书首次为独立开发者颁奖,体感与健身智能硬件 Action&Link 获大奖

在这里插入图片描述

小红书首届「独立开发大赛」设置宝藏 APP 和最佳 AI 项目两个赛道,共有 1355 个项目报名,包含 APP、网站、硬件等多个领域。小红书的官方数据显示,这里活跃着超过 5 万名独立开发者,独立开发相关内容发布较去年增长 146%,相关话题阅读量超过 5 亿次。

4 月 15 日,小红书首届「独立开发大赛」最终获奖名单如下:

  • 独立游戏《雨天》、AI 播客应用 Podwise、运动记录应用 Peak Watch 获宝藏 APP 奖项;

  • AI 二维码产品 QRBTF、AI 知识应用 nooka、AI 饮食应用《胃之书》获最佳 AI 项目;

  • 全场大奖由智能硬件 Action&Link 斩获。

值得注意的是体感与健身智能硬件 Action&Link:它通过外设硬件+AI 姿态识别算法,将传统键鼠操作转化为全身动作指令,让《原神》《黑神话:悟空》等硬核游戏变身「健身游戏」。其核心价值在于破解体感游戏的内容荒,无需等待厂商适配,直接让绝大多数的 PC/Switch 游戏支持体感操作。(@APPSO)

3、Whyser:AI 驱动的智能用户研究平台

在这里插入图片描述

Whyser 是一款定性研究平台,它利用 AI 技术革新用户访谈体验,帮助您通过 AI 主持的语音访谈,大规模发掘有价值的客户洞察。(@producthunt)

4、EverTutor Live :融合语音交互与自适应课程系统的 AI 导师平台
在这里插入图片描述

EverTutor Live 是一款基于 AI 语音交互的个性化在线辅导工具,通过模拟实时视频会议的教学场景提供自适应学习服务。其核心价值主张在于将人工智能导师的个性化指导与实时语音互动相结合,解决传统在线教育中缺乏即时反馈、教学方式僵化及高成本家教服务可及性差等痛点。

产品以高度自然的话术交互、动态知识图谱驱动的自适应课程系统(根据学习表现实时调整难度)及 Zoom 式界面设计(降低新用户学习成本)为核心功能。标准版/专业版的分层订阅模式满足不同学习强度需求。(@Z Potentials)

5、Sherlock:远程面试作弊检测 AI 工具

在这里插入图片描述

Sherlock 致力于解决远程面试中因人工智能滥用而引发的诚信问题。其核心价值在于利用视觉、听觉和推理能力,有效检测 AI 辅助作弊行为,从而帮助招聘方专注于进行高质量的对话。Sherlock 的目标用户群体主要包括招聘经理、人力资源团队,以及希望高效筛选候选人的企业,特别是那些依赖远程面试进行全球化招聘的组织。

Sherlock 的核心功能亮点包括:

  • 多模态 AI 检测: 综合分析视频、音频及行为数据,精准识别异常行为。

  • 实时警告系统: 在面试过程中即时提示可疑活动,防患于未然。

  • 详细分析报告: 提供全面的面试完整性评估,助力招聘决策。

Sherlock 的差异化优势体现在其先进的 AI 推理能力与无缝集成的工作流设计,使用户能够快速部署并获得可靠的检测结果。(@Z Potentials)

03.有态度的观点

1、江苏科技大学教授:可靠的照护机器人至少还需 10 年

近日,荷兰阿姆斯特丹自由大学高级研究员,江苏科技大学客座教授黄智生接受人民日报采访,其谈及了 AI 照护机器人的相关话题,表示 AI 照护机器人应该以人类安全为原则。

教授表示,AI 照护机器人是人类技术文明发展的必然方向:以后每个人都会需要这样的机器人完成家务工作以及心理陪护,甚至会成为亲密伴侣。目前其所看到的 AI 照护机器人的开发和应用的发展也是非常迅猛的, 但是这都是在理想的应用环境下实现的。

对于 AI 照护机器人的安全性问题,黄智生教授则认为,目前现有的条件还很难完成所有特殊环境和场景的测试。因此黄智生教授预测,至少还需要十年的时间。

黄智生教授还强调,当机器人具备超越人类知识和能力的时候,人类就无法绝对避免出现机器人想操控这个世界想奴役人类的想法。教授建议,人类在这方面宁可放慢脚步,也要以人类安全作为至高无上的原则来考虑。(@APPSO)

2、马云发声:未来不是让 AI 取代人类,而是让 AI 解放人类

在这里插入图片描述

近日,阿里云新财年启动会在杭州云谷园区举行,马云到场发表演讲。他表示,高科技绝不仅是征服星辰大海,更应该呵护人间烟火。科技人员的责任,不是让 AI 取代人类,而是让 AI 更懂人类、更好地服务人类。

马云说,今天阿里云的资源和技术人才,既是发展云计算和 AI 的信心所在,更是责任所在。
「科技的意义是要让人类活得更好、活得更有意义,是让所有的普通人从中受益。」

他表示「科技要给每一个普通人的生活带来变革,让每一个人有尊严。希望我们所有人、阿里同事们,大家一起持续努力,把这个世界带入一个善良的高科技时代。」

他说:「我们不是追求让机器像人,而是让机器理解人类,像人类一样去思考,做人类做不到的事情。」他表示,未来不是让 AI 取代人类,而是应该让 AI 解放人类,更懂人类、服务好人类。(@中国基金报)
在这里插入图片描述

更多 Voice Agent 学习笔记:

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2336558.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

STM32启动流程详解

STM32启动流程详解 本文档详细介绍STM32微控制器从上电到main函数执行的完整启动流程。 1. 上电与复位过程 当STM32芯片上电或复位时,硬件会执行以下步骤: 上电复位(POR)/低电平复位(PDR): 芯片接通电源或NRST引脚置低时触发初始PC值设置: 程序计数器…

Langchain + Gemini API调用基本操作

本文参考Langchain中ChatGoogleGenerativeAI的官方文档,在本地的jupyter notebook中运行。 关于API的细节在官方文档最开头给出: 我们在使用时,可以选择model"gemini-2.0-flash-001"或者生成图片的ChatGoogleGenerativeAI(model“…

【数据结构】4.单链表实现通讯录

在上一篇文章我们学会了用单链表来实现各种方法,在这一篇文章我们将在单链表的基础上实现通讯录。 0、准备工作 实现通讯录之前,我们还需要在单链表的基础上添加2个文件,头文件Contact.h和源文件Contact.c。Contact.c来实现通讯录方法的声明…

接口自动化测试(一)

一、HTTP请求的核心概念及原理详解 HTML:超文本标记语言-----通过<标记符>内容</标记符>格式-------页面 URL:统一资源定位符 返回数据有很多&#xff1a;页面、图片、视频&#xff0c;都可以进行返回---统称为&#xff1a;资源HTTP:超文本传输协议(请求-响应的协…

【JavaEE】Spring AOP的注解实现

目录 一、AOP 与 Spring AOP二、Spring AOP简单实现三、详解Spring AOP3.1 Spring AOP 核心概念3.1.1 切点&#xff08;Pointcut&#xff09;3.1.2 连接点&#xff08;Join Point&#xff09;3.1.3 通知&#xff08;Advice&#xff09;3.1.4 切面&#xff08;Aspect&#xff09…

揭秘大数据 | 22、软件定义存储

揭秘大数据 | 19、软件定义的世界-CSDN博客 揭秘大数据 | 20、软件定义数据中心-CSDN博客 揭秘大数据 | 21、软件定义计算-CSDN博客 老规矩&#xff0c;先把这个小系列的前三篇奉上。今天书接上文&#xff0c;接着叙软件定义存储的那些事儿。 软件定义存储源于VMware公司于…

OpenCV 图形API(37)图像滤波-----分离过滤器函数sepFilter()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 应用一个可分离的线性滤波器到一个矩阵&#xff08;图像&#xff09;。 该函数对矩阵应用一个可分离的线性滤波器。也就是说&#xff0c;首先&a…

flutter下载SDK环境配置步骤详解

目录 1.Flutter官网地址、SDK下载地址? 1.1 选择你电脑的系统​ 2.配置环境 3.解决环境报错 zsh:command not found:flutter 1.Flutter官网地址、SDK下载地址? flutter官网地址: URL 1.1 选择你电脑的系统 下载解压动目录就OK了 2.配置环境 1、打开命令行&#xf…

数据结构与算法入门 Day 0:程序世界的基石与密码

&#x1f31f;数据结构与算法入门 Day 0&#xff1a;程序世界的基石与密码&#x1f511; ps&#xff1a;接受到了不少的私信反馈&#xff0c;说应该先把前置的知识内容做一个梳理&#xff0c;所以把昨天的文章删除了&#xff0c;重新开启今天的博文写作 Hey 小伙伴们&#xff…

vscode终端运行windows服务器的conda出错

远程windows服务器可以运行&#xff0c;本地vscode不能。 打开vscode settings.json文件 添加conda所在路径

“大湾区珠宝艺境花园”璀璨绽放第五届消博会

2025年4月13日&#xff0c;第五届中国国际消费品博览会&#xff08;以下简称"消博会"&#xff09;重要主题活动——《大湾区珠宝艺境花园》启动仪式在海南国际会展中心2号馆隆重举行。由广东省金银珠宝玉器业厂商会组织带领粤港澳大湾区优秀珠宝品牌&#xff0c;以“…

十、自动化函数+实战

Maven环境配置 1.设计测试用例 2.创建空项目 1&#xff09;添加需要的依赖pom.xml <dependencies> <!-- 截图配置--><dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.6</…

Day09【基于jieba分词和RNN实现的简单中文分词】

基于jieba分词和RNN实现的中文分词 目标数据准备主程序预测效果 目标 本文基于给定的中文词表&#xff0c;将输入的文本基于jieba分词分割为若干个词&#xff0c;词的末尾对应的标签为1&#xff0c;中间部分对应的标签为0&#xff0c;同时将分词后的单词基于中文词表做初步序列…

自动化测试——selenium

简介 Selenium 是一个广泛使用的自动化测试工具&#xff0c;主要用于 Web 应用程序的自动化测试。它能实现的功能是网页的自动化操作&#xff0c;例如自动抢票刷课等。同时你应该也见到过有些网站在打开之后并没有直接加载出网站的所有内容&#xff0c;比如一些图片等等&#x…

Linux——进程通信

我们知道&#xff0c;进程具有独立性&#xff0c;各进程之间互不干扰&#xff0c;但我们为什么还要让其联系&#xff0c;建立通信呢&#xff1f;比如&#xff1a;数据传输&#xff0c;资源共享&#xff0c;通知某个事件&#xff0c;或控制某个进程。因此&#xff0c;让进程间建…

【免费参会合集】2025年生物制药行业展会会议表格整理

全文精心整理, 建议今年参会前都好好收藏着&#xff0c;记得点赞&#xff01; 医药人非常吃资源&#xff0c;资源从何而来&#xff1f;作为一名从事医药行业的工作者&#xff0c;可以很负责任的告诉诸位&#xff0c;其中非常重要的一个渠道就是会议会展&#xff01; 建议所有医…

腾讯云开发+MCP:旅游规划攻略

1.登录注册好之后进入腾讯云开发 2.创建环境 4.创建好环境之后点击去开发 5.进入控制台后&#xff0c;选择AI&#xff0c;找到MCP 6.点击创建MCP Server 使用腾讯云开发创建MCP目前需要云开发入门版99/月&#xff0c;我没开通&#xff0c;所以没办法往下进行。

Sklearn入门之数据预处理preprocessing

、 Sklearn全称:Scipy-toolkit Learn是 一个基于scipy实现的的开源机器学习库。它提供了大量的算法和工具&#xff0c;用于数据挖掘和数据分析&#xff0c;包括分类、回归、聚类等多种任务。本文我将带你了解并入门Sklearn下的preprocessing在机器学习中的基本用法。 获取方式…

家用打印机性价比排名及推荐

文章目录 品牌性价比一、核心参数对比与场景适配二、技术类型深度解析三、不同场景选择 相关文章 品牌 性价比 一、核心参数对比与场景适配 兄弟T436W 优势&#xff1a; 微压电技术&#xff0c;打印头寿命长&#xff0c;堵头率低。 支持A4无边距和5G WiFi&#xff0c;适合照片…

数字电子技术基础(四十七)——使用Mutlisim软件来模拟74LS85芯片

目录 1 使用74LS85N芯片完成四位二进制数的比较 1.1原理介绍 1.2 器件选择 1.3 运行电路 2 使用74LS85N完成更多位的二进制比较 1 使用74LS85N芯片完成四位二进制数的比较 1.1原理介绍 对于74LS85 是一款 4 位数值比较器集成电路&#xff0c;用于比较两个 4 位二进制数&…