让万物「听说」:AI 对话式智能硬件方案和发展洞察

news2025/2/9 4:31:05

本文整理自声网 SDK 新业务探索组技术负责人,IoT 行业专家 @吴方方 1 月 18 日在 RTE 开发者社区「Voice Agent +硬件分享会」上的分享。本次主要介绍了 AI 对话式智能硬件的发展历程,新一波 AI 浪潮所带来的创新机遇、技术挑战以及未来的展望。

在语音交互浪潮的推动下,AIoT 行业正在经历一场前所未有的变革。今天,我们来聊聊这一领域的发展。

从「听到」到「听懂」 ,AI 对话式智能硬件的发展历程

2017 年,第一波 AI 浪潮带来了技术突破,解决了语音转文字、文字转语音以及简单的自然语义理解问题。这三项技术结合在一起,催生出了 AIoT 的概念。

到了 2020 年,AIoT 进入快速发展期。此时,人与机器通过自然语言进行交流交互已成为现实。在这一阶段,ASR 的识别准确率超过了 93%,TTS 在自然性和感情表达方面也取得了显著进步。例如在听有声小说时,有时几乎无法分辨声音是由计算机合成的还是人类朗读的。这些技术成果,成为上一个 AI 浪潮留下的重要资产。

图片

如今,大模型的出现正在各行各业引发深远影响,AIoT 行业也因此迎来了全新的发展机遇,以下是几个关键变化:

自然语言理解: AI 助手的理解能力迈上了新的台阶。过去,AI 助手只能“听懂”用户的指令并完成一些简单的任务。 但现在,它们不仅能理解具体的任务,还能领会指令背后的真实意图。 这种能力让 AI 助手不再局限于被动执行,展现出更强的智能和灵活性。

生成式对话: 早期的 AI 对话模型依赖大量标注数据进行训练,对语义的理解生硬且机械,像“查字典”一样。而大模型的出现带来了根本性改变, 现在的 AI 模型能够真正理解对话的含义,并基于语义自主生成内容。这一转变显著提升了 AI 发展的速度,技术的进步曲线变得更加陡峭。 随着数据和语料库的扩充,AI 的自主性将持续增强,呈现指数级增长。

多模态: 通过整合文本、语音、图像等多种形式的数据, AI 能够从多个维度感知环境, 从而对世界有更全面、更深入的理解。未来,更多传感器数据的加入将进一步增强 AI 的感知能力,为其在更多领域的应用提供更坚实的技术支持。

自学习能力: 当前,Agent 已具备接受用户 纠正和反馈的能力。 通过不断学习和调整,Agent 能够适应不同用户的个性化需求,提供更加精准、贴心的服务。这种自学习能力为 AI 的持续优化和用户体验提升奠定了基础。

大模型带来的这些技术突破,将推动 AIoT 行业进入一个全新的发展阶段,为更多创新和应用开辟广阔空间。

图片

在这些变革的推动下,AIoT 领域的产品形态正在发生显著变化,以下几个例子可以清晰展现这一趋势:

会议助手

早期的会议助手功能单一,主要充当会议记录员的角色。在会议中,它通过麦克风收集语音信息,并利用 ASR 技术将语音转化为文字以供后续查阅。如今,AI Agent 的出现让会议助手功能大幅升级。它不仅能记录内容,还能对会议讨论进行总结,提炼出核心话题和最终决策事项,并梳理出下一步行动计划。这种能力显著提升了会议的效率和质量。

AI 实时转译耳机

AI 实时转译耳机为翻译领域带来了全新变革。在跨语言交流场景中,用户只需佩戴耳机,AI 即可实时提供同声传译,帮助不同语言背景的人实现无障碍沟通。这项创新突破了语言障碍,为全球交流与合作提供了更加高效便捷的工具。

机器人助手

机器人助手在功能上超越了早期的智能音箱。智能音箱通常只能执行简单的语音播放任务,而机器人助手凭借多模态能力,可以主动与用户互动。它不仅能识别语音指令,还能捕捉用户的表情、动作等非语言信息,并据此提供综合回应。机器人助手能完成从设置闹钟到预订机票等多样化任务,在日常生活中扮演越来越重要的角色。未来,它将不断进化,成为人们贴心的个人助理,全方位满足生活和工作的需求。

实时交流、海量传输,AIoT 还将面临哪些挑战

任何变革都伴随着挑战。大模型在 AIoT 新时代的应用推动了技术变革,同时也带来了新的技术难题,主要表现在以下几个方面:

在这里插入图片描述

部署成本提高

以前,小型企业在提供 AI 服务时,主要专注于数据标注和模型训练,成本相对较低。然而,大模型的训练需要巨额资金投入,同时为了实现低延迟和多模态功能,还需额外承担算力、存储和流量成本。

对延迟的苛刻要求

随着人们对人机交互体验的期望提升,对话的流畅性和即时性成为关键。过去,机器主要用于接受控制指令,而现在用户希望与 AI 进行更自然、更实时的交流,这对延迟提出了更高要求。

端云协同的普及

大量数据处理需要依赖云端的强大算力,这要求云端具备高效的计算能力,同时确保端与云之间的稳定连接和高效数据传输。

多模态数据的传输压力

多模态技术的发展使数据传输量激增,对网络带宽和稳定性提出了更高要求。只有具备高带宽和高稳定性的网络,才能支持多模态数据的快速、准确传输,保障 AI 系统的正常运行。

延迟低、传输快RTC 助力 AIoT 新玩法

面对这些挑战,引入新的技术成为必然选择。而 RTC 的技术优势可以为 AIoT 场景带来更多创新可能。

在这里插入图片描述

首先,RTC 技术具有 超低延迟 的特点,并且实现了 全球范围的广泛覆盖, 能够确保数据的快速传输。例如,从美国向中国传输数据时,延迟可以控制在几十毫秒以内。这种低延迟特性对需要实时响应的 AIoT 场景尤为重要。

其次,RTC 技术支持 多种类型的数据传输, 传输通道非常灵活。不仅适用于音频和视频数据,还能支持未来可能出现的结构化数据,如 3D Metadata 等。这种灵活性为 AIoT 场景下的多样化数据交互提供了可靠的技术保障。

此外,RTC 技术还能 有效转移端侧的计算压力。 例如,在音频 3A(回声消除、自动增益、噪声抑制)处理方面,传统端侧芯片的处理能力有限,难以实现理想效果。而 RTC 技术可以将这些任务转移到服务器端,利用服务器强大的算力对音频数据进行更精细、更高效的处理,从而显著提升音频质量,为用户提供更好的体验。

在这里插入图片描述

声网凭借在 RTC 领域多年的深厚技术沉淀,以及开放生态环境,推出了声网 AI Agent x IoT 智能硬件解决方案,该方案 能够在低功耗、低算力芯片上快速实现大模型的接入,具备低延时实时互动、低成本灵活适配的特性,通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。

对于开发者而言,只需在端侧接入 RTC 技术,并将 Agent 能力部署于云端,Agent 的变动不会对端侧开发造成任何影响。在这套方案的服务架构中,设备端芯片会集成声网 RTC 端侧 SDK,该 SDK 能够将采集到的音视频数据高效传输至 Agent 服务器。服务器集成了 VAD、音频 3A 处理、TTS、ASR 等一系列核心功能。数据在服务器中经过上述功能模块的处理后,会与指定的大模型进行交互。大模型处理返回的结果,会进一步经过翻译转化为语音,最后通过优化后的传输通道回传至设备端。

这种设计大幅减轻了设备端的开发工作量。开发者 仅需专注于在 RTC 通道上进行音视频数据的传输, 其他所有的计算任务均由云端服务器来完成。声网始终致力于技术的持续优化与升级,不断提升人与设备之间基于LLM的互动体验。目前, 声网 AI Agent x IoT 智能硬件解决方案已经提供了包含大网实时传输,音频处理、语音识别、文本处理、视频处理等能力,可以支持智能管家、安防助手、虚拟陪伴、生活助理、实时翻译等应用场景。

尽管 IoT 经过多年发展,已经形成了较为成熟的产品体系,但 AI 的进步将为其带来更多创新场景和技术突破。

  • IoT 终端将在未来发挥更重要的作用。作为 AI 大模型的数据来源,IoT 终端将为 AI Agent 的进化提供支持,进一步加速其发展。

  • AI Agent 的发展方向将更加注重个性化。它能够深入洞察每位用户的需求和偏好,提供真正因人而异的差异化服务,满足更多元化的使用场景。

  • AI Agent 之间通过自然语言进行协同工作的可能性也越来越大。这将有助于打破 IoT 领域长期存在的数据不互通和协议不兼容问题,推动IoT 生态朝着更加智能化和融合化的方向演进。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2295058.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Day38-【13003】短文,二叉树,完全二叉树,二叉树的顺序存储,和链式存储

文章目录 第二节 二叉树二叉树的定义及重要性质n个结点,能组合成多少个不同的二叉树满二叉树、完全二叉树完全二叉树的性质二叉树的性质二叉树的结点数完全二叉树的高度 二叉树的存储顺序存储方式链式存储方式二叉链表的程序实现二叉链表空指针域计算 第二节 二叉树…

【AI】在Ubuntu中使用docker对DeepSeek的部署与使用

这篇文章前言是我基于部署好的deepseek-r1:8b模型跑出来的 关于部署DeepSeek的前言与介绍 在当今快速发展的技术环境中,有效地利用机器学习工具来解决问题变得越来越重要。今天,我将引入一个名为DeepSeek 的工具,它作为一种强大的搜索引擎&a…

unity视频在场景中的使用

(一)软件操作在平面上显示视频播放 1.创建渲染器纹理 2.创建平面 3.在平面上添加Video player 4.视频拖拽到Video player 5.渲染模式选择渲染器纹理 6.把纹理拖到目标纹理上 7.把纹理拖到平面上就可以了 然后运行项目 8.结果 (二&#…

vue3+vite+eslint|prettier+elementplus+国际化+axios封装+pinia

文章目录 vue3 vite 创建项目如果创建项目选了 eslint prettier从零教你使用 eslint prettier第一步,下载eslint第二步,创建eslint配置文件,并下载好其他插件第三步:安装 prettier安装后配置 eslint (2025/2/7 补充) 第四步&am…

【Android开发AI实战】基于CNN混合YOLOV实现多车牌颜色区分且针对车牌进行矫正识别(含源码)

文章目录 引言单层卷积神经网络(Single-layer CNN)📌 单层 CNN 的基本结构📌 单层 CNN 计算流程图像 透视变换矫正车牌c实现🪄关键代码实现:🪄crnn结构图 使用jni实现高级Android开发&#x1f3…

多光谱成像技术在华为Mate70系列的应用

华为Mate70系列搭载了光谱技术的产物——红枫原色摄像头,这是一款150万像素的多光谱摄像头。 相较于普通摄像头,它具有以下优势: 色彩还原度高:色彩还原准确度提升约 120%,能捕捉更多光谱信息,使拍摄照片色…

数字人|通过语音和图片来创建高质量的视频

简介 arXiv上的计算机视觉领域论文: AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation AniPortrait:照片级真实感肖像动画的音频驱动合成 核心内容围绕一种新的人像动画合成框架展开。 研究内容 提出 AniPortrait 框架&a…

LLMs瞬间获得视觉与听觉感知,无需专门训练:Meta的创新——在图像、音频和视频任务上实现最优性能。

引言: 问题: 当前的多模态任务(如图像、视频、音频描述生成、编辑、生成等)通常需要针对特定任务训练专门的模型,而现有的方法在跨模态泛化方面存在局限性,难以适应新任务。此外,多模态嵌入反演…

ZZNUOJ(C/C++)基础练习1081——1090(详解版)

目录 1081 : n个数求和 (多实例测试) C C 1082 : 敲7(多实例测试) C C 1083 : 数值统计(多实例测试) C C 1084 : 计算两点间的距离(多实例测试) C C 1085 : 求奇数的乘积(多实例测试…

【DeepSeek】私有化本地部署图文(Win+Mac)

目录 一、DeepSeek本地部署【Windows】 1、安装Ollama 2、配置环境变量 3、下载模型 4、使用示例 a、直接访问 b、chatbox网页访问 二、DeepSeek本地部署【Mac】 1、安装Ollama 2、配置环境变量 3、下载模型 4、使用示例 5、删除已下载的模型 三、DeepSeek其他 …

深度学习里面的而优化函数 Adam,SGD,动量法,AdaGrad 等 | PyTorch 深度学习实战

前一篇文章,使用线性回归模型逼近目标模型 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于 强化学习必修课:引领人工智能新时代【梗直哥瞿炜】 深度学习里面的而优化函数 …

基于Spring Boot的图书个性化推荐系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

【论文阅读】Comment on the Security of “VOSA“

Comment on the Security of Verifiable and Oblivious Secure Aggregation for Privacy-Preserving Federated Learning -- 关于隐私保护联邦中可验证与遗忘的安全聚合的安全性 论文来源摘要Introduction回顾 VOSA 方案对VOSA不可伪造性的攻击对于类型 I 的攻击对于类型 II 的…

3.攻防世界 Confusion1(服务器模板注入SSTI)

题目描述如下 进入题目页面如下 图片是蟒蛇、大象?python、php? 猜测需要代码审计 点击 F12查看源码,有所提示flag 但是也没有其他信息了 猜测本题存在SSTI(服务器模板注入)漏洞,为验证,构造…

保姆级教程 !SQL Server数据库的备份和还原

使用 SQL Server Management Studio (SSMS) 备份和还原数据库 1、数据库备份 Step 1 打开 SSMS 输入server name 以及用户名和密码连接到你的 SQL Server 实例 Step 2 展开Database,选中你要备份的数据库 Step 3 右击选中的数据库,点击Tasks --> Back …

AlwaysOn 可用性组副本所在服务器以及该副本上数据库的各项状态信息

目录标题 AlwaysOn语句代码解释:1. sys.dm_hadr_database_replica_states 视图字段详细解释及官网链接官网链接字段解释 2. sys.availability_replicas 视图字段详细解释及官网链接官网链接字段解释 查看视图的创建语句方法一:使用 SQL Server Managemen…

ip地址是手机号地址还是手机地址

在数字化生活的浪潮中,IP地址、手机号和手机地址这三个概念如影随形,它们各自承载着网络世界的独特功能,却又因名称和功能的相似性而时常被混淆。尤其是“IP地址”这一术语,经常被错误地与手机号地址或手机地址划上等号。本文旨在…

zephyr devicetree

Syntax and structure — Zephyr Project Documentation Input files There are four types of devicetree input files: sources (.dts) includes (.dtsi) overlays (.overlay) bindings (.yaml) The devicetree files inside the zephyr directory look like this: …

学习笔记:机器学习中的数学原理(一)

1. 集合 集合分为有限集和无限集; 对于有限集,两集合元素数相等即为等势; 对于无限集,两集合元素存在一一映射关系即为等势; 无限集根据是否与正整数集等势分为可数集和不可数集。 2. sigmoid函数(也叫…

鼠标滚轮冒泡事件@wheel.stop

我有一个页面,是在画布上的组件,但是组件中有一个table,table中数据多了,就会出现滚动条,正常情况下,滚动条用鼠标滚轮就可以滑动,但是这个table是在画布上,滚动滚轮会让画布缩放 在table外层的div上加上 wheel.stop,就生效了 wheel.stop 用途:这个修饰符用于处理鼠…