紫光展锐M6780丨一语即达,“声”临其境

news2025/1/16 18:51:43

在前面四期,紫光展锐针对M6780的显示技术进行了系列揭秘。虽名为“智能显示芯片”,但M6780的魅力远不止于超高清智能显示,更有智能语音交互功能,助力打造数字世界的交互新体验。

智能语音技术是一种基于人工智能和语音识别技术的创新领域,它使得智能终端能够理解和处理用户的语音指令及交流。在智能家居和物联网领域,随着智能家居设备的普及和用户对便捷交互的需求增加,智能语音技术成为人们控制设备、查询信息、实现家居数字化的主要方式之一。

紫光展锐M6780从用户角度出发,在智能语音技术领域进行技术创新,带来了全面的体验升级!

图片

完整端侧智能语音解决方案-让交互“更智能”

语音助手如今已是智能终端的标配,M6780作为紫光展锐首款智能显示芯片集成了完整端侧智能语音方案。通过紫光展锐自研的多麦克风阵列分离降噪、智能语音唤醒识别、端侧命令词识别等技术,让芯片可以听得清、听得懂、能执行。

阵列分离降噪技术可以实现对外界干扰噪声和回声的抑制消除,让设备“听得清”;智能语音唤醒识别技术,确保设备“听得懂”。该方案(详见图二)完全集成在端侧,相对于云端唤醒识别算法,交互延迟更低,无需云端计算资源节省成本,且无隐私风险。

图片

多麦克风阵列分离降噪技术

在日常生活中,当电视正在播放电视节目,如果用户想语音控制电视,在嘈杂环境下设备如何才能够听清用户指令?这便需要回声消除技术——针对电视多扬声器、大音量的特性,紫光展锐研发出多通道立体声回声消除技术和自适应残留回声抑制技术,共同保证双工交互场景的成功率。

图片

针对家居场景中,噪声类型多、混响大、拾音距离远信噪比差的问题。紫光展锐将盲源分离和波束形成技术深度结合,实现了两者算法短板的互补,兼容了二者的优势。即使在多干扰的嘈杂环境也可以保障用户流畅交互。

M6780搭载了完整的声学前端阵列分离技术,能够解决噪声、回声和混响对用户交互体验的影响。经专业实验室测试,紫光展锐自研的声学前端系统使得噪声场景下唤醒率提升平均在25%左右,特别是低信噪比场景下,唤醒率提升明显。在回声场景下,唤醒率平均提升90%左右,达到了业界先进水平。

双级唤醒技术

语音唤醒作为语音交互的门户,需要24小时不间断运行(always on),需要保证高唤醒率、低误唤醒率,同时要求具有较低的计算和内存开销,以满足低功耗、低成本需求。为实现高性能、低功耗,展锐采用两级唤醒策略:

第一级唤醒模型为超轻量级,参数量仅为50k左右,部署在协处理器。当开启语音唤醒功能,一级唤醒处于always on状态,实时监测音频流中是否包含唤醒词。这个阶段只需要非常低的计算资源,因此在长时间运行的过程中能够有效地减少功耗,同时也能保证一个较高的召回率水平。

第二级模型建模粒度更细,计算量也更大,部署在主处理器,只有在一级唤醒网络检测成功后才会触发。该级唤醒能够压制从一级唤醒过来的几乎所有虚警,只有该级唤醒词识别成功后才会触发后续的语音响应。两级唤醒策略可以合理地使用SoC资源,在资源消耗和唤醒性能之间达到一个较好的平衡。

端侧命令词识别技术

唤醒只是语音交互的第一步,紧随而至的控制指令识别才是交互需求的目的。语音识别控制作为语音交互的核心诉求,需要满足低延迟、高准确率等,否则易降低用户使用语音助手的意愿。

紫光展锐M6780支持电视常用热词识别,即使在无网络的情况下,也可以实现对设备基本操作的控制。命令词识别过程中通常面临集内互为相近词的误识问题,例如“上一频道”和“下一频道”,这对于准确率的优化提升非常不利,而该问题对用户体验影响非常关键。因此紫光展锐在模型的区分性训练和解码优化策略上都针对性地提出了多种创新方案,在保证识别率的同时,集内相近词误识降低了48%。

同时,紫光展锐设计了“一语即达”one-shot方案(唤醒词和命令词一起说,不需要等待中间唤醒反馈),实现了更自然的人机交互方式。为了更贴合用户实际使用电视的习惯,我们也增加了设备“延时聆听”功能,用户仅需一次唤醒,在一定时间内实现多次交互控制的需求。

图片

噪声场景实验室唤醒性能对比图

图片

回声场景实验室唤醒性能对比图

紫光展锐M6780智能语音方案,在听音室客观条件下安静场景唤醒率98%、带噪场景综合唤醒率90%以上,虚警控制在1次/24h以下。命令词识别也实现了安静场景96%、带噪场景90%的识别率的高性能。在于不同竞品的对比测试中,M6780方案综合唤醒率排名位于前列,达到业界领先水平。M6780智能语音系统凭借优异的前后端音频算法以及软硬件实现,让语音交互“更智能”。

作为世界领先的平台型芯片设计企业,紫光展锐坚持以技术创新为核心,全力提升产品、技术能力,强化公司核心竞争力,推动公司跨越式发展,为产业和社会创造价值,用科技之光照亮幸福生活。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1434947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【CSS】margin塌陷和margin合并及其解决方案

【CSS】margin塌陷和margin合并及其解决方案 一、解决margin塌陷的问题二、避免外边距margin重叠(margin合并) 一、解决margin塌陷的问题 问题:当父元素包裹着一个子元素的时候,当给子元素设置margin-top:100px,此时不…

(已解决)vueQQ邮箱注册发送验证码前端设计,如何发送验证码设计倒计时

我们之前已经通过前端测试成功完成qq邮箱动态验证码发送&#xff08;未使用redis&#xff0c;我准备自己了解完后&#xff0c;后期有时间补上&#xff09; 衔接文章&#xff1a; 1&#xff1a; spingboot 后端发送QQ邮箱验证码 2&#xff1a; 这段代码建设图形化界面 <di…

分享springboot框架的一个开源的本地开发部署教程(若依开源项目开发部署过程分享持续更新二开宝藏项目MySQL数据库版)

1首先介绍下若依项目&#xff1a; 若依是一个基于Spring Boot和Spring Cloud技术栈开发的多租户权限管理系统。该开源项目提供了一套完整的权限管理解决方案&#xff0c;包括用户管理、角色管理、菜单管理、部门管理、岗位管理等功能。 若依项目采用前后端分离的架构&#xf…

Nacos1.X源码解读(待完善)

下载源码 1. 克隆git地址到本地 # 下载nacos源码 git clone https://github.com/alibaba/nacos.git 2. 切换分支到1.4.7, maven编译(3.5.1) 3. 找到启动类com.alibaba.nacos.Nacos 4. 启动VM参数设置单机模式, RUN 启动类 -Dnacos.standalonetrue 5. 启动本地服务注册到本…

Spark SQL调优实战

1、新添参数说明 // Driver和Executor内存和CPU资源相关配置 --是否开启executor动态分配&#xff0c;开启时spark.executor.instances不生效 spark.dynamicAllocation.enabledfalse --配置Driver内存 spark.dirver.memory5g --driver最大结果大小&#xff0c;设置为0代…

踩坑了,MySQL数据库生成大量奇怪的大文件

作者&#xff1a;田逸&#xff08;formyz&#xff09; 一大早就收到某个数据库服务器磁盘满的报警信息&#xff0c;其中数据盘使用率超过90%&#xff0c;如下图所示。 这是一台刚上线不久的MySQL从库服务器&#xff0c;数据盘的总容量是300G。先登录系统&#xff0c;查看主从同…

全链游戏的未来趋势与Bridge Champ的创新之路

为了充分探索全链游戏的特点和趋势&#xff0c;以及Bridge Champ如何作为一个创新案例融入这一发展脉络&#xff0c;我们需要深入了解这两者之间的互动和相互影响。全链游戏&#xff0c;或完全基于区块链的游戏&#xff0c;代表了游戏行业的一个重要转型&#xff0c;它们利用区…

【C++】I/O多路转接详解(二)

在上一篇文章【C】I/O多路转接详解&#xff08;一&#xff09; 在出现EPOLL之后&#xff0c;随之而来的是两种事件处理模式的应运而生&#xff1a;Reator 和 Proactor,同步IO模型常用于Reactor模式&#xff0c;异步IO常用于Proactor. 目录 1. 服务器编程框架简介2. IO处理1. R…

【爬虫作业】python爬虫作业——爬取汽车之家

爬取汽车之家期末作业&#xff1a; 代码如下所示&#xff1a; import random import timeimport requests #发送网络请求 import parsel import csv # 1.发送网络请求 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like G…

ELFK日志采 - QuickStart

文章目录 架构选型ELKEFLK ElasticsearchES集群搭建常用命令 Filebeat功能介绍安装步骤Filebeat配置详解filebeat常用命令 Logstash功能介绍安装步骤Input插件Filter插件Grok Filter 插件Mutate Filter 插件常见的插件配置选项&#xff1a;Mutate Filter配置案例&#xff1a; O…

ffmpeg命令生成器

FFmpeg 快速入门&#xff1a;命令行详解、工具、教程、电子书 – 码中人的博客FFmpeg 是一个强大的命令行工具&#xff0c;可以用来处理音频、视频、字幕等多媒体文件。本文介绍了 FFmpeg 的基本用法、一些常用的命令行参数&#xff0c;以及常用的可视化工具。https://blog.mzh…

什么是S参数

S参数是网络参数&#xff0c;定义了反射波和入射波之间的关系&#xff0c;给定频率的S参数矩阵指定端口反射波b的矢量相对于端口入射波a的矢量&#xff0c;如下所示&#xff1a; bS∙a 在此基础上&#xff0c;如下图所示&#xff0c;为一个常见的双端口网络拓扑图&#xff1a;…

GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

目录 1 ChatGPT概述1.1 what is chatGPT1.2 How does ChatGPT work1.3 The applications of ChatGPT1.3 The limitations of ChatGPT 2 算法原理2.1 GPT-12.1.1 Unsupervised pre-training2.1.2 Supervised fine-tuning2.1.3 语料2.1.4 分析 2.2 GPT-22.3 GPT-32.4 InstructGPT…

【计算机网络】计算机网络复习资料(期末)

复习要点 一、填空题 1.计算机网络的两个重要基本特点 连通性、共享 2&#xff0e;计算机中的端口号类型 两类端口号 { 服务器端 { 熟知端口号&#xff08;系统端口号&#xff09;数值为0~1023 登记端口号&#xff0c;1024~49151 } 客户端使用的端口号&#xff1a;短…

uniapp vue3怎么调用uni-popup组件的this.$refs.message.open() ?

vue2代码 <!-- 提示信息弹窗 --><uni-popup ref"message" type"message"><uni-popup-message :type"msgType" :message"messageText" :duration"2000"></uni-popup-message></uni-popup>typ…

架构学习(四):scrapy下载中间件实现动态切换User-Agent

scrapy下载中间件实现动态与固定UserAgent 前言关卡&#xff1a;实现动态切换User-Agentscrapy设置User-Agent方式梳理User-Agent生效梳理为何选择在下载中间件中实现自定义User-Agent下载中间件 结束 前言 请求头User-Agent是比较常规的反爬手段&#xff0c;不同站点对其检测…

uniapp+uView 【详解】录音,自制音频播放器

效果预览 代码实现 <template><view class"btnListBox"><view class"audioBox" v-if"audioLength"><u-row><u-col span"2"><u--text aligncenter :text"currentTime"></u--text>…

seatunnel数据集成(三)多表同步

seatunnel数据集成&#xff08;一&#xff09;简介与安装seatunnel数据集成&#xff08;二&#xff09;数据同步seatunnel数据集成&#xff08;三&#xff09;多表同步seatunnel数据集成&#xff08;四&#xff09;连接器使用 seatunnel除了单表之间的数据同步之外&#xff0c;…

BC100 有序序列合并

描述 输入两个升序排列的序列&#xff0c;将两个序列合并为一个有序序列并输出。 数据范围&#xff1a; 1≤n,m≤1000 1≤n,m≤1000 &#xff0c; 序列中的值满足 0≤val≤30000 输入描述&#xff1a; 输入包含三行&#xff0c; 第一行包含两个正整数n, m&#xff0c;用空…

前端使用pdf.js进行pdf文件预览的第二种方式:Viewer.html

背景 最近需要实现一个PDF文档预览的功能&#xff0c;按理说&#xff0c;如果只是简单的预览&#xff0c;使用<embed>、<object>等就可以实现。 但是&#xff0c;我们的需求要实现搜索&#xff01;而且&#xff0c;文档还都超大&#xff0c;均300页以上。那<e…