小米AI 连接智能生活

news2024/10/7 14:24:20

近年来,人工智能(AI)技术在多个领域落地并不断取得发展与突破。在互联网的推动下,AI语音助理、智能家居、眼镜相机等产品相继推出,打造了更加便捷的生活体验。

秉承着“技术为本”的理念,小米始终致力于前沿技术的探索。2016年,小米正式成立AI实验室,覆盖计算机视觉、语音声学、自然语言处理(NLP)、知识图谱、机器学习等多个研究方向。曾获百万美金技术大奖的Cyberdog铁蛋仿生机器人就融入了计算机视觉、自然语言处理和声学语音等多项AI技术。

那么,什么是视觉AI技术呢?小米的AI技术又有哪些新进展?让我们跟随小米AI实验室主任王斌、声学语音技术总监王育军、语音首席科学家 Daniel Povey一起走进AI技术。

01

AI视觉

AI视觉主要研究方向包括图像、视频的处理和理解,人脸、人体算法等。小米技术团队重点研究了手机相机的基础画质算法、图像视频的智能编辑、识别和理解。

  1    硬核算法,助力手机影像

近年来,小米AI实验室陆续为小米手机贡献了HDR、超级夜景、万物追焦、AI相机、单摄人像模式、美颜、人脸解锁、人脸相册、魔法换天、智能挑片、照片文字搜索等多个重点功能的核心算法。这些算法为相机系统架构“小米影像大脑”提供了强有力的技术支撑,其中,HDR、人像超清、边缘画质提升等技术曾助力小米手机3次登顶DXO。

678272afc6a90ba43f5ed8df25c92e10.jpeg

“超越人眼,感知人心”是小米提出的全新影像理念,让用户通过快门记录每个感动人心的瞬间是小米一直以来的愿景,而AI使这变得更加容易。例如,打开相机后,AI场景检测就会判断用户所处的场景是白天还是夜晚,室内还是室外。按下快门,HDR、超级夜景等算法会通过不同参数智能化地对当前场景进行处理,进而拍摄出适宜的动态范围、明暗对比强烈且细节细腻的照片。在小米全新影像理念背景下,HDR、超级夜景、AI场景检测等算法助力徕卡双画质,在手机上赋予用户单反级相机的影像体验。

0a018b1c82d92594ca471c23e1888973.jpeg

基于计算机视觉技术打造的“万物追焦”功能可以自动识别和聚焦人、猫、狗等动物,并针对不同拍摄距离进行焦点实时跟踪,随手一拍都清晰。“万物追焦2.0”在追焦1.0的基础上进行了大量功能更新,加入动物、花朵等多类目标的精准识别对焦,目前已在 Xiaomi 13系列、Redmi K60系列落地。

6b271efd1dd438ab78af20cccae59007.png

  2    所见即所得,高效办公“神器”

为普通用户带来更好的科技体验与便捷应用,实现“科技向善”,是小米视觉的技术愿景之一。除了影像画质,AI视觉还涵盖了多种实用功能。基于深入的用户调研,泛文档类对象是小米用户的核心拍照场景之一,通过前沿的对抗生成网络技术、三维模拟建模等AI技术,小米视觉逐渐落地了包括超级文档、AI去影、畸变恢复、手写消除、终端实时文字提取、表格识别等多个功能。

值得一提的是,终端实时文字提取、表格识别、手写消除等多项功能,最近在小米新系列机型先后上线,提升了小米手机商务应用方向的产品竞争力。其中,表格识别技术一经推出,就成为了日常办公中的“神器”:小米AI实验室利用 Visual AI 开发出表识别功能,可高效准确地提取纸质表格信息,实时转换为可编辑的电子表格,极大提升了办公效率。

ab92a86b3b87248f01057945b52460e2.png

图| 雷总在MIX FOLD2发布会上介绍表格智能提取功能

小米视觉将文字识别功能实现了终端化,并成功内置在小米13系列相机预览中,实现了业内一流的文字识别准确性,且可涵盖中英文等多种语言,达成实时“所见即所得”的文字识别能力。结合语音播报,为视障视弱人士提供了生活便利,提升了小米手机的无障碍应用能力。

2e2e3c5ced2748284f6a87a6b0da3cee.jpeg1076d347a30366d528a2d0f5db14f618.jpega46cf76e42fc79971c70a0c8f3292d2b.jpeg

图| 结合相机预览的实况文字识别

02

AI声学语音

小米声学语音技术发展已久,并在自研部分领域持续领先。其中,语音识别、语音唤醒、声纹识别、口语评测、语音合成、歌唱合成、AI作曲与编曲等方面均取得了重大突破。截至2022年,小爱同学月活跃用户数量为1.15亿,是世界上最忙的语音助手之一。声学语音团队承接了小米手机×AIoT设备上日均12.6亿次请求,为4.59亿设备累计提供了2158亿次交互语音服务。

  1    语音交互,声入人心

从学术角度来看,AI语音交互的三个终极目标分别是语境理解、情感对话和个性化。

“咖啡还是茶?”大多数时候,应该从两种特定饮料中选择一种,而不是回答“这是咖啡”。因此,使AI能够理解不同语境下人类语音的模糊性是自然语言处理的最终目标之一。

同时,小米将情感带入智能语音助手“小爱同学”,把原先只用来“定闹钟”“查天气”的“小爱同学”打造成一个可以吐槽、可以聊天的朋友。在专业心理研究团队的指导下,AI学会了理解情感,并可以给出同理心的答案。去年“520”情人节,小爱同学甚至举办了一场脱口秀。

eae2315cefd007e9b7e673d972683303.png

在语音交互的个性化、拟人化领域,小米AI实验室语音团队创新性地推出了个性化歌唱技术。依托AI语音的技术创新,通过复杂的语言和声学建模,使用户能够通过Text to speech引擎构建自己的声音个性,以此帮助不擅长、不敢唱歌的人克服障碍,让他们可以用歌声表达自己的情感。

此外,小米AI实验室还将自研的声音适配算法和超级拟人语音合成技术应用于无障碍领域,通过声音捐赠、模型训练、语音调制等过程完成声音的定制,为语言障碍者打开“有声”世界,兑现了小米“科技向善”的承诺。

  2    声学交互,声临其境

声学方面,目前AI通话降噪、空间音频,主动降噪等技术已在手机、电视、小爱、耳机手表等60余款产品中落地。

自研手机通话降噪技术,通过传统信号处理降噪和神经降噪的融合与相互助力,获得了更加深度的上行降噪量,同时使用丽音增强技术对远端语音根据环境自适应提升下行音质。在把手机通话降噪算法应用于耳机这样的可穿戴设备上,自研算法利用骨导传感器的输入,虚拟一颗耳内麦克风,使得在极低信噪比下的降噪变为可能。这些算法的创新应用于小米10至尊版、小米Note12 Pro系列手机,以及小米Bud4 Pro,以及小米手表S1 Pro等设备。

27734f5950e5d7aaaad6e284a8261130.png

小米自研全新独立空间音频技术,实现了空间音频技术在耳机内部芯片上的独立计算,无需依赖外部设备,即可营造出水平360° 的立体听感,即使头部转动,声源仍然保持固定,宛如置身现场。基于此项技术,小米Buds 4 Pro 在多个方面都达到了行业领先水平。

此外,小米AI实验室声学团队自主研发的主动降噪技术已落地应用于小米Buds 4 (Pro),最大降噪深度可达43dB,不仅最高可阻隔99.3%外部噪音,更能针对虫鸣、啼哭等宽频噪音进行优化处理,从而实现各种场景条件下良好的降噪体验。

03

自然语言处理(NLP)

在自然语言处理(Natural Language Processing)领域,小米目前研究的内容主要包含人机对话、机器翻译、机器写作、舆情分析等技术。已累计申请专利近80项,在 IWSLT 2020 开放域翻译、IWSLT 2022 机器同传以及 NAACL 2022 机器同传等国际机器翻译挑战赛上获得多项冠军,在IJCAI/AAAI/ICASSP/COLING/ACL/SIGIR等国际会议发表学术论文十余篇,“小米在线机器翻译系统”获2020年中国信息通信研究院机器翻译系统性能良好型评估认证,“端云协同机器翻译平台”获2021年中国国际大数据产业博览会“领先科技优秀项目”。

  1    机器翻译,跨越语言鸿沟

在全球化和国际化背景下,智能设备用户在跨语言交流、出境旅游、获取外语信息等场景下普遍需要机器翻译功能。目前,小米自研机器翻译技术已广泛落地应用于小爱翻译、小爱同学、AI通话助手、浏览器、传送门、笔记、扫一扫等小米手机软件产品,以及小爱老师学习机、小爱音箱、小爱鼠标、米兔手表、小米手环、米家眼镜相机等智能硬件产品,月活跃用户数超千万。

b09ebbc3146995da53947e166f2df548.png

图| MIUI全场景翻译

  2    人机对话,跨越心灵沟通

自然语言处理任务是人工智能皇冠上的明珠,对话系统又是自然语言处理中最难、最核心的任务之一。小米自研的闲聊对话能力,经历了从早期的检索算法到现在的对话生成模型,从只有基础的IQ到也包含EQ,正朝着以用户体验为中心的目标不断努力。目前自研闲聊服务通过小爱赋能了76个品类、4000余款设备,月活用户数超5000万。

  • 情绪感知能力:基于度量学习的情绪(语义)表示模型,可以识别6大类情绪,理解45种情绪原因或者状态,落地小米CyberOne铁大人形机器人,为业内首创。

19b5ce6e74a561a3fab3f5d85a22a7cb.png

  • 共情对话能力:基于情绪原因和积极聆听的共情对话策略,让用户在和小爱闲聊时感受到共情。

90cc453b3717847c3a1755f7cfae81f4.png

  • 多轮情感对话能力:首创在自研常识图谱上根据因果推理生成混合疏导策略,使得小爱的回复更有温度。

989befc9c49e00318c993df74803e024.png

  • 心理咨询技法嵌入:首创将认知行为疗法、焦点解决短期疗法等引入情绪疏导对话中,帮助用户减轻情绪问题。

    8c1c2de820ff8b2892c70239b2c862be.png

  • 语言风格个性化:通过独创的语言风格迁移技术,仅用小数据就可以实现多种角色语言风格的快速打造。

4cbe3337a673d254687e6bb49f8fb1a7.pnge0f1adea55b0bdc3d03ba5b7bce37948.png

  3    交互游戏,沉浸休闲体验

除了闲聊对话,各种交互游戏也是智能助手必备的技能。下面这些倍受用户欢迎的小爱技能,就是利用结构化信息、知识挖掘和AI生成等自然语言处理技术打造的。

3d39f28c2bf30b0e263489842b5494b4.png

04

知识图谱

小米AI实验室在图谱构建和图谱应用领域也取得了重大突破。在图谱构建方面,技术团队联合OpenKG进行了知识图谱的开源工作。在实体链接技术方面,两次获得中文短文本实体链接比赛第一名。

目前建立的知识图谱包含13个行业,高质量关系数量超百亿,已经广泛落地到智能问答、智能客服、广告、信息流等产品中。

  1    知识问答,小爱在线求考

小爱同学每日承接数亿次query请求,智能问答业务利用知识图谱平台丰富多样的数据不断优化用户体验。以学生场景为例,图谱加持下的智能问答功能和体验不断完善,增加了飞花令、猜灯谜、写春联等趣味功能,词典全面覆盖用户需求,内容和结果更加精品。学生场景的功能深受用户喜欢,近一年日活增长近一倍。

37971a806787e4433b79eef0d6989f1d.jpeg 217e0f1505c8278cb6fc9274640b39dd.png 1bb3fdaef2902301b0cf9045aea48406.png 70a1eb4582b5602733000c639e661112.jpeg

此外,依托图谱平台实体链接服务提供的核心词,智能问答业务不断优化语义理解能力,提出了多轮场景下基于核心词的意图改写模型,根据多轮会话还原用户真实意图,有效地解决了缺省、冗余、ASR错误等问题,从而能够准确地满足用户需求。基于图谱的问答技术能力在业界处于领先,获得过中文知识图谱问答比赛第一名。

  2    智能客服,轻松舒心的陪伴

智能客服业务依托知识图谱平台,打造了在线客服机器人、智能外呼、智能IVR等产品,为公司每年节省上千名客服人力。

  • 在线客服:基于NLP和深度学习技术,通过文字与用户进行交互,达到解决用户问题的目的,年接待用户咨询约2150w,用户咨询拦截率(用户咨询智能客服机器人后离开,不再转人工咨询)73%+,领先业界同类竞品6-7个点。

b3bb35f7ef99e26e6e8a1aa4cbfd99a2.png

  • 智能外呼:通过多轮问答技术,以语音方式主动与用户进行通话,一方面提升用户的购买和售后体验,另一方面达到去人工降本提效的目标,年呼出电话量3000w,其中中国区满意度回访场景72小时服务有效率提升3.85%,提前完成目标;核心场景接通率76%-80%,比竞品高出6个点。

  • 智能IVR:根据用户对话内容进行实体识别(NER)和用户问题理解,进而实现人工队列的智能路由,以及通过多轮对话引导解决用户问题,小米网智能路由准确率90%左右,有品场景通过IVR能够拦截用户咨询10-15%。

cb4a83cfa3e54ba4111b723906662c89.png

05

技术共享:新一代Kaldi

Kaldi作为最流行的开源语音识别软件,被业界公认为语音识别框架的基石。一直以来,小米致力于通过技术创新,让世界上每个人都享受更美好的生活。为实现这一使命,由小米集团首席语音科学家、Kaldi 之父Daniel Povey 牵头组建团队研发“新一代 Kaldi”

7076555fda7f3de352a8c459693edc58.png

“新一代Kaldi”是小米纯自主研发的全新的面向未来的开源语音识别框架,该项目在推动语音识别技术发展的同时,也将提高小米语音识别技术的国际竞争力和影响力。

目前,该项目的核心工作主要有两部分,一是继续提升语音识别性能,重点研究包括新的声学编码器、半监督及无监督训练、高效的解码方法、大模型训练等技术,力求取得技术突破,将语音识别准确率推上一个台阶,促进语音技术的进一步发展;二是推进“新一代Kaldi”的工程化、产品化落地,并赋能小米语音产品。

开源的本质是技术共享,我们希望“新一代Kaldi”能够惠及全球开发者、各大中小企业,以及每一位用户,让智能语音更加触手可及。

世界的美好源自于科技的进步,技术创新只有与社会、行业和人的紧密结合,才能最大限度推动技术成果落地,从而真正做到改变人们的生活。未来,小米将不断探索科技新高度,让更多人享受科技带来的美好生活。

94c1840c9f6cc2a5243ea4ee66841411.gif

d8e1404a365e57232079d8e5e54c0bb9.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/362847.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Go基础】数据库编程

文章目录1. SQL语法简介2. MySQL最佳实践3. Go SQL驱动接口解读4. 数据库增删改查5. stmt6. SQLBuilder6.1 Go-SQLBuilder6.2 Gendry6.3 自行实现SQLBuilder7. GORM8. Go操作MongoDB1. SQL语法简介 SQL(Structured Query Language)是一套语法标准&#…

2023美赛参赛经历分享

今天早上登录MCM: The Mathematical Contest in Modeling (comap.com)发现论文提交已经显示Received。虽然这几天连连有开学恶补的期末考试,但还是忙里偷闲趁着新鲜写一篇关于美赛的参赛个人感受。跟我一起打这次美赛的都是软件等专业的hxd,他们之前没有…

SpringBoot + Lock4j实现高性能分布式锁

1. 简介 在分布式业务开发中,很多场景都需要添加分布式锁。在具体实践过程中,研发人员都需要自行实现,导致实现方式不统一,代码风格迥异,难以维护。 在Mybatis-Plus生态中,Lock4j提供了支持redission、re…

华为OD机试 - 最大排列(C++) | 附带编码思路 【2023】

刷算法题之前必看 参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。 华为 OD 清单查看地址:https://blog.csdn.net/hihell/category_12199283.html 华为OD详细说明:https://dream.blog.csdn.net/article/details/128980730 华为OD机试题…

python--matplotlib(4)

前言 Matplotlib画图工具的官网地址是 http://matplotlib.org/ Python环境下实现Matlab制图功能的第三方库,需要numpy库的支持,支持用户方便设计出二维、三维数据的图形显示,制作的图形达到出版级的标准。 其他matplotlib文章 python--matpl…

Spring Cloud Gateway Nacos 实现动态路由

微服务都是互相独立的,假如我们的网关和其他服务都在线上已经运行了好久,这个时候增加了一个微服务,这个时候要通过网关访问的话需要通过修改配置文件来增加路由规则,并且需要重启项目,所以我们需要实现动态路由 方式一…

34. 应用监控【监控端点配置】

当一个 Spring Boot 项目运行时,开发者需要对 Spring Boot 项目进行实时监控来获取项目的运行情况,在项目出错时能够实现自动报警等。 Spring Boot 提供了actuator 来帮助开发者获取应用程序的实时运行数据。开发者可以选择使用 HTTP 端点或JMX来管理和监…

九龙证券|银行资本管理办法迎“大修” 信用风险权重法调整优化

1年期AAA中债商业银行同业存单到期收益率 日前迎来“大修”的商业银行本钱办理方法,在债券商场激起“涟漪”——债券商场一改此前平静态势,连续两日跌落。 2月21日,10年期国债收益率较上星期五上行2.9个基点,至2.919%&#xff1b…

记录charles手机端配置https的成功过程

1.百度 https://www.likecs.com/show-204025787.html https://blog.csdn.net/enthan809882/article/details/117572094?spm1001.2101.3001.6650.6&utm_mediumdistribute.pc_relevant.none-task-blog-2defaultBlogCommendFromBaiduRate-6-117572094-blog-122959902.pc_rele…

余承东:问界就是华为生态汽车,不涉及20万以下车型

今天界面新闻发布了一篇余承东的专访文章,谈到了外界对华为造车的质疑,以及回应了与赛力斯的合作,后续HI模式与智选车模式如何推进的话题。摘录重点如下:1.首先,继续「不造车」“华为没有必要自己下场造车。”在他看来…

Spring MVC 源码 - HandlerMapping 组件(四)之 AbstractUrlHandlerMapping

HandlerMapping 组件HandlerMapping 组件,请求的处理器匹配器,负责为请求找到合适的 HandlerExecutionChain 处理器执行链,包含处理器(handler)和拦截器们(interceptors)handler 处理器是 Objec…

【GO】k8s 管理系统项目[前端部分–Header]

【GO】k8s 管理系统项目[前端部分–Header] 1. 实现功能 面包屑展开关闭按钮用户信息(退出按钮) 2. 代码部分 src/layout/Layout.vue 在之前预留header位置补上 <!-- header --><el-header class"header"><el-row :gutter"20"><e…

python基于vue健身房课程预约平台

可定制框架:ssm/Springboot/vue/python/PHP/小程序/安卓均可开发 目录 1 绪论 1 1.1课题背景 1 1.2课题研究现状 1 1.3初步设计方法与实施方案 2 1.4本文研究内容 2 2 系统开发3 2.2MyEclipse环境配置 4 2.3 B/S结构简介 4 2.4MySQL数据库 5 2.5 django框架 5 3 系统分析 6 3.1…

Sqoop利用Sql将mysql表_导入数据到Hive---大数据之Apache Sqoop工作笔记004

然后来看一下把数据导入到hive中去 可以去官网去看看文档,有什么参数 这里用的是hive-import对吧,然后 这里hive-overwrite是覆盖 这个hive-table staff_hive 是创建 一个hive的表是 staff_hive 然后我们先去启动一下hive 启动以后,然后我们去查一下,shot tables 可以看到 里…

Ubuntu 22.04.2 LTS安装Apollo8.0

本人硬件环境&#xff1a; CPU&#xff1a;Intel Core i7 6700 显卡&#xff08;GPU&#xff09;&#xff1a;NVIDIA GTX 3080 10G 内存&#xff1a;SAMSUNG DDR4 32GB 硬盘&#xff1a;双SSD系统盘 2T,双系统&#xff08;windows,ubuntu&#xff09; 一、安装Ubuntu 22.04…

【极海APM32替代笔记】HAL库中的SPI传输(可利用中断或DMA进行连续传输)

【极海APM32替代笔记】HAL库中的SPI传输&#xff08;可利用中断或DMA进行连续传输&#xff09; SPI 是英语Serial Peripheral interface的缩写&#xff0c;顾名思义就是串行外围设备接口。是Motorola(摩托罗拉)首先在其MC68HCXX系列处理器上定义的。 SPI&#xff0c;是一种高…

Ssh协议绑定Git服务器

1、起因在公司开发一般使用gitlab部署公司git代码管理&#xff0c;个人的代码存储在公司gitlab上就显得不合时宜了&#xff0c;所以找了gitee上来存储代码。2、经过搜索了下github.com,gitee.com 其他当然有阿里云的云效等&#xff0c;个人使用优先国内git服务器&#xff0c;理…

【Netty系列・扫盲篇】Netty从入门到学废

文章目录1. 概述1.1 Netty 的地位1.2 Netty 的优势2. Hello World2.1 目标2.2 服务器端2.3 客户端2.4 流程梳理&#x1f4a1; 提示3. 组件3.1 EventLoop&#x1f4a1; 优雅关闭演示 NioEventLoop 处理 io 事件&#x1f4a1; handler 执行中如何换人&#xff1f;演示 NioEventLo…

C# 业务单据号生成器(定义规则、获取编号、流水号)

系列文章 C#底层库–数据库访问帮助类&#xff08;MySQL版&#xff09; 本文链接&#xff1a;https://blog.csdn.net/youcheng_ge/article/details/126886379 C#底层库–JSON帮助类_详细&#xff08;序列化、反序列化、list、datatable&#xff09; 本文链接&#xff1a;htt…

GEE学习笔记 六十:GEE中生成GIF动画

生成GIF动画这个是GEE新增加的功能之一&#xff0c;这一篇文章我会简单介绍一下如何使用GEE来制作GIF动画。 相关API如下&#xff1a; 参数含义&#xff1a; params&#xff1a;设置GIF动画显示参数&#xff0c;详细的参数可以参考ee.data.getMapId() callback&#xff1a;回调…