目录
一、车载语音产品概述
1. 车载语音交互具有以下特点和优势
2. 车载语音产品脑图框架
二、需求与竞品分析
1. 车载语音交互痛点分析
2. 基于实际驾驶情景的分析
3. 车载语音体验地图
4. 车载语音产品的竞品分析
三、需求分类与功能设计
1. 车载语音产品场景控制划分
2. 车载语音系统交互功能划分
3. 功能设计
四、智能化场景与交互设计方案
1. 车载音频的焦点优先级设计
2. 处理并发声音流
3. 车载语音智能化场景分析
五、车载语音VUI与原型图设计
1. 对话系统设计
2. 车载语音VUI设计
3. 车载语音VUI逻辑与原型图设计
六、车载语音产品系统架构
1. 智能座舱域控制高通8155整机框架图
2. 语音系统架构
3. 常见车云通讯协议
语音交互是车载系统中常见的一种交互方式,但在用户体验上,现在市面上的车载语音交互常常容易受人吐槽。怎么做好相应的车载语音产品设计呢?这篇文章里,作者对车载语音产品从需求分析到原型图设计的完整流程做了较为系统的阐述,一起来看看吧。
目录:
- 车载语音产品概述
- 需求分析与竞品分析
- 需求分类与功能设计
- 智能化场景与交互设计方案
- 车载语音VUI与原型图设计
- 车载语音产品系统架构
一、车载语音产品概述
多模交互已经成为当前智能座舱的标配,在车载系统中同时使用多种交互方式,其中之一就是语音交互。语音交互可以与其他交互方式(如触摸屏、物理按钮等)结合,提供更丰富和便捷的用户体验,用户可以更方便地进行操作,尤其在驾驶过程中可以更专注于道路,提升安全性和便捷性。
同时,语音交互也可以与其他交互方式相结合,提供更灵活的操作选择,满足用户的不同需求。
1. 车载语音交互具有以下特点和优势
车载语音是指通过语音识别技术(ASR)将驾驶员或其他乘员的语音指令转化为可理解的指令,然后通过语音合成技术(TTS)将系统的反馈信息以语音形式传达给对应人员。
- 提升驾驶安全性:驾驶员可以通过语音指令完成操作,无需分散注意力去触摸屏幕或按钮,减少驾驶风险;
- 提供便捷的操作方式:语音交互能够提供更自然、更直观的人机交互方式,让驾驶员更轻松地控制车辆功能和获取信息;
- 支持多任务处理:通过语音交互,驾驶员可以同时进行驾驶和操作,无需停下来或转移注意力;
- 个性化体验:车载语音交互可以根据驾驶员的习惯和偏好进行个性化设置,提供更加贴合用户需求的服务和建议。
2. 车载语音产品脑图框架
二、需求与竞品分析
1. 车载语音交互痛点分析
语音唤醒率差,识别率差,NLP理解能力差、多轮对话不灵活,离线功能少,目前大部分的车载语音是被吐槽频率最高的一个功能,基本上可以说是鸡肋。
下面是用户痛点整理:
2. 基于实际驾驶情景的分析
3. 车载语音体验地图
4. 车载语音产品的竞品分析
头部造车新势力将语音交互功能作为其产品智能化与差异化的核心体现,因此通常会选择自研搭建智能语音技术框架,以提高智能语音助手的功能迭代与优化的频率以及便捷性。
从当前各车企语音交互功能的智能化配置来看,造车新势力的语音交互功能的智能化水平依然存在一定优势。传统主机厂通常选择外部合作的发展模式,但头部的传统主机厂也开始逐渐发力,全双工、多音区覆盖等核心功能也已搭载上车。
部分车企语音交互功能智能化配置:
1)小鹏首创全系统功能覆盖、连续对话等,智能化表现成其标签
小鹏基于全车扬声器分布,推出的全系统功能覆盖、连续对话等多种行业首创功能为其取得行业领先地位,符合其极客定位。
通过“OTA+云端”的高频迭代方式,实现用户无感情况下的语音助手优化。语音助手小P更像是用户专属的助理与朋友,通过定制装扮、多种音色选择与定制化语音暗号建立小P与客户的独有联系。
小鹏将继续优化提升语音交互的基础能力与语音包与应用场景的丰富度,同时也将座舱内部分语音相关的软件应用通过“软件收费”的方式进行开放。
2)理想智能语音交互产品“理想同学”另辟蹊径,定位契合车型定位
语音助手“理想同学”的产品定位完美契合理想ONE中高端家庭用车的车型定位,以全车语音覆盖、座舱全成员平等交互权利等特点,满足家庭出行场景的语音交互需求。
理想同学基于其产品用户画像,深耕4音区以及开拓多音区覆盖,使车内所有人员均可通过语音进行人机交互,同时也将从整车交互的角度进行场景化的思考,贴合家庭出行用户使用习惯。
3)蔚来赋予NOMI具有情感的拟人化形象,助其成为“蔚来的灵魂
蔚来智能语音交互助手NOMI,源于蔚来对于语音交互体验的理解-“Know me”,其集成了语音交互系统和智能情感引擎,被赋予了具有感情的拟人化形象,使蔚来的汽车产品从机器演变成了具有生命的驾乘伙伴。
蔚来的NOMI智能语音交互助手的语音技术是在科大讯飞的支持基础上进行了个性化设计与改造。NOMI听音辨位免打扰独立音区交互等功能,可帮助其后排乘客进行语音交互的体验。
三、需求分类与功能设计
1. 车载语音产品场景控制划分
车载交互的场景控制,包括语音助手情景模式、语音助手推荐、全场景语音控制。
2. 车载语音系统交互功能划分
按照语音识别的交互功能整个链路来进行分类,包括语音助手形象、助手感知、语音助手交互、语音助手声音。
3. 功能设计
1)语音助手形象设计
不同场景下的语音交互助手的形象不同,比如在休眠状态就是一个波浪形,在设置界面是一个卡通或者人形,这些都是基于车辆定位,比如五菱车型就是设置卡通,萌宠的形象。如果是商务车,可以设置比较稳重的形象。
- 卡通化的语音形象:在亲和力上有很大的优势能够被用户快速的接受,但是辨识度上可能存在同质化严重问题,所以在效果表现力上面有欠缺,也较难表达车企的品牌理念。
- 抽象化的语音形象:则通过造型的多变和动效丰富,从而在设计感和效果上相对突出,在传达性上也不满意,用户不容易知道当前语音是处在一个什么状态下,在亲和力上远也不如卡通化形象。
2)车载语音助手感知
语音助手感知,更多的层面类似于人的眼睛和耳朵,通过听和看两个感觉器官来进行内容输入。
也可以通过多麦克风及回音消除方案进行设计,多音区的控制,硬件通过A2B的麦克风布局,同时软件进行界面设置,是否允许多音区唤醒。
唤醒方式分实体按钮唤醒与虚拟按钮唤醒,实体按钮,好处就是能够给到用户触觉上的反馈,用户感知性强;虚拟按钮,此类的按钮一般都会在中控屏幕上面,唤醒的方式是点击。
语音唤醒词有两种,一种是语音公司默认的,这个是训练过的模型,男生、女生、老人、小孩都适合。一种是自定义唤醒词,需要付费给语音公司,要么他帮你训练,车上其他乘客(包括车上其他陌生乘客),如果不付费,就是录入自己家人的语音,这样才识别率会高一些。
3)车载语音助手交互
语音助手交互更多类似于人的大脑,进行多模态交互,多轮交互等等。
构建对话交互平台,解决用户三大对话类型,获取内容/服务。任务型和问答型对话,用户需要尽快的得到想要反馈和解决方案,并且快速的完成,此类任务的反馈要求还需要清晰、简单明了,闲聊型的任务带有的目的性不是很强,但是对于趣味性要求会高。
4)车载语音助手交互/多模态
主流的车型上都配备有多模态的交互方式包括触摸、语音、人脸、手势、声纹、指纹、灯光、手表等等。目前主流的是声音+手势会比较多长安汽车的视线唤醒、长城汽车的声纹识别。
另外,还有语音+车内+车外摄像头交互方式,奔驰“MBUX Travel Knowledge”–驾驶员可通过视线锁定一栋建筑物,并说:“我想知道这栋楼的用途即可获取相关信息。”该功能由Cerence Look提供技术支撑。
语音+唇动识别与唇动识别融合下的语音交互将极大提高语音识别性能,不同语言下的唇部动作不同,在嘈杂的座舱环境下即使系统接收到声音很小,结合唇部动作也可以保障较高的语音识别率。
5)车载语音助手交互/UGC用户定义
车主可通过手机APP自定义语音指令及对应的操作,在不影响整车控!功能与行车安全的前提下,增加语义定制功能,用户可根据个人喜好与场景化需求,灵活设置语音交互对话内容,增加个性化和趣味性,此项功能可关闭。比如特斯拉的彩蛋屁,可以设置一个语音,小P放一个屁,回复就是一个屁的声音,非常有意思。
6)车载语音助手声音选择
语音助手声音更多的是输出部分,类似于有“郭德纲”“林志玲”等声音,也可以个性化录制自己的声音。音色切换指语音系统除了默认语音声音外,可提供其他声音供用户选择,如明星、游戏人物的声音等。可以设计亲和女声、知性女声、磁性男声、稚嫩童声、热情女声五种音色供选择,可以联网选择明星播报语音。
四、智能化场景与交互设计方案
1. 车载音频的焦点优先级设计
1)独占交互
在独占交互中,一次只允许一个应用持有焦点。因此,在传入的焦点请求被授予焦点的同时,现有的焦点持有者会失去焦点。例如,用户在现有应用中播放音乐时启动新的音乐应用。由于这两个应用都在播放媒体内容,因此一次只允许其中一个应用持有焦点;
2)拒绝交互
在拒绝交互中,传入的请求一律会遭到拒绝。尝试在通话过程中播放音乐就是拒绝交互的一个示例。在这个例子中,如果拨号器正为某个通话持有音频焦点,而另一个应用要请求焦点来播放音乐,则音乐应用发出的请求会收到AUDIOFOCUS REQUEST FAILED 响应。由于焦点请求遭拒,因此系统不会向当前焦点持有者分派任何类型的焦点丢失事件;
3)并发交互
AAOS 最独特的地方就是并发交互。在这种交互模式下,请求音频焦点的车载应用可与其他应用同时持有焦点。
2. 处理并发声音流
虽然并发交互适用于许多实用应用,但原始设备制造商(OEM)必须在硬件级别跨输出设备实现混音和降音(安卓里面称为闪避)。
因此,建议仅将存在并发播放的 CarAudioContext 路由到无法与其同时播放的CarAudioContext 的同一输出设备。通过为并发声音流提供单独的输出设备,HAL便可在混音之前对其中一个声音流进行闪避。
例如,如果同时提供导航提示音和媒体播放声音,媒体声音流的增益会暂时降低(闪避),以便用户能更清楚地听到导航提示。
AndroidCar音频焦点-智能座舱交互矩阵实例表
3. 车载语音智能化场景分析
1)场景控制
车载交互的场景控制,包括情景模式预制、助手推荐、全场景语音控制,语音产品经理需要重点掌握的是场景推荐模式设计、聚合媒体的全部功能、语义表单的设计、多轮对话的设计。
2)车载聚合媒体内容
作为车载语音产品经理,把聚合媒体的所有菜单内容都理解一遍,这些内容的语音交互场景是什么,才能知道语义表的设计以及逻辑框架的设计。
3)车载场景智能化推荐
场景智能化推荐,80%是主动交互的一种,未来语音交互也是从被动走向主动,需要产品经理非常强的场景智能化的设计能力,做到既不打扰用户,又能给用户更好的体验。
上车问候:上车的时候有比较常见的就是开机动画,仪表自检,场景推荐可以是节假日彩蛋、个性化开机语、生日提醒等;场景智能化推荐的上车相关内容,包括有主体的唤醒、运营事件、二十四节气提醒、氛围灯联动等等;
实况关怀、媒体推荐:场景智能化推荐的实况关怀在一些汽车上已经实现,比如哈佛初恋的车型,包括加班关怀和限号提醒媒体推荐主要是智能歌单、电台推荐等等;
其他还有目的地推荐、美食推荐、离车关怀、故障提醒、电量/油量提醒、疲劳驾驶,智能车控、乘客服务等等。
4)车载语义功能表
(省略)因Excel表格内容太多,放进来影响文章可读性,所以就不展示了。语义功能表包括:通讯模块、导航模块、媒体模块、查询模块、车辆控制、语音技能、自动泊车、DMS、驾驶相关设置、香氛控制等。
五、车载语音VUI与原型图设计
1. 对话系统设计
对话设计是基于人们的对话的设计语言,它集合多个设计的内容,其中包括语音用户界面设计、交互设计视觉设计、动画设计、语音对话脚本设计、乃至还有音频设计增加语音助手的灵动性。
1)语音交互原理
为了更能理解用户的需求,需要进行多轮对话的设计。
2)语音交互流程
第二步对话管理,主要完成对话状态的维护(dialog state tracing,DST),生成系统决策(dialogpolicy),作为接口与人物模型进行匹配、提供语义表达的期望值(expections for interpretation)、分发任务记录当前queryID和pageID。
当前是用户的一次对话需要经历的全部流程,如果需要多次的对话,就要不断的维护对话栈,并且对话栈要匹配当前的pagelD,才能帮助用户经历多次跳转都能到达预期的页面,所以多轮交互更加复杂和难以掌控。
3)注意事项
语音对话系统设计包括语音用户界面设计、交互设计、视觉设计、动画设计、语音对话脚本设计。
对话系统设计的原则:语音简短化、响应等待设计、避免过多选择、不要假设用户知道该做什么语言文案设计一致性、不要信息轰炸用户、避免使用专业术语。多轮对话设计,主要需要二次选择和确认,对搜索结果排序。
2. 车载语音VUI设计
1)GUI与VUI的特点对比
VUI在某些场景下具有非常明显的优势,但是也需要比较好的设计逻辑。
绿色表示VUI优势明显
2)语音VUI交互设计规范
目前业界未存在公认的语音交互的设计规范标准,业内各家公司都处于前瞻、摸索、引导的阶段尽管语音交互被看做是一种区别GUI的交互方式,但基本的可用性原则依旧适用于衡量用户体验的质量。
3)VUI的设计原则
VUI的设计原则相关内容,主要是社会原则、感性原则、理性原则:
3. 车载语音VUI逻辑与原型图设计
下图是车载语音拨打电话的主流程图:
六、车载语音产品系统架构
1. 智能座舱域控制高通8155整机框架图
主流的8155方案是一芯带5屏,这里有液晶仪表、中控导航、后排头枕显示屏、同时有语音mic的输入、U盘、wifi、蓝牙、外接喇叭的输出。
2. 语音系统架构
语音系统架构交互,是AI交互中的其中一个环节,更多的是整体的解决方案是需要算力、平台解决方案。
3. 常见车云通讯协议
以上是车载语音产品的需求分析到原型图设计的完整流程(完结)。