2020年以来,新冠加快了线下向线上搬迁的速度,使得线上办公、在线教育、远程会议得到飞速普及和发展。艾媒咨询数据显示,2021年中国视频会议行业市场规模达148.2亿元。各类视频会议产品价格较低、操作便捷高效,普及率越来越高,逐步应用到小微企业及个人用户。视频会议市场规模有望进一步扩大,预计到2025年将达304.1亿元。
当下,市场主流的在线会议APP在保证基本功能成熟完备的同时,也在大力发展自动会议纪要、在线字幕生成、智能翻译等基于人工智能算法的功能,而此类算法的精进离不开智能会议数据的支持。
线上会议产品市场
AI赋能在线会议
众所周知,线上会议面临着高清画面分辨率要求高、图像连贯性好、唇音同步、实时性高等挑战。目前基本所有的视频会议都能够支持流畅、实时、清晰的视频通话。但是头部线上会议产品还支持自动识别说话人,自动根据说话人身份对会议内容实时转录存储,自动根据说话人声音添加字幕等功能。这些功能能够高效记录会议内容,提高工作效率。也是目前线上会议产品的主打卖点和竞争砝码。这些高级功能点用到的核心技术包括人声动作检测、声纹识别、语音识别等。功能流程图如下所示:
在上面的流程图中,目前人声动作检测、声纹识别和语音识别技术都是依赖深度神经网络模型,得到SOTA的模型效果。目前主流的人声动作检测包括单一的音频模态和多模态两种检测方式。多模态的信息融合一般采用多头交互注意力机制,声纹识别一般采用卷积神经网络,语音识别模型一般采用基于transformer的网络架构,这些网络模型的性能依赖大量符合当前场景的数据的训练。但是由于会议场景数据录制需要更多的参与人员、专业的录制人员和大量的标注人员,基于会议场景的对话数据非常稀缺。这也是制约线上会议实时转写、添加字幕等高级功能落地的根本原因。
Magic Data
多人自发式会议数据集
鉴于上述会议场景对话数据稀缺的问题,MagicData作为全球领先的AI数据解决方案供应商,预推出一款400场、总时长200小时、参与人数400+的多人自发式会议数据集,涉及通用、金融、科技、法律、保险、医疗、教育、政府、房产等领域,内容涵盖公司活动、员工福利、员工培训、产品设计、产品优化、营销活动、业务管理、团队管理、家庭生活等主题。
同时,考虑到线上会议不同参会者所处不同空间、场景布置、环境等,本次数据采集环境包括大中小三个类别的室内会议室、参会者覆盖室外各场景(地铁、公园、商场、火车站、机场等)。音频采集设备除会议软件内录外,还包括无线蓝牙耳机、手机、平板、八爪鱼、录音笔、头戴式耳机等。该数据包括每个与会人均有一个单独音频通道以及所有参会人总的音频通道,这样该数据既可以用来做说话人分离又可以支持多说话人语音识别相关的研究和技术落地。
此外,Magic Data还对此多人会议音频数据进行了自然语言处理标注,抽取出其中主讲人、参与人、主题,强调要点、会议结论、遇到的问题或困难、会议决策、待办项等会议关键信息,将内容中连续同一人讲话的内容合并在一段,形成合并版会议纪要,避免标注结果被过分拆分成多个零碎片段;在合并版会议纪要中用标签标记出需提取的会议内容,语义完整的子句/句子抽取,并要求在合并版会议纪要中已标记的标签内容支持index,可以按字符追溯到原文。
标注样例如下:
[{"start": 3, "end": 19, "text": "我们今天在线上召开一下团建决策会", "labels": ["theme"]},{""start"": 20, ""end"": 47, ""text"": ""那这次会议是由丽姐主持,参会的人员还有菲菲、陈晨、小南"", ""labels"": [""participant""]}]"
[{"start": 116, "end": 133, "text": "那下面由陈晨和菲菲讲一下各自的方案", "labels": ["speaker"]}]"
只有通过大量实际场景采集的会议场景的对话数据训练线上视频会议产品中的各个模块的深度学习模型,模型的性能才能在实际落地场景效果更佳。Magic Data多人自发式会议数据集基于真实场景,自发式对话的音频及语料内容同时支持ASR及NLP训练,可供各大在线会议软件与应用研发团队进行说话人语音分离、说话人切分、声纹识别、多说话人语音识别技术的研发,优化迭代智能会议产品,脱颖而出,赢得市场机会。
多人自发式会议数据集即将陆续上线,敬请期待。
如有其他问题,欢迎询400-900-2521。