【语音之家】AI产业沙龙 —— 三星语言智能团队ICASSP2023论文分享会

news2026/2/13 13:16:27

由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟（AIIA）评估组、三星电子中国研究院、语音之家、希尔贝壳共同主办的【语音之家】AI产业沙龙——三星语言智能团队ICASSP2023论文分享会，将于2023年4月25日18:30-20:20线上直播。

沙龙简介

三星电子中国研究院专注于人工智能、5G/6G通信技术研究和标准化等前沿技术，并与清华大学、北京大学、中国科学院、上海交通大学等十余所国内一流大学及科研机构建立长期合作，成立联合实验室、联合培养博士后人才等。进行先行研究的同时，三星电子中国研究院将语言技术的语音识别、唤醒、合成、自然语言理解和人脸识别、Camera等计算机视觉的核心技术在三星的旗舰产品中商用落地，给用户带来最好的移动智能体验。

三星电子中国研究院在ICASSP2023上共有8篇论文被接收，涉及多种信号处理，包括音频、文本、图像、视频、多模态等，从声音分离、音频事件检测、文本预训练、人脸检测、图像语义分割、视频编解码及身份识别等多个任务上探索前沿技术。除此之外，三星电子中国研究院还在首届e-Prevention challenge中获得第一名。在本次沙龙中，三星语言智能团队将对其中语音文本以及多模态信号处理方面的成果进行分享。

主持人

钱彦旻上海交通大学计算机科学与工程系教授，博士生导师，国家优秀青年基金获得者

钱彦旻

上海交通大学计算机科学与工程系教授，博士生导师，国家优秀青年基金获得者

简介：钱彦旻，上海交通大学计算机科学与工程系教授，博士生导师。清华大学博士，英国剑桥大学工程系博士后。国家优秀青年基金、吴文俊人工智能自然科学奖一等奖（第一完成人）获得者。现为IEEE高级会员、ISCA会员，同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。担任InterSpeech, ISCSLP等国际会议的领域主席和TPC委员；IEEE T-ASLP, IEEE J-STSP, IEEE SPL, ICASSP, InterSpeech等期刊和国际会议审稿人。有10余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文200余篇，Google Scholar引用总数10000余次，申请60余项中美专利，合作撰写和翻译多本外文书籍。3次获得领域内国际权威期刊和会议的最优论文奖，3次带队获得国际评测冠军。作为负责人和主要参与者参加了包括国家自然科学基金、国家脑科学计划、国家重点研发计划、国防JKW、国家863、英国EPSRC等多个项目。目前的研究领域包括：语音识别，说话人和语种识别，语音抗噪与分离，语音情感感知，自然语言理解，深度学习建模，多媒体信号处理等。

报告嘉宾

杨磊

三星电子中国研究院音频算法工程师、首席技术专家

嘉宾简介：杨磊，三星电子中国研究院音频算法工程师、首席技术专家，主要从事通话中的语音增强、语音分离等领域的研究和商用化落地。

分享主题：超短注册时间的目标说话人提取模型

摘要：目标说话人提取任务是从多个说话人的混合语音中提取目标说话人的声音。该技术可应用于语音通话、视频会议、视频编辑、会议纪要、目标人语音提取等场景。使用该技术时需要提前注册目标说话人的语音，但是在实际应用中，注册时的语音过长会降低用户使用的积极性。因此，研究超短注册时间的目标说话人提取技术是必要的。对此，三星电子中国研究院的音频算法团队提出了一种新的VE-VE框架来支持超短注册语音，本次分享将围绕该技术进行介绍。

徐亮

三星电子中国研究院实习生、北京理工大学研究生

嘉宾简介：徐亮，北京理工大学研究生、三星电子中国研究院实习生。实习期间，在王立众和王晶老师共同指导下，分别在InterSpeech2022和ICASSP2023各发表论文一篇，主要研究方向为声音事件检测、AI 语音编解码等。

分享主题：加入预训练模型的半监督声音事件检测

摘要：声音事件检测已经应用到了消费、医疗、工业中，为计算机、嵌入式设备与外界的智能交互提供了技术支撑。在当前，由于相关数据标签的标注困难，以及目标事件本身容易被外界噪声所掩盖，声音事件检测仍然存在不小的挑战。而预训练网络所提取的深层特征能够提供更丰富、更泛化的特征，为声音事件检测带来新的可能。本次分享将围绕半监督的声音事件检测任务，加入预训练网络特征，进一步提高声音事件检测的准确度。

庄毅萌

三星电子中国研究院自然语言处理算法工程师

嘉宾简介：庄毅萌，三星电子中国研究院自然语言处理算法工程师，主要负责语言理解和机器翻译等技术的研发和落地。

分享主题：文本表征预训练中的启发式掩码方案

摘要：掩码语言模型预训练提供了一种学习上下文语义表征的标准化方法，该方法通过估计给定上下文的随机掩码词元的条件概率来重建损坏的文本序列。我们试图利用模型本身的语言知识，以轻量级和动态的方式增强其预训练。我们研究了一种启发式的词元掩码方案，其中深度网络和浅层网络预测不一致的词元更有可能被掩码。该方法可应用于掩码语言模型预训练中，同时保证训练效果和效率。实验表明，用启发式掩码方案预训练的掩码语言模型在各种下游任务中优于先前的方案。

温亮

三星电子中国研究院音视频算法工程师

嘉宾简介：温亮，三星电子中国研究院音视频算法工程师，主要从事基于人工智能的音视频编码以及语音增强等领域的研究和成果落地工作。

分享主题：面向视频编码的畸变感知的神经网络插值滤波器

摘要：视频是用户感知、记录、传播和接收的重要媒体形式，涉及日常录像、视频通话到专业影视节目制作等多种应用领域，需要满足多样性的质量和传输需求。随着视频的分辨率以及帧率的提升，视频压缩的需求也越来越迫切。视频编码通过对视频帧的预测、变换、滤波等工具对视频数据进行压缩以满足用户存储和传输需求。随着人工智能与神经网络技术的发展，基于神经网络的视频编码成为火热的研究方向。本次分享将介绍三星电子中国研究院在视频编码中的帧间预测工具中采用神经网络方法的探索工作。

武金婷

三星电子中国研究院多模态算法工程师

嘉宾简介：武金婷，三星电子中国研究院多模态算法工程师，主要负责生理信号处理、健康状态监测等技术的研究及健康相关应用的开发。

分享主题：ICASSP 2023 E-Prevention竞赛分享——基于可穿戴设备数据的用户身份识别系统

摘要：近年来，借助可穿戴设备采集的生理信号和日常行为进行运动追踪和健康监测已成为各大科研机构和厂商的研究热点。然而，利用生理信号推断心理状态和精神疾病的研究仍在探索中。其中难点之一在于用户的日常行为习惯和生理表征不同，信号存在很大的个体偏差，进而影响健康相关功能的准确性和鲁棒性。ICASSP 2023 E-Prevention（Person Identification and Relapse Detection from Continuous Recordings of Biosignals）竞赛提供了一个包含长期连续生物信号记录的数据集，试图通过挖掘用户数据中的个体差异性和独特性来解决这个问题。我们参与了该竞赛Track 1，即识别智能手表佩戴者的赛道的角逐，并获得了第一名。本次分享将围绕我们在竞赛中构建的基于可穿戴设备数据的用户身份识别系统展开介绍。