2023年1月语音合成(TTS)和语音识别(ASR)论文月报

news2024/9/21 16:33:17

论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。

如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。

2023年文章统计excel https://docs.google.com/spreadsheets/d/1iDnSeyai91NUrg0CyDj35FAuXPA44-s8H1YxBddEqEs/edit?usp=sharing


前言

ChatGpt有多火,估计大家都感受到其热度,把AI的浪潮带到了新的高度。看看国内的自媒体和大佬资金都涌向了ChatGpt。面对这波热潮我也感到急躁,不是怕未来自己被替换掉,而是自己目前的工作没有直接加入到该浪潮中。我总的2022年语音年度总结(https://mp.weixin.qq.com/s/Vy_Er768iWuVs4Gwpks5Rg)中提到ChatGpt等技术将会给2023年的 AI带来活力,没想到这波浪潮来的这么快这么凶猛。听说OpenAI今年有GPT4以及语音的预训练模型,非常期待~

一 语音合成篇

表一给出具体分类说明。2023年1月的语音合成相关的文章有34篇,比前两年同期增加很多。表二和图2是语音合成的具体方向文章的情况。本月的文章的关键词有Diffusion、prompt、xxLM等等大家可注意一下。另外Vall-E这篇文章方法可成为未来的热点。

表一  语音合成分类说明

分类

说明

前端

多音字,韵律,g2p等等。

声学模型

语言特征转声学特征,attention工作,多说话人以及双重学习

声码器

波形生成

个性化

少数据,脏数据应用等自适应

多语言和多说话人

多语言模型、多说话人模型

歌唱合成

歌唱和音乐合成

情感

风格和情感

多模态

主要搜集talking head文章

声音转换

基于GAN方案和特征解耦方案

S2S

 speech-to-speech

其它

基于EEG合成,开源数据,MOS评测以及语音合成的应用

图1 语音合成论文总数

表二  语音合成论文分布情况

1月
前端1
声学模型7
声码器1
个性化0
多语言2
歌唱合成8
情感风格3
多模态6
声音转换1
s2s1
其它4

图2 语音合成论文分布情况柱状图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

2023.1月份的文章

https://docs.google.com/spreadsheets/d/1iDnSeyai91NUrg0CyDj35FAuXPA44-s8H1YxBddEqEs/edit?usp=sharing

二 语音识别篇

语音识别的文章分类参照表三说明。​图3是语音识别文章总数,本月有17篇,相比去年同期减少很多。语音识别的研究方向具体情况参见表4和图4,其中无监督、speech translation以及多模态较多些。

                                  表三  语音识别分类说明

分类

说明

general

包括传统、混合语音识别,以及对asr的优化

ctc

ctc优化

rnn-t

rnn-t的优化

aed

aed优化

dataset

开源数据库

data aug

数据增广

lm

语言模型研究

multilingual

多语音系统以及code-switch

personal

少数据量自适应以及个性化ASR

rescoring

多种模型联合打分

unsupervised

无监督,半监督或者自监督学习

accent ,dialect

口音和方言

other

其它方向研究,包括系统评价标准等等

robust鲁棒性
speaker diarizationspeaker diarization

multichannel

多通道
speech translation语音翻译
multi-modal多模态

                                     图3  语音识别文章数量统计(单位:篇)

                              表4 语音识别研究方向分布情况

                                图4 语音识别研究方向柱状图

语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html

2023.1月份语音识别具体文章

https://docs.google.com/spreadsheets/d/1iDnSeyai91NUrg0CyDj35FAuXPA44-s8H1YxBddEqEs/edit?usp=sharing

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/341968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

肝一波,体验人工智能对话

一、肝一波,体验真爽 废话不多少,小码哥直接提大家感兴趣的问题,截图分享给大家。 问题一:如何在一年内赚到100万元 答: 一、赚钱的方式 开公司:在一年内开拓新业务模式,寻求投资&#xff…

Vue学习笔记3

Vue学习笔记31.1 指针1.2 指令补充&nextTick2.1 Vue-cli2.1.1 Vue-cli创建项目2.1.2 启动流程&入口文件2.1.3 eslint修复2.1.4 单文件组件-注册2.1.5 单文件组件-通信2.1.6 单文件组件-生命周期2.1.7单文件组件-指令与过滤器2.1.8 反向代理&别名反向代理需要在vue.…

二叉树进阶--二叉搜索树

目录 1.二叉搜索树 1.1 二叉搜索树概念 1.2 二叉搜索树操作 1.3 二叉搜索树的实现 1.4 二叉搜索树的应用 1.5 二叉搜索树的性能分析 2.二叉树进阶经典题: 1.二叉搜索树 1.1 二叉搜索树概念 二叉搜索树又称二叉排序树,它或者是一棵空树,…

144. 二叉树的前序遍历

144. 二叉树的前序遍历 Java代码&#xff1a;递归 public List<Integer> preorderTraversal(TreeNode root) {List<Integer> res new ArrayList<>();preOrder(root, res);return res; } private void preOrder(TreeNode root, List<Integer> res) {i…

【沐风老师】3DMAX几何投影插件Geometry Projection使用详解

【几何投影插件】 描述 3DMAX几何投影插件Geometry Projection&#xff0c;将一个或多个对象或它的顶点选择沿全局或局部 x、y 或 z 轴投影到另一个对象上。 适用版本 3dMax2013或更高版本 安装设置 插件的安装非常简单&#xff0c;解压后把插件脚本 “geometry_projectio…

SmartSoftHelp 数据库优化辅助软件

SmartSoftHelp 数据库高并发优化&#xff0c;数据库连接字符串优化&#xff0c;SQL耗时优化&#xff0c;SQL格式化&#xff0c;美化&#xff1f; 这些问题你都知道&#xff1f; 这不仅仅是一个软件&#xff0c;而是很多种解决方案&#xff01; 支持Netframework ,netcore后台…

移动设备安全管理基础指南

什么是移动安全管理 &#xff08;MSM&#xff09; 移动安全管理是指为保护企业中的移动设备和企业数据而采取的行动。这些操作可以进一步被归类为反应性的或主动的&#xff0c;基于该操作是在数据和设备被破坏之前还是之后执行的。除了管理移动设备外&#xff0c;大多数MDM解决…

验收测试分类

α测试 Alpha 是内测版本&#xff0c;即现在所说的CB。 此版本表示该软件仅仅是一个初步完成品, 通常只在软件开发者内部交流, 也有很少一部分发布给专业测试人员。 一般而言, 该版本软件的bug 较多, 普通用户最好不要安装。 β测试 Beta是公测版本&#xff0c;是对所有用户…

【算法】高精度

作者&#xff1a;指针不指南吗 专栏&#xff1a;算法篇 &#x1f43e;不能只会思路&#xff0c;必须落实到代码上&#x1f43e; 文章目录前言一、高精度加法二、高精度减法三、高精度乘法四、高精度除法前言 ​ 高精度即很大很大的数&#xff0c;超过了 long long 的范围&…

html标签手册

完整的HTML页面&#x1f4d1; ①基础标签&#x1f4d1;&#x1f4d1;&#x1f4d1; HTML <!DOCTYPE> 声明 !DOCTYPE声明必须是 HTML 文档的第一行&#xff0c;位于 html标签之前。 !DOCTYPE 声明不是 HTML 标签&#xff1b;它是指示 web 浏览器关于页面使用哪个 HTML 版…

硬件设计 之 CAN通信-DSView逻辑分析仪使用-CAN波形测试

CAN总线讲解 1.基本概念&#xff1a; **CAN&#xff0c;Controller Area Network&#xff0c;控制器局域网是用于解决汽车众多控制部件之间的数据交换而开发的一种串行数据通信总线。 ** 2.CAN总线电平&#xff1a; can总线采用差分电压传输数据&#xff0c;分别是CANH和CA…

QCon演讲实录(上):多云环境下应用管理与交付实践

作者&#xff1a;阿里云大数据基础工程技术团队——郭耀星 大家上午好&#xff01;我是来自阿里云大数据基础工程技术团队的郭耀星&#xff0c;花名雪尧。今天我很高兴能够来到QCon&#xff0c;与大家分享我的经验和心得。在当前的多云环境中&#xff0c;作为运维支撑团队&…

GPDB中的HASH JOIN解析

GPDB中的HASH JOIN机制Hash Join是利用hash函数来实现和加速数据库中JOIN操作的一类算法。主要优势是hash函数可以只通过一次运算就将键值映射到固定大小的hash值&#xff0c;仅用作等值join中。由于HASH JOIN的算法复杂度在平均情况下是O(n)&#xff0c;所以通常在大规模数据时…

【K3s】第15篇 使用containerd容器部署k3s集群

目录 1、文件准备 2、安装master节点 3、安装agent节点 4、查看详情信息 5、遇到问题 1、文件准备 安装docker yum install -y dockersystemctl status docker 增加docker国内镜像源 vi /etc/docker/daemon.json 添加内容为&#xff1a; { "registry-mirrors":…

MySQL:为什么说应该优先选择普通索引,尽量避免使用唯一索引

前言 在使用MySQL的过程中&#xff0c;随着表数据的逐渐增多&#xff0c;为了更快的查询我们需要的数据&#xff0c;我们会在表中建立不同类型的索引。 今天我们来聊一聊&#xff0c;普通索引和唯一索引的使用场景&#xff0c; 以及为什么说推荐大家优先使用普通索引&#xf…

面试题(二十四)数据结构与算法

9.1哈希 请谈一谈&#xff0c;hashCode() 和equals() 方法的重要性体现在什么地方&#xff1f; 考察点&#xff1a;JAVA哈希表 参考回答&#xff1a; Java中的HashMap使用hashCode()和equals()方法来确定键值对的索引&#xff0c;当根据键获取值的时候也会用到这两个方法。…

【OJ】本土化

&#x1f4da;Description: 激动人心的时刻到了&#xff01;我们开发的记账软件即将在欧美地区发布&#xff0c;但我希望能把本土化工作做得更好。所谓的本土化可不仅仅是把软件界面语言翻译成英语&#xff0c;还要根据当地的习俗来调整软件的使用方法。 比如我国在书写数字…

【yolov5】首次尝试目标检测利用prompt

1、打开prompt 2、切换到pytorch所在环境 conda activate freezing我的环境名是freezing&#xff0c;这里根据自己环境名去激活切换 3、进入到yolov5项目所在路径 激活完环境后立即执行指令当然是无效的&#xff0c;首先要进入到你的项目目录 首先看一下自己的项目在那个位…

MongoDB分片集群部署及实践

文章目录MongoDB分片集群部署及实践一、前言二、了解分片集群1.简介2.分片集群组件3.副本集模式三.安装部署1.分片集群环境2.安装1&#xff09;CPU 检测2&#xff09;修改机器名称3&#xff09;配置 hosts 文件4&#xff09;配置防火墙5&#xff09;创建目录6&#xff09;安装 …

PowerBI的使用和基本效果

1. 什么是PowerBI Power BI 是一套商业分析工具&#xff0c;用于在组织中提供见解。可连接数百个数据源、简化数据准备并提供即席分析。生成美观的报表并进行发布&#xff0c;供组织在 Web 和移动设备上使用。每个人都可创建个性化仪表板&#xff0c;获取针对其业务的全方位独…