webhub123整理 中文语音识别数据集​

news2024/11/24 12:54:59

我们收集和整理了常用的中文语音识别数据集,合计超过12000+小时的数据集。已经按照不同来源整理收录到

webhub123整理 中文语音识别数据集​icon-default.png?t=N3I4https://www.webhub123.com/#/home/detail?projectHashid=64335220&ownerUserid=22053727

整理后的效果如下

每个卡片为一个网页,点击图片即可访问。登录后可一键全部保存到我的收藏,可以完全自由免费的管理和分享各种网站集合。同时还能发现他人分享的各类好网站。

个人网站收藏管理页面如下

每个数据集的详细介绍如下

openslr.org 清华大学30小时中文语音库。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取的,总时长超过30个小时。大部分参与录音的人员是会说流利普通话的大学生。采样频率16kHz,采样大小16bits。THCHS-30的文本选取自大容量的新闻,目的是为了扩充863语音库。

希尔贝壳-专注于人工智能大数据和技术的创新 希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kHz,用于制作AISHELL-ASR0009-OS1。400名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在95%以上。分为训练集、开发集、测试集。

openslr.org ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用

openslr.org Primewords 免费的中文普通话语料库由上海普力信息技术有限公司发布。(上海元语信息科技)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。

数据堂开源1505小时中文语音数据 数据时长1505小时,是数据堂中文普通话语音数据库中的一部分。采集区域覆盖全国34个省级行政区域,参与录音人数达6408人,录音内容超30万条口语化句子。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。(仅支持学术研究,未经允许禁止商用)

magicdata 开源语音数据集 1080个说话人755小时的手机录音语音数据

希尔贝壳-专注于人工智能大数据和技术的创新 希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)

Mozilla Common Voice Common Voice项目旨在创建开源语音识别数据集,当前链接为所有中文相关语音数据集。

ASRU2019中英混杂语音识别挑战赛-2019年IEEE自动语音识别与理解研讨会-数据堂 包括500小时中文训练集,和300小时中英文测试集。当前已经关闭注册,可能无法下载数据了

2021 IEEE SLT CSRC 2021SLT儿童语音识别挑战赛数据集,包含400小时儿童语音数据。但是可能无法下载到数据了,需要去openssl 找 或者给官方发邮件。

WenetSpeech 包含了10000+小时的普通话语音数据集,所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量,WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

WenetSpeech数据集的处理和使用_wenespeech数据_夜雨飘零1的博客-CSDN博客

GitHub - KeSpeech/KeSpeech: The repo provides information about KeSpeech dataset. KeSpeech包含了来自27237个说话人、34个中国城市、1542个小时的普通话+8种方言的数据,用来进行跨语言语音识别、预训练等任务。

ASR-RAMC-BigCCSC: A Chinese Conversational Speech Corpus Magic Data 于4月15日在 Magichub 开源社区正式开源用于本次比赛的180小时中文对话式语音数据集 MagicData-RAMC。作为高质量且标注丰富的训练数据,可以很好地支持开发者完成语音识别和说话人日志相关的研究。

​MagicData-RAMC数据集测评 | 西北工业大学冠军队分享

Free ST Chinese Mandarin Corpus 这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度。语料库包含: 1音频文件; 2转录; 3元数据;

ASR-CStrMAcstCSC: A Chinese Strong Mandarin Accent Conversational Speech Corpus 58小时的中口音中文语音数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/518772.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

mysql Lock wait timeout exceeded; try restarting transaction

文章目录 一、mysql死锁及超时的原因二、mysql死锁排查思路1、show full processlist 查询当前数据库全部线程2、information_schema 一、mysql死锁及超时的原因 当在业务逻辑中看到这个错误,或者mysql中使用update语句更新数据报错: Lock wait timeout…

数影周报:丰田215万名日本客户信息被无意泄露,菜鸟将于明年初在港IPO

本周看点:丰田215万名日本客户信息被无意泄露;美光宣布吴明霞出任美光中国区总经理;谷歌将向Gmail用户提供暗网数据泄露报告;淘宝天猫集团架构调整完成;菜鸟计划于2024年初在香港IPO...... 数据安全那些事 丰田215万名…

体验了基于ChatGPT的谷歌翻译插件后,我把其他翻译插件移除了

最近,一个基于 ChatGPT 的谷歌浏览器翻译插件挺火的,我体验了下,总结下来就一个字“666”。 github 上已经有 14.9k 的 star 了 传送门:GitHub - yetone/openai-translator: 基于 ChatGPT API 的划词翻译浏览器插件和跨平台桌面端…

AI学术界无人后继?高校毕业生纷纷进厂,全是香饽饽

来源 | 新智元 微信号:AI-era 【导读】近日,有外媒对一批美国名校的大学生和教授进行了采访。结果显示,高校毕业生入职科技公司已成主流。 AI火,搞AI的人就火。 这不,据Insider最近的一次采访报道,科技类…

Vue3-黑马(五)

目录: (1)vue3-基础-axios-拦截器 (2)vue3-基础-条件与列表 (3)vue3- 基础-监听器 (1)vue3-基础-axios-拦截器 我们自己创建axios对象有一个好处,就是可以…

[译] Flutter 3.10 的新功能

[译] Flutter 3.10 的新功能 原文 https://medium.com/flutter/whats-new-in-flutter-3-10-b21db2c38c73 无缝的Web和移动端集成,Impeller稳定版的突破性图形性能,以及更多 欢迎使用Flutter 3.10!我们非常期待展示我们令人惊叹的Flutter社区所…

java可视化开发工具好用不好用?

java可视化开发工具到底好用不好用?这是不少粉丝朋友经常询问到的一个问题。在数字化发展趋势越发明显的当下,java可视化开发工具可以帮助各中大型企业实现转型升级,它的灵活、简洁、易操作、可视化等功能优势,让很多客户朋友欣慰…

OLYMP‘ARTS 2023奥艺大会中国推介会在北京盛大举行

北京时间2023年5月11日16时,以“艺术连接世界”为主题的OLYMPARTS 2023 国际奥艺大会中国推介会在北京盛大举行。此次活动由国际奥艺委员会(WOAC)指导支持,共邀请了国外驻华机构、文旅部、央国企、国内外协会机构、知名艺术家代表…

【项目源码】智慧班牌源码 家校互联小程序源码 智慧校园云平台

智慧校园平台源码 智慧班牌源码 人脸识别技术 电子班牌源码 家校互联小程序源码 源码开发环境:Javaspringbootvueelement-uimysql 智慧校园系统定位于中小学教育学校,侧重实际应用,讲究实际,突出加强校园安全监管,德…

【数值模型系列】CMAQ全局属性修改

一、问题产生 在做一个月的浓度预测时,由于GFS只能预报16天左右,因此需要使用CFS气象数据来驱动WRF模型,但CFS在WRF4.x版本有问题,因此重新装了WRF3.9.1版本的WRF。 而我这里的CMAQ ICON会去取前一天的CCTM CONC制作新的ICON文件…

ImageBind 横跨六种数据模式,用向量统一 AI 语言

出品人:Towhee 技术团队 作者:顾梦佳 人工智能(AI)最近毋庸置疑又迎来了一个高速发展的浪潮。 目前,人工智能的应用已经渗透到各个领域,包括自然语言处理、计算机视觉、语音识别、机器人技术等,…

如何自己搭建Scrapy爬虫框架

前言 当你学了一段时间爬虫后,就会知道各种功能太多而且麻烦。还不如自己整理个框架方便的多。因此,从开始写爬虫程序开始,就会慢慢的接触到一些有关爬虫的框架、效率提升而且扩展也很方便。接下来我将会以Scrapy爬虫框架将我的学习过程记录下…

查找符合条件,且不重复的数据 +++ EXCEL的数组公式(未完成)

查找符合条件,且不重复的数据 1 目标问题 查找第1列,月份为5月,并且第2列不重复的数据个数有2个条件 有的版本有唯一计数,有的没有 2 比较简单的方法 2.1 加辅助列,简单公式,其实逻辑是更清晰的 这里主要…

【数据结构】和栈一样简单的结构——队列

【数据结构】和栈一样简单的结构——队列 一、前言1、什么是队列?2、使用什么结构实现? 二、目标三、实现1、初始化工作2、入队2.1、图解思路2.2、代码实现 3、出队3.1、图解思路3.2、代码实现 4、打印队列(用于测试)5、返回队头元素6、返回队尾元素7、返…

Android工程师复盘小米、滴滴的面试全过程,网易offer已收入囊中

背景 时间过的真快,16年毕业到现在也有好几年了,最近面试试着投了几十家Android framework工程师的岗位,也面试了好几家,其中包括滴滴出行、小米、合众新能源、网易、最终收到了网易和滴滴offer,小米二面挂掉&#xf…

四、Eureka注册中心集群配置

目录 需要两个eureka server项目,之前已经有一个springcloud-eureka 1、在springcloud项目下新建一个聚合项目springcloud-eureka2 2、修改springcloud-eureka2的pom文件,引入eureka-server依赖 3、增加springcloud-eureka2的启动类,开启…

五、基于服务发现获取并访问远程接口

目录 1、在springcloud-order项目中新建controller供外部远程访问 2、在springcloud-member项目中新建controller去访问远程接口 3、运行springcloud-eureka、springcloud-member、springcloud-order项目的启动类 4、访问member服务的接口,通过member服务调用or…

WiFi(Wireless Fidelity)基础(十一)

目录 一、基本介绍(Introduction) 二、进化发展(Evolution) 三、PHY帧((PHY Frame ) 四、MAC帧(MAC Frame ) 五、协议(Protocol) 六、安全&#x…

python进阶--月考二

python进阶--月考二 (一)装饰器(二)创建名为express.py文件,编写以下推导式(25分)(三)创建名为process_test.py的文件,计算1-3000之间的水仙花数(…