数据集 | 基于语音(Speech)/多模态(Multimodal)的情绪识别数据集,格式及下载

news2025/1/12 21:00:14

本文主要介绍了一些常用的语音🗣识别数据集,文件格式以及下载地址:

目录

1.IEMOCAP Emotion Speech Database(English)

2.Emo-DB Database(German)

文件命名

 对象

3.Ryerson Audio-Visual Database of Emotional Speech and Song (English)RAVDESS

4.Korean Emotional Speech Dataset 

5.SAVEE(English) 

6.EMOVO(Italian)

7.MELD

数据集下载命令

 示例对话

​编辑 数据集统计



1.IEMOCAP Emotion Speech Database(English)

Interactive Emotional Dyadic Motion Capture (IEMOCAP) 数据库是一个表演的、多模态和多说话者数据库,最近在南加州大学的SAIL实验室收集. 它包含大约 12 小时的视听数据,包括视频、语音、面部动作捕捉、文本转录。它由二元会话组成,演员在这些会话中进行即兴表演或脚本化场景,这些场景是专门为引发情感表达而选择的。IEMOCAP 数据库被多个标注者标注为分类标签,如愤怒、快乐、悲伤、中性,以及维度标签,如效价、激活和支配。详细的动作捕捉信息、引发真实情绪的交互设置以及数据库的大小使该语料库成为社区现有数据库的宝贵补充,可用于研究和建模多模式和表达性人类交流。更多可查看:https://sail.usc.edu/iemocap/

数据库范围

  • 情绪表达的识别与分析
  • 人类二元相互作用分析
  • 情感敏感人机界面和虚拟代理的设计
  • ...

一般信息

  • 关键词:情感的、多模式的、行动的、二元的
  • 英语语言
  • 10名演员:5男5女
  • 情绪激发技巧:即兴创作和剧本

可用方式

  • 动作捕捉人脸信息
  • 演讲
  • 影片
  • 头部运动和头部角度信息
  • 对话转录
  • 词级、音节级和音素级对齐

注释

  • 会话被手动分割成话语
  • 每个话语至少由 3 位人工注释者注释
  • 分类属性:
    • 愤怒、快乐、兴奋、悲伤、沮丧、恐惧、惊讶、其他和中性状态
  • 维度属性:
    • 程度(valence)、激活(activation)、优势(dominance)

 下载地址:


2.Emo-DB Database(German)

EMODB 数据库是免费提供的德国情感数据库。该数据库由德国柏林技术大学通信科学研究所创建。十名专业演讲者(五男五女)参与了数据记录。该数据库总共包含 535 条话语。EMODB 数据库包含七种情绪
1) 愤怒
2) 无聊
3) 焦虑
4) 快乐
5) 悲伤
6) 厌恶
7)中性 

数据是以48kHz的采样率记录的,然后下采样到16kHz。
 

文件命名

每个话语都根据相同的方案命名:

  • 位置 1-2:发言者人数
  • 位置 3-5:文本代码
  • 位置6:情感(抱歉,字母代表德语情感词)
  • 位置 7:如果有两个以上的版本,则编号为 a、b、c ....

示例:03a01Fa.wav 是 Speaker 03 以“Freude”(幸福)的情绪朗读文本 a01 的音频文件。

 对象

  • 03——男,31岁
  • 08 - 女性,34 岁
  • 09 - 女,21 岁
  • 10 - 男性,32 岁
  • 11 - 男性,26 岁
  • 12 - 男性,30 岁
  • 13 - 女性,32 岁
  • 14 - 女性,35 岁
  • 15 - 男性,25 岁
  • 16 - 女性,31 岁

 

 

 下载地址:EmoDB Dataset | Kaggle


3.Ryerson Audio-Visual Database of Emotional Speech and Song (English)RAVDESS

 瑞尔森情感语音和歌曲视听数据库(RAVDESS):来自 RAVDESS 的语音纯音频文件(16 位,48kHz .wav)。Zenodo提供的语音和歌曲、音频和视频的完整数据集 (24.8 GB) 。RAVDESS 的构建和感知验证在PLoS ONE 的开放获取论文中有所描述。

文件

RAVDESS 的这一部分包含 1440 个文件:每个演员 60 次试验 x 24 名演员 = 1440。RAVDESS 包含 24 名专业演员(12 名女性,12 名男性),用中性的北美口音说出两个词汇匹配的陈述。言语情绪包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情。每种表情都在两种情绪强度(正常、强烈)和一种额外的中性表情下产生。

文件命名

1440 个文件中的每一个都有一个唯一的文件名。文件名由 7 部分数字标识符组成(例如,03-01-06-01-02-01-12.wav)。这些标识符定义了刺激特征:

文件名标识符

  • 模态(01 = 全 AV,02 = 仅视频,03 = 仅音频)。

  • 人声通道(01 = 语音,02 = 歌曲)。

  • 情绪(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 愤怒,06 = 恐惧,07 = 厌恶,08 = 惊讶)。

  • 情绪强度(01 = 正常,02 = 强烈)。注意:“中性”情绪没有强烈的强度。

  • 声明(01 =“孩子们在门口说话”,02 =“狗坐在门口”)。

  • 重复(01 = 第一次重复,02 = 第二次重复)。

  • 演员(01 到 24。奇数为男性,偶数为女性)。

文件名示例:03-01-06-01-02-01-12.wav

  1. 纯音频 (03)
  2. 演讲(01)
  3. 恐惧 (06)
  4. 正常强度 (01)
  5. 声明“狗” (02)
  6. 第一次重复 (01)
  7. 第十二男演员(12)
    女,演员身份证号为偶数。

下载地址:RAVDESS Emotional speech audio | Kaggle

 

4.Korean Emotional Speech Dataset 

 https://nanum.etri.re.kr/share/list?lang=ko_KR


5.SAVEE(English) 

Surrey Audio-Visual Expressed Emotion (SAVEE) 数据库已被记录为开发自动情绪识别系统的先决条件。该数据库由 4 位男演员 7 种不同情绪的录音组成,总共 480 条英式英语话语。这些句子是从标准的 TIMIT 语料库中选出的,并且对每种情绪进行了语音平衡。数据是在配备高质量视听设备的视觉媒体实验室中记录、处理和标记的。为了检查表演质量,录音由 10 名受试者在音频、视觉和视听条件下进行评估。分类系统是使用标准特征和分类器为每个音频、视觉和视听模式构建的,独立于说话者的识别率分别达到 61%、65% 和 84%。

 包含六种基本情绪和中性情绪的表达情绪的视听数据库。该数据库由 4 位英语演员说出的语音平衡的 TIMIT 句子组成,总计 480 条语句。该数据库由 10 名受试者针对每个音频、视觉和视听数据的可识别性进行了评估。主观评价结果显示,与音频数据相比,视觉数据的分类准确率更高,并且通过结合两种方式提高了整体性能。在数据库上的说话人相关和说话人无关实验中实现了相当高的分类精度,其遵循与人类评估者相似的情感分类结果模式,即 视觉数据的表现优于音频,并且视听组合的整体性能得到改善。人类评估和机器学习实验结果表明该数据库对情感识别领域研究的有用性。

 下载地址:Surrey Audio-Visual Expressed Emotion (SAVEE) Database


6.EMOVO(Italian)

文件名的结构为emotion _ speaker _ actwav
情感对应的情感代码及其英文翻译如下。

  • dis - disgusto (Disgust)
  • pau - paura (Fear)
  • rab - Rabbia (Anger)
  • gio - gioia (Joy/Happy)
  • sor - Sorpresa (惊喜)
  • tri - triste (悲伤)
  • neu - neutro (中性)

7.Multimodal EmotionLines Dataset(MELD)

通过增强和扩展 EmotionLines 数据集创建了多模态 EmotionLines 数据集 (MELD)。MELD 包含与 EmotionLines 中可用的相同对话实例,但它还包含音频和视觉模态以及文本。MELD 有超过 1400 个对话和 13000 个来自 Friends 电视剧的话语。多位发言人参与了对话。对话中的每一句话都被标记为这七种情绪中的任何一种——愤怒、厌恶、悲伤、喜悦、中性、惊讶和恐惧。MELD 还对每个话语进行情绪(正面、负面和中性)注释。

数据集下载命令

wget https://web.eecs.umich.edu/~mihalcea/downloads/MELD.Raw.tar.gz

或者

wget https://huggingface.co/datasets/declare-lab/MELD/resolve/main/MELD.Raw.tar.gz

下载后如图

 

 解压命令

tar -xzvf MELD.Raw.tar.gz 

 解压后格式

 其中

 Sr No.: 语料的序列号,主要是为了在不同的版本或多个副本有不同的子集的情况下参考语料。

Utterance : 来自EmotionLines的单个语料作为一个字符串。

Speaker :与话语相关的说话人的名字。

Emotion :说话人在话语中所表达的情绪(中性、喜悦、悲伤、愤怒、惊讶、恐惧、厌恶)。

Sentiment :说话人在话语中所表达的情绪(积极、中性、消极)。

Dialogue_ID:对话的指数,从0开始。  

Utterance_ID:对话中特定语词的索引,从0开始。   

Season:某句话所属的《老友记》电视节目的季节号。

Episode:某句话所属的Friends TV Show某一季的集数

StartTime:在给定的情节中,话语的开始时间,格式为 "hh:mm:ss,ms"。 

EndTime:在给定的情节中,说话的结束时间,格式为 "hh:mm:ss,ms"。

 

示例对话


 数据集统计

 

 

更多信息请参考MELD

基于计算机视觉的情绪识别数据集请参考https://blog.csdn.net/weixin_44649780/article/details/124030692#comments_26431971

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/516937.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解密JS代码:一个有趣的故事

作为一名前端开发者,我们经常需要处理加密和解密的任务。近日,我遇到了一个有趣的故事和一个需要解密的JavaScript代码。让我和你分享一下这个故事以及我是如何解密这段代码的。 最近我收到了一个任务,要将一个网站上的一段JavaScript代码进…

torch_geometric获取datasets(解决连不了外网的问题)

文章目录 1. torch_geometric.data介绍2. 使用Planetoid下载Cora数据集的代码3. 解决程序运行的机器无法联网的问题3.1 尝试运行,查看数据集下载链接3.2 放置到对应文件夹下3.3 重新运行之前写的程序 4. 一点感慨 1. torch_geometric.data介绍 torch_geometric&…

进货商模式玩法解析:当老板、亲自进货、自己赚差价?

如今很多人都看到互联网的发展前景,有了创业的想法,但是资金、技术、市场等问题给他们带来了瓶颈。进货商模式的出现,为这些(文章编辑ycy6221)有创业想法,有梦想的人打破了这些限制,而且还可以实…

HTTP协议演进:为什么说HTTP/1.1的时代已经过去了

前言 欢迎来到今天的每日一题,每日一提。昨天聊到了,HTTP 是什么。有哪些组成部分。并且最后提到了 HTTP 的一些缺点,比如:性能较低,容易导致网络拥塞和延迟,不支持服务器推送等等。设计协议的大佬们&#…

ChatGPT实现安全漏洞检查

安全漏洞检查 几乎每一项新技术的出现,都会首先被运用在安全领域,ChatGPT 也不例外。在 ChatGPT 出现的第一时间,利用 ChatGPT 编写钓鱼邮件,进行社会工程学攻击,辅助分析代码漏洞等等就成为热门话题。其实技术只是工…

快速上手Vite 配置指南

💂 个人网站:【紫陌】【笔记分享网】 💅 想寻找共同学习交流、共同成长的伙伴,请点击【前端学习交流群】 文章最后有作者l联系方式(备注进群) 1.认识vite 什么是vite呢? 官方的定位:下一代前端…

《水经注地图服务》数据源说明

(本文首发于“水经注GIS”公号,关注公号免费领取地图数据) 《水经注地图服务》(WeServer)是一款可快速发布全国乃至全球海量卫星影像的地图发布服务产品,该产品完全遵循OGC相关协议标准,是一个…

老板给情人转166万,妻子起诉后追回,网友:这是被白嫖三年

作为一个已婚男人,戚某在婚姻关系中背离了对妻子的忠诚,与小自己14岁的女员工小汪发展出不正当的男女关系。而小汪,在明知对方已婚的情况下,仍然选择继续纠缠,最终付出了惨痛的代价。 据了解,戚某在上海经营…

会议签到二维码制作教程

纸质签到表、人工逐一核对等传统的会议签到方式,存在着耗时耗力、容易出错、不环保等种种弊端。 可以制作一个包含签到表单的签到二维码,参会人员使用微信扫码签到,自动授权填写手机号、定位等信息,管理人员在小程序以及电脑端实…

【团购-自己实现代理 Objective-C语言】

一、我们上节课,实现了数据加载,下面是不是有个加载更多啊, 1.我们先把这个“加载更多”给大家做一下, 这个加载更多,注意看,因为这个加载更多,是显示在UITableView的最底部的, 它会随着UITableView一起滚动吧, 证明,它是在UITableView的tableFooterView里面显示的…

Linux系统中tar.gz与rpm结尾的文件在安装程序时究竟有什么不同?

tar.gz tar.gz就是一个压缩包! 使用的时候需要使用tar命令配上一些参数来进行解压。 关于tar的使用,大家可以参考这篇博客,这位大佬写的很详细。 Linux tar命令详解 在解压完后,这就是一个独立的文件,里面包含着关…

第十五章_Redis与MySQL数据双写一致性工程落地案例

复习面试题 采用双检加锁策略 多个线程同时去查询数据库的这条数据,那么我们可以在第一个查询数据的请求上使用一个 互斥锁来锁住它。 其他的线程走到这一步拿不到锁就等着,等第一个线程查询到了数据,然后做缓存。 后面的线程进来发现已经…

Redis内幕揭秘:探索Redis基础知识及应用场景,挖掘出高效的缓存技术

Redis 是一个开源的内存数据结构存储系统,它可以用作数据库、缓存和消息中间件。以下是 Redis 的发展史: 2009 年:Salvatore Sanfilippo 开始编写 Redis。2010 年:Redis 发布了 1.0 版本。这个版本包含了许多常用的数据结构&…

在陌生人社交场景 挖呀挖呀挖……

在陌生人社交场景 挖呀挖呀挖, 找可靠的大品牌(网易),享最优惠的价~ 😄 对于“深挖”娱乐社交领域需求的开发者来说,陌生人社交是毋庸置疑最受青睐的场景。尤其是对渴望交流、敢于表达自我的年轻人来说&…

10-HTML-表单标签

标签描述<form>定义供用户输入的 HTML 表单。<input>定义输入控件。<textarea>定义多行的文本输入控件。<button>定义按钮。<select>定义选择列表&#xff08;下拉列表&#xff09;。<optgroup>定义选择列表中相关选项的组合。<option&…

【Rust日报】2023-05-10 llm - 使用Rust在CPU上运行大模型

llm - 使用Rust在CPU上运行大模型 这是一套工具。目前支持这些模型&#xff1a; GPT-2GPT-JLLaMA: LLaMA, Alpaca, Vicuna, Koala, GPT4All v1, GPT4-X, WizardGPT-NeoX: GPT-NeoX, StableLM, Dolly v2 (partial, not the same tensor names?)BLOOM: BLOOMZ https://github.co…

多优先级(笔记)

目录 支持多优先级的方法通用方法优化方法1、修改任务控制块2、修改xTaskCerateStactic()修改 prvInitialiseNewTask() 函数prvAddTaskToReadyList()初始化任务列表prvAddTaskToReadyList()vTaskStartScheduler()vTaskDelay()vTaskSwitchContext()xTaskIncrementTick() 实验实验…

如何成就一个伟大的公司?

任何事物都不及“伟大”那样简单&#xff0c;事实上&#xff0c;能够“简单”便是伟大。最优秀的模式&#xff0c;往往是最简单的东西。 那么&#xff0c;如今作为一名创业者&#xff0c;要如何才能更好的发展自己的公司&#xff0c;把带领的团队打造成为一个伟大的公司呢&…

MySQL基础(二十八)索引优化与查询优化

都有哪些维度可以进行数据库调优?简言之: 索引失效、没有充分利用到索引——索引建立关联查询太多JOIN (设计缺陷或不得已的需求)——SQL优化服务器调优及各个参数设置(缓冲、线程数等)———调整my.cnf。数据过多――分库分表 关于数据库调优的知识点非常分散。不同的DBMS&…

基于Vue3 + ts + echarts(版本5.X)实现中国地图下钻、地图打点、地图热力图功能

写在前面&#xff1a; 实现效果图 1.比较重要的部分用红字标出 2.安装echats: npm install echarts --save 3.由于echarts5版本的已经没有自带地图数据了&#xff0c;所以地图数据需要到专门的GEO数据网站中下载。这里提供一个阿里的下载地址&#xff1a;DataV.GeoAtl…