本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。
1
AWARE
-
发布方:
Imam Abdulrahman Bin Faisal University·法赫德国王石油与矿产大学
-
发布时间:
2021-09-26
-
简介:
AWARE 数据集的同行评审论文发表在 ASEW 2021,可通过以下方式访问:http://doi.org/10.1109/ASEW52652.2021.00049。使用 AWARE 数据集时请引用本文。 基于方面的情绪分析 (ABSA) 旨在识别关于特定方面的意见(情绪)。由于缺少注释以支持 ABSA 任务的智能手机应用程序评论数据集,我们提出了 AWARE:ABSA 应用程序评论仓库。 AWARE 包含来自三个不同领域(生产力、社交网络和游戏)的应用评论,因为每个领域都有其不同的功能和受众。每个句子都标注了三个标签,如下所示: 方面术语:存在于句子中的术语,描述了应用程序的一个方面,由情感表达。 “N/A”的术语值意味着该术语没有在句子中明确提及。 方面类别:预定义的一组特定于域的类别,代表应用程序的一个方面(例如,安全性、可用性等)。 情绪:正面或负面。 注意:游戏域不包含方面术语。 我们提供了来自三个领域的 11323 个句子的综合数据集,其中每个句子都附加了一个布尔值注释,表明该句子是否表达了正面/负面意见。此外,我们提供了三个独立的数据集,每个域一个,只包含表达意见的句子。名为“AWARE_metadata.csv”的文件包含数据集列的描述。 如何使用 AWARE? 我们设计了 AWARE,使其可用于服务于各种任务。任务可以是但不限于: 情绪分析。 方面术语提取。 方面类别分类。 方面情绪分析。 显式/隐式方面术语分类。 意见/非意见分类。 此外,研究人员可以试验和调查不同领域对用户反馈的影响。
-
下载地址:
hhttps://doi.org/10.5281/zenodo.5528481
-
论文地址:https://ieeexplore.ieee.org/document/9679823
2
FIQA (Financial Opinion Mining and Question Answering)
-
发布方:
曼彻斯特大学·帕绍大学·爱尔兰国立大学
-
发布时间:
2018
-
简介:
自然语言处理 (NLP) 技术和资源的日益成熟正在极大地改变许多应用程序领域的格局,这些领域依赖于大规模分析非结构化数据。金融领域依赖于对多个非结构化和结构化数据源的解释,以及对快速和全面的决策制定的需求,已经成为NLP,Web挖掘和信息检索 (IR) 技术实验的主要基础。这一挑战的重点是推进金融领域基于方面的情绪分析和基于观点的问题回答的最新技术。
-
下载地址:
https://sites.google.com/view/fiqa/
3
CovidET
-
发布方:
德克萨斯大学奥斯汀分校·伊利诺伊大学芝加哥分校
-
发布时间:
2022
-
简介:
我们介绍了CovidET (新型冠状病毒肺炎期间的情绪及其触发因素),这是一个大约1,900篇与新型冠状病毒肺炎相关的英语Reddit帖子的数据集,其中包含感知情绪的手动注释和帖子中描述的触发因素的抽象摘要。我们开发了强大的基线来共同检测情绪并总结情绪触发因素。我们的分析表明,CovidET在特定于情绪的摘要以及长时间社交媒体帖子中的多情绪检测方面提出了新的挑战。
-
下载地址:
https://github.com/honglizhan/CovidET
-
论文地址:
https://arxiv.org//pdf/2210.12531.pdf
4
HurricaneEmo
-
发布方:
伊利诺伊大学芝加哥分校·University of Texas at Austin
-
发布时间:
2020
-
简介:
HurricaneEmo 是一个情感数据集,其中包含 15,000 条英语推文,跨越三个飓风:哈维、艾尔玛和玛丽亚。自然灾害(例如飓风)每年影响数百万人,并在其后造成广泛的破坏。人们最近开始使用社交媒体网站(例如 Twitter)与更大的社区分享他们的情绪和感受。因此,这些平台已成为大规模理解和感知情绪的工具。在本文中,我们介绍了 HurricaneEmo,这是一个包含 15,000 条英语推文的情感数据集,跨越三个飓风:Harvey、Irma 和 Maria。我们对细粒度情绪进行了全面研究,并提出了分类任务来区分粗粒度情绪组。我们最好的 BERT 模型,即使在利用未标记的 Twitter 数据进行任务引导的预训练之后,也只能达到 68% 的准确率(所有组的平均值)。 HurricaneEmo 不仅作为模型的具有挑战性的基准,而且作为分析以灾难为中心的领域中的情绪的宝贵资源。
-
下载地址:
https://github.com/shreydesai/hurricane
-
论文地址:
https://arxiv.org/pdf/2004.14299v1.pdf
5
Cross-cultural pop song mood ratings (US, KR, BR)
-
发布方:
莱比锡大学·马克斯普朗克人类认知和脑科学研究所·马克斯普朗克经验美学研究所·纽约大学阿布扎比分校
-
发布时间:
2021
-
简介:
来自 360 首流行歌曲的 8 种情绪的情绪评分来自美国、韩国和巴西的 166 位评分者来自 Spotify 的 MIR 功能
-
下载地址:
https://osf.io/3uw9d/
-
论文地址:https://arxiv.org/pdf/2108.00768v1.pdf
6
DeepGlobe
-
发布方:
Facebook·瓦赫宁根大学·数位全球
-
发布时间:
2018-03-13
-
简介:
我们观察到,与传统图像相比,卫星图像是强大的信息来源,因为它包含更结构化和更统一的数据。尽管计算机视觉社区一直在使用深度学习来完成日常图像数据集上的艰巨任务,但卫星图像直到最近才引起人们对地图和人口分析的关注。该研讨会旨在汇集各种研究人员,以推动卫星图像分析的最新技术。
为了更多地关注此类方法,我们提出了围绕三种不同卫星图像理解任务的DeepGlobe卫星图像理解挑战。为此竞赛创建和发布的数据集可以作为卫星图像分析未来研究的参考基准。此外,由于挑战任务将涉及经典计算机视觉问题的 “野外” 形式,因此这些数据集有可能成为遥感领域以外的强大视觉算法设计的有价值的测试平台。
-
下载地址:
http://deepglobe.org/
-
论文地址:
https://arxiv.org/pdf/1805.06561.pdf
7
Legal Case Reports
-
发布方:
新南威尔士大学
-
发布时间:
2012-10-19
-
简介:
法律案件报告是澳大利亚联邦法院案件的数据集,主要用于文本摘要。 该数据集包含所有案例2006年2009年,来源自AustL II,由出版商用来构建实验摘要和引文分析,每个文件包含流星、引文句子、引文标语和引文类别。 该数据集由UNSW计算机科学与工程学院2012年发布,Filippo Galgani为主要出版商。
-
下载地址:https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports
-
论文地址:
https://link.springer.com/chapter/10.1007/978-3-642-32695-0_6
8
EmoSynth
-
发布方:
华盛顿大学·奥格斯堡大学
-
发布时间:
2018
-
简介:
EmoSynth是144个音频文件的数据集,这些文件已被40个听众标记为其感知的情绪,跨价和唤醒维度。
-
下载地址:
https://dagshub.com/kingabzpro/EmoSynth
-
论文地址:
https://opus.bibliothek.uni-augsburg.de/opus4/frontdoor/deliver/index/docId/65886/file/65886.pdf
9
DeepFish
-
发布方:
不列颠哥伦比亚大学·詹姆斯库克大学·Element AI
-
发布时间:2020
-
简介:
DeepFish 作为具有大规模数据集的基准套件,用于训练和测试多个计算机视觉任务的方法。该数据集包含从热带澳大利亚海洋环境中的 20 个栖息地水下收集的大约 4 万张图像。它包含分类标签以及点级和分割标签,以获得更全面的鱼类分析基准。这些标签使模型能够学习自动监控鱼的数量、识别它们的位置并估计它们的大小。
-
下载地址:
https://github.com/alzayats/DeepFish
-
论文地址:
https://arxiv.org/pdf/2008.12603v1.pd
10
EPRSTMT
-
发布方:
CLUE
-
发布时间:
2021-01-01
-
简介:
EPRSTMT (EPR-情感) 用于情感分析数据量的电子商务产品评论数据集: 训练集 (32),验证集 (32),公共测试集 (610),测试集 (753),未标记语料库 (19565)
-
下载地址:
https://github.com/CLUEbenchmark/FewCLUE
-
论文地址:
https://arxiv.org/pdf/2107.07498.pdf
温馨 小贴士
如有您想了解的计算机方向数据集
请联系我们
免费为您提供数据集搜索服务