情感分析(文本分类)数据集汇总

news2024/9/23 11:24:00

想在推荐前对评论做一些情感分析方面的工作,参考网上其它博主的博客大概整理了一下情感分析方面的数据集的内容,大致分为两类——多分类和二分类(俺比较关注的),中英文的数据集都汇总整理了一下,后面会关注一下相关的比较新的论文(工作),欢迎同仁们补充和推荐,现在还在探索搜集资料阶段。

情感分析(文本分类)流程

中文的数据集

多分类(文本所属的种类)

THUCNews数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集地址: http://thuctc.thunlp.org/

今日头条新闻文本分类数据集

数据来源:今日头条客户端 数据规模:共382688条,分布于15个分类中。 数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset

全网新闻数据(SogouCA)

来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: https://www.sogou.com/labs/resource/ca.php

搜狐新闻数据(SogouCS)

来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
注意:content字段去除了HTML标签,保存的是新闻正文文本

数据集地址: https://www.sogou.com/labs/resource/cs.php

 dmsc_v2数据集

28部电影,超70万用户,超200万条评分/评论数据

数据集地址:https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA

原始数据集地址:https://www.kaggle.com/utmhikari/doubanmovieshortcomments

yf_dianping数据集

24 万家餐馆,54 万用户,440 万条评论/评分数据

数据集地址:https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg 原始数据集地址:http://yongfeng.me/dataset/

yf_amazon数据集

52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

原始数据集地址:http://yongfeng.me/dataset/ 数据集地址

二分类(文本情感的正负)

包含领域:酒店、外卖平台、在线商城、新浪微博

ChnSentiCorp_htl_all数据集

7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论

数据字段:
Label:1表示正向评论,0表示负向评论
Review:评论内容

数据集地址: https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/ChnSentiCorp_htl_all/ChnSentiCorp_htl_all.csv

waimai_10k数据集

外卖平台收集的用户评价,正向4000 条,负向约 8000 条

数据字段:

Label:1表示正向评论,0表示负向评论
Review:评论内容

数据集地址: https://raw.githubusercontent.com/SophonPlus/ChineseNlpCorpus/master/datasets/waimai_10k/waimai_10k.csv

online_shopping_10_cats数据集

10 个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条

数据集下载地址: https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip

weibo_senti_100k数据集

10 万多条,带情感标注新浪微博,正负向评论约各 5 万条。

数据集下载地址: https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb

simplifyweibo_4_moods数据集

36 万多条,带情感标注 新浪微博,包含 4 种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条

数据集下载地址: https://pan.baidu.com/s/16c93E5x373nsGozyWevITg

https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Qq

其它

Datahub数据中心

包含文本分类、情感分析以及知识图谱的数据集

相关地址:http://www.datahub.ileadall42.com/data/list?category=2&parent_category=1

知乎看山杯数据集

数据集下载地址:https://pan.baidu.com/s/1qUr6IQQn6DzrMlbaAUZslQ 提取码: qbiw

AI_challenger情感分析数据集

数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。

数据集下载地址:https://github.com/nju161250102/AI_challenger/tree/master/data

复旦中文文本分类语料库

数据链接:https://pan.baidu.com/s/1833mT2rhL6gBMlM0KnmyKg 密码:zyxa

英文的数据集

Yelp

https://www.kaggle.com/yelp-dataset/yelp-dataset

这个数据集有两个,一个是有5个评级标签的(Yelp-5),一个是正负情感标签的(Yelp-2)

  • Yelp-5 每一类有 650000 条训练样本和 50000 条测试样本。
  • Yelp-2 每一类有 560000 条训练样本和 38000 条测试样本。

IMDb

https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews

电影评论情感二分类。包含同等数量的正负情感样本,各自有 25000 条样本。

这个数据集下载了,黎明只有两个属性:review、sentiment(positive or negative)

Movie Review(MR)

Thumbs up?: sentiment classification using machine learning techniques

电影文本正负情感二分类,总共包含 10662 条样本。经常使用 随机切割的10折交叉验证 来测试这个数据集。

The Stanford Sentiment Treebank(SST)

介绍链接:SST-2 Dataset | Papers With Code

【看了一下最优模型的代码,有点多】

电影评论提取,人工标注

Recursive deep models for semantic compositionality over a sentiment treebank

上一个数据集 MR 的扩展版本。有两个版本可以用。一个是包含五个标签的 SST-1,一个是二分类的 SST-2.

  • SST-1 一共有 11855 条样本,其中 8544 条训练样本,1101 条验证样本,2210 条测试样本。
  • SST-2 6920 条训练样本,872 条验证样本,1821 条测试样本。

MPQA

Annotating expressions of opinions and emotions in language

多视角问答数据集,是一个意见语料库,有两个标签。一共有 10606 条样本。这是一个 不均衡数据集,3311 条正样本和 7293 条负样本。

Amazon

https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products

来自亚马逊购物网站的商品评论,也有两个版本:二分类和多分类。

  • 二分类版本 有 3600000 条训练样本和 400000 条测试数据。
  • 五分类版本 有 3000000 条训练样本和 650000 条测试样本。

通过评分来对评论完成二分类:yelp['label'] = ['1' if star > 3 else '0' for star in yelp['stars']];

上图链接:Sentiment Analysis on Amazon Product (RNN-97% Acc) | Kaggle

其他的

  • SemEval-2014 Task 4
Semeval-2016 task 5: Aspect based sentiment analysis
  • Twitter
Adaptive recursive neural network for target-dependent twitter sentiment classification
  • SentiHood
Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods

参考博客

文本分类(情感分析)中文数据集汇总 - 知乎

【数据】情感分析数据集 - 知乎

文本分类综述 | 迈向NLP大师的第一步(下)

A Survey on Text Classification:From Shallow to Deep Learning,2020

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1488399.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

processing绘制笑脸

笑脸效果图&#xff1a; processing代码&#xff1a; void setup(){size(1000,1000);//Canvas sizebackground(#ffcc33);//Canvas background color } void draw(){ strokeWeight(12);//face-width12px fill(#ffffcc);//face arc(500,500,200,200,0,TWO_PI);//face-size strok…

智慧公厕:打造智慧城市的环卫明珠

在城市建设中&#xff0c;公共卫生设施的完善和智能化一直是重要环节。而智慧公厕作为智慧城市建设的重要组成部分&#xff0c;发挥着不可替代的作用。本文以智慧公厕源头实力厂家广州中期科技有限公司&#xff0c;大量精品案例现场实景实图&#xff0c;解读智慧公厕如何助力打…

【物联网应用案例】从0到N,智慧农业的数据价值

智慧农业全方位渗透到农业的每一个环节&#xff0c;云端解决方案更推动了研究人员、农艺师及农民间的密切协作&#xff0c;为研发企业提供了既经济又具扩展性的完美方案。 据IDC预计&#xff0c;到2036年&#xff0c;农场收集的数据量将增加800%以上&#xff0c;这凸显了农业数…

AUKFUKF的MATLAB程序,含源码

adaptive UKF与UKF效果对比 只有一个m文件,直接拖到MATLAB上面就能运行并输出结果了 部分结果 程序源码 % adaptive UKF与UKF效果对比 % author:Evand % 作者联系方式:evandjiang@qq.com(除前期达成一致外,付费咨询) % date: 2023-11-07 % Ver1 clear;clc;close all; %%…

FPGA之加法逻辑运算

由于FPGA需要被反复烧写&#xff0c;它实现组合逻辑的基本结构不可能像ASIC 那样通过固定的与非门来完成&#xff0c;而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求&#xff0c;目前主流FPGA都采用了基于SRAM 工艺的查找表结构。LUT本质上就是一个RAM。它把…

KMP算法模板

KMP算法模板 自用&#xff0c;相关题解参考

每日一练:LeeCode-203. 移除链表元素 【链表+虚拟头结点】

每日一练&#xff1a;LeeCode-203. 移除链表元素 【链表虚拟头结点】 思路设置虚拟头结点 本文是力扣 每日一练&#xff1a;LeeCode-203. 移除链表元素 【链表虚拟头结点】 学习与理解过程&#xff0c;本文仅做学习之用&#xff0c;对本题感兴趣的小伙伴可以出门左拐LeeCode-20…

深圳牵头打造鸿蒙原生应用软件生态 | 百能云芯

深圳市工业和信息化局、深圳市政务服务和数据管理局于3月3日联合印发了《深圳市支持开源鸿蒙原生应用发展2024年行动计划》。这一计划旨在通过政策引导、市场推动、社会协同的方式&#xff0c;将深圳打造成一个鸿蒙原生应用软件生态的中心&#xff0c;推动鸿蒙系统在当地的发展…

选择正确的图片格式:JPEG、PNG、GIF、TIFF、BMP和WebP的全面对比

title: 选择正确的图片格式&#xff1a;JPEG、PNG、GIF、TIFF、BMP和WebP的全面对比 date: 2024/3/4 18:35:42 updated: 2024/3/4 18:35:42 tags: 图片格式JPEG压缩PNG透明度GIF动画TIFF印刷BMP位图WebP压缩 在数字化时代&#xff0c;图片是我们生活和工作中不可或缺的一部分。…

SpringCloud的Consul

0.介绍 Console是一款服务发现、健康检查、分布式配置中心&#xff0c;有单独的web可供配置和查看的Spring家族的一员。 1.下载 https://developer.hashicorp.com/consul/install?product_intentconsul 2.启动 consul agent-dev访问localhost:8500 3 Java使用注册中心 …

Android Stdio Execution failed for task ‘:app:compileDebugKotlin‘ 报错解决

具体报错信息如下&#xff1a; compileDebugJavaWithJavac task (current target is 1.8) and compileDebugKotlin task (current target is 17)jvm target compatibility should be set to the same Java version.很显然&#xff0c;这是一个版本冲突问题&#xff0c;compile…

【JavaEE进阶】使用云服务器实现Linux环境搭建

文章目录 &#x1f343;前言&#x1f332;Linux背景知识&#x1f6a9;Linux 是什么&#xff1f;&#x1f6a9;Linux发行版&#x1f6a9;Linux的优势 &#x1f384;Linux环境搭建&#x1f6a9;环境的搭建方式&#x1f6a9;使用云服务器 &#x1f38b;使用终端软件连接到Linux&am…

ChatGPT数据分析应用——漏斗分析

ChatGPT数据分析应用——漏斗分析 ​ 漏斗分析在数据分析中也比较常用&#xff0c;主要是用于发现各个转化流程中哪个环节有问题。接下来我们让ChatGPT解释这个方法的概念并提供相应的案例。发送如下内容给ChatGPT。 ​ ChatGPT收到上述内容后&#xff0c;返回如下结果。 漏斗…

深入Kafka client

分区分配策略 客户端可以自定义分区分配策略, 当然也需要考虑分区消费之后的offset提交, 是否有冲突。 消费者协调器和组协调器 a. 消费者的不同分区策略, 消费者之间的负载均衡(新消费者加入或者存量消费者退出), 需要broker做必要的协调。 b. Kafka按照消费组管理消费者, …

为什么国内很多MCU公司,都在仿STM32?

做了单片机开发十多年了&#xff0c;STM32是我用过的单片机里面&#xff0c;最省心的。 用STM32做过的产品&#xff0c;至少10几个以上了。 其实不仅仅是STM32&#xff0c;还有STM8系列&#xff0c;也很稳。 我们无际单片机特训营好几个项目&#xff0c;都用了STM8和STM32系列。…

MySQL中有事务无法回滚的语句?

目录 0.从修改表结构语句开始 1.DDL(Data Definition Language) 数据定义语言 2.DCL(Data Control Language) 数据控制语言 3.在该事务还没提交时开启新事务 4.锁操作 5.行政声明语句 6.主从复制的从机操作 7.如何避免出现隐式提交导致的错误 0.从修改表结构语句开始 试…

Nuxt3:useFetch在服务端及客户端重复请求问题

一、问题描述 在页面setup中调用$http.get&#xff08;封装了useFetch&#xff09;&#xff0c;发现不仅在服务端发送了接口请求&#xff0c;而且在客户端也重新发送了一遍接口请求&#xff0c;造成资源浪费及页面加载缓慢。 二、问题原因 首先看一下Nuxt 的useFetch文档&…

高光谱遥感学习入门丨高光谱数据处理基础、Python和Matlab高光谱遥感数据处理

目录 ①Python高光谱遥感数据处理与高光谱遥感机器学习方法深度应用 ②Matlab高光谱遥感、数据处理与混合像元分解实践技术应用 ③高光谱遥感数值建模技术及在植被、水体、土壤信息提取领域应用 更多应用 高光谱遥感信息对于我们认识世界具有重要意义。尽管大部分物质在人眼…

(C语言)qsort函数详解

目录 1. qsort解释 2. qsort实例 2.1 qsort排列整形数组类型&#xff1a; 2.2 qsort排列结构体类型数据&#xff08;字符串&#xff09;&#xff1a; 2.3 qsort排列结构体类型数据&#xff08;整形&#xff09;&#xff1a; 1. qsort解释 我们可以进入网站&#xff1a;qso…

局域网如何远程?

局域网远程一直是许多用户在处理远程连接需求时面临的一个难题。随着技术的不断进步&#xff0c;一种名为“天联”的组网解决方案应运而生。天联组网具有操作简单、跨平台应用、无网络要求以及独创的安全加速方案等独特优势&#xff0c;在解决各行业客户的远程连接需求方面发挥…