自然语言处理（NLP）数据集汇总 3（附下载链接）

news2026/2/11 1:53:48

🎄🎄【自然语言处理NLP】简介 🎄🎄

自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。

🎄🎄近期，小海带在空闲之余收集整理了一批自然语言处理（NLP）开源数据集供大家参考。整理不易，小伙伴们记得一键三连喔！！！🎈🎈

1.Negra：德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。

http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html

2.新闻头条-印度时报[Kaggle]：印度时报发表的从2001到2017年的270万类新闻头条。（185MB）

https://www.crowdflower.com/data-for-everyone/

3.新闻文章/维基百科页面配对：志愿者阅读一篇短文，被问及最匹配的两篇维基百科文章是哪一篇。（6MB）

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

4.2015 NIPS论文（版本2）[Kaggle]：所有2015年nips论文全文。（335MB）

https://www.kaggle.com/benhamner/nips-2015-papers/version/2

5.纽约时报脸谱网数据：所有纽约时报在脸谱网的帖子。（5MB）

http://minimaxir.com/2015/07/facebook-scraper/

6.全球新闻一周供稿[Kaggle]：在2017年8月的一周，用20多种语言全球发表的140万篇新闻事件数据集。（115MB）

https://www.kaggle.com/therohk/global-news-week

7.句子/概念对的正确性：志愿者读关于两个概念的句子。例如，“狗是一种动物”，或者“船长可以和主人有同样的意思”，然后他们被问到这个句子是否正确，并将其1-5评级。（700KB）

https://www.crowdflower.com/data-for-everyone/

8.公开图书馆数据库：公开图书馆中所有记录的修改合集。（16GB）

https://openlibrary.org/developers/dumps

9.人物语料库：收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。（获得需要申请）

http://www.clips.uantwerpen.be/datasets/personae-corpus

10.Reddit评论：截至2015年7月，reddit论坛所有公开的评论。共计17亿条评论。（250GB）

https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

11.Reddit评论（2015年5月）：Kaggle子数据集（8GB）

https://www.kaggle.com/reddit/reddit-comments-may-2015

12.Reddit提交语料库：2006年1月-2015年8月31日所有公开可得的Reddit提交内容。（42GB）

https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/

13.路透社语料库：一个包含路透社新闻报道的数据集，用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1，它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。（2.5GB）

https://trec.nist.gov/data/reuters/reuters.html

14.SaudiNewsNet：31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。（2MB）

https://github.com/ParallelMazen/SaudiNewsNet

15.垃圾短信数据集：5574条被标记为合法/不合法的、未经编码的真实英文短信消息。（200KB）

http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

16.《南方公园》数据集：csv格式文件，包含季、集、角色和台词的剧本信息。（3.6MB）

https://github.com/BobAdamsEE/SouthParkData

17.Stackoverflow：730万条stackoverflow问题和其他stackexchange（问答工具）上的问答。

http://data.stackexchange.com/

18.Twitter的Cheng-Caverlee-lee用户定位数据集：2009年9月-2010年1月的推文定位。（400MB）

https://archive.org/details/twitter_cikm_2010

19.Twitter上关于新英格兰爱国者队“放气门”事件的舆情：在2015年超级碗比赛前，人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情，以便评估公众对整个事件的感受。（2MB）

https://www.figure-eight.com/data-for-everyone/

20.Twitter的Sentiment140（情感分析数据集）：关于品牌/关键词的推文，网站包括论文和研究想法。（77MB）

http://help.sentiment140.com/for-students/

关于论文投稿&选刊可关注并留言博主的CSDN/QQ

>>>一起交流！互相学习！共同进步！<<<

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/82855.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Allure:根据step动态设置description

Allure:根据step动态设置description

背景使用pytestAllure进行自动化的时候,为了报告展示更明确会使用 with allure.step(xxx)和 allure.step(xxx)测试结束后就可以看到测试步骤 Allure还支持配置Description 之前直接在case中编写,例如 """ [用例描述]: 专家问诊 [前置步骤]:1. 打开h5页面…

阅读更多...

ScheduledExecutorService的使用及守护线程

ScheduledExecutorService的使用及守护线程

只运行一次 private static ScheduledExecutorService scheduler; public static void main(String[] args) throws Exception { scheduler Executors.newScheduledThreadPool(5); // 循环任务，按照上一次任务的发起时间计算下一次任务的开始时间 scheduler.schedu…

阅读更多...

解决mysql存储emoji表情唯一索引报错问题

解决mysql存储emoji表情唯一索引报错问题

问题发现： 1、正常上班的一天，突然间有运营同事反馈，我们在添加数据的时候，发现添加了🐸之后，对应的💩没有了，添加了💩然后🐸就没有了，需要研发帮…

阅读更多...

【Linux】四、Linux 进程概念（四）|进程地址空间

【Linux】四、Linux 进程概念（四）|进程地址空间

目录十、进程地址空间 10.1 回顾C/C 地址空间 10.2 测试 10.3 感性理解虚拟地址空间 10.4 如何画大饼？ 10.5 如何理解区域划分和区域调整 10.6 虚拟地址空间、页表和物理地址 10.7 为什么存在地址空间 10.7.1 保证物理内存的安全性 10.7.2 保证进程的独立…

阅读更多...

铁蛋白-海藻酸钠纳米包埋ACE抑制肽|海藻酸钠修饰碳纳米管(SAL-MWNTs)

铁蛋白-海藻酸钠纳米包埋ACE抑制肽|海藻酸钠修饰碳纳米管(SAL-MWNTs)

铁蛋白-海藻酸钠纳米包埋ACE抑制肽|海藻酸钠修饰碳纳米管(SAL-MWNTs) 铁蛋白-海藻酸钠纳米包埋ACE抑制肽产品描述：利用铁蛋白在较酸条件下可逆组装特性和海藻酸钠(sodium alginate,SA)的控释作用,以马脾脱铁铁蛋白(horse spleen apoferritin,HSF)和SA作为纳米载体,…

阅读更多...

Rust 基础（八）—— 高级特性

Rust 基础（八）—— 高级特性

十九、高级特性到目前为止，您已经学习了Rust编程语言最常用的部分。在我们开始第20章的下一个项目之前，我们先来看一下你可能偶尔会碰到，但不是每天都在使用的语言的一些方面。当你遇到任何未知的情况时，你可以使用这一章作为参…

阅读更多...

[毕业设计]2022-2023年最新最全计算机专业毕设选题推荐汇总

[毕业设计]2022-2023年最新最全计算机专业毕设选题推荐汇总

目录 ①javaweb信息管理系统或web应用选题(应用开发类) ②微信小程序开发方向 ③游戏动画、数字媒体方向 ④深度学习、机器学习方向 ⑤算法研究方向 ⑥物联网、嵌入式方向 ⑦信息安全、网络安全 ⑧大数据分析、大数据预测 ⑨Matlab 选题迷茫选题的重要性选题指导对毕…

阅读更多...

Springboot利用Security做OAuth2资源服务器

Springboot利用Security做OAuth2资源服务器

Springboot利用Security做OAuth2授权验证_LO嘉嘉VE的博客-CSDN博客_springbootsecurity oauth2 密码认证验证服务器在上一篇文章中. 验证服务器是做权限验证，有没有登录，有没有权限访问某些内容等。资源服务器指提供业务功能的服务器，他们…

阅读更多...

使用idea创建springboot项目

使用idea创建springboot项目

一、第一种创建方法点击File——>New——>Project 接下来选择空项目，如下图所示： 接下来点击Next——>项目名称——>finish 点击finish后会弹出如下图，让你新建一个Moudles 如下图， 在项目结构里面点击Modules——…

阅读更多...

Kubeadm 部署 k8s 集群

Kubeadm 部署 k8s 集群

目录 1.初始化设置 2.所有节点安装docker 3.k8s节点安装kubeadm，kubelet和kubectl 4.部署K8S集群 5.部署Dashboard 6.部署harbor私有仓库名称设置组件master192.168.116.70（2C/4G，cpu核心数要求大于2）docker、kubeadm、ku…

阅读更多...

南开大学程明明-学术规范及论文写作指导

南开大学程明明-学术规范及论文写作指导

第一讲学术规范与论文写作-写作规范主要内容 why writing is important 导致剽窃的原因（引用不当也会导致）： 引用不是介绍别人的工作，而是更加清晰介绍自己的工作第二讲学术规范与论文写作-WrittingTips 各种工具的使用 Ove…

阅读更多...

s5pv210 i2c 时序

s5pv210 i2c 时序

1 低层时序 ①. 底层时序 ******** 低层时序： ①.空闲： scl clk都是高电平②.起始位： 一个时间段，这个段时间内，SCL高电平， SDA 出现下降沿 ， 接收方收到以后，知道了，…

阅读更多...

为什么在 2023 年只使用 console.log 是一个大禁忌

为什么在 2023 年只使用 console.log 是一个大禁忌

这里有 5 个必须知道的控制台对象方法和技巧！ 在 2023 年，您是否仍在使用它console.log来满足所有 JavaScript 调试需求？ 是时候提升您的技能并发现 JavaScript 控制台对象的全部功能了。从console.table到console.time，这些高…

阅读更多...

CFD-Post后处理，你真的会做吗？

CFD-Post后处理，你真的会做吗？

导读：流体仿真中，解决问题通常分为四个步骤：几何—网格—求解—后处理。今天我们来学习最后一步：后处理。尤其对新手来说，首先要了解一下什么是后处理？ 我们通过软件计算收敛后的得到的结果，只…

阅读更多...

Python学习笔记-面向对象程序设计

Python学习笔记-面向对象程序设计

记述python中关于面向对象程序设计的使用。一、面向对象概述面向对象（Object Oriented），简称OO； 面向对象编程（Object Oriented Programming），简称OOP。 1.对象英文为Object&#xff0c…

阅读更多...

IMX6ULL学习笔记（13）——GPIO接口使用【汇编方式】

IMX6ULL学习笔记（13）——GPIO接口使用【汇编方式】

一、GPIO简介 i.MX6ULL 芯片的 GPIO 被分成 5 组,并且每组 GPIO 的数量不尽相同，例如 GPIO1 拥有 32 个引脚， GPIO2 拥有 22 个引脚， 其他 GPIO 分组的数量以及每个 GPIO 的功能请参考《i.MX 6UltraLite Applications Processor Reference M…

阅读更多...

vTESTstudio入门到精通 - vTESTstudio工程创建_01

vTESTstudio入门到精通 - vTESTstudio工程创建_01

入行车载网络测试多年以来，最大的困扰就是网上几乎无法搜到工作中常见的问题答案，特别是vTESTstudio的工程和开发相关的问题，在晚上几乎就是一片未知的大陆，偶尔有几篇同行写的，基本也都是某个问题或者某个demo的创建基础讲解，至今我还未找到有博主将vTESTstudio从入门的…

阅读更多...

艾美捷—如何选择合适的SAM甲基转移酶活性分析试剂盒？

艾美捷—如何选择合适的SAM甲基转移酶活性分析试剂盒？

SAM，也称为 AdoMet，充当修饰蛋白质和 DNA 所需的甲基的供体。SAM 的异常水平与许多异常有关，包括阿尔茨海默氏症、抑郁症、帕金森氏症、多发性硬化症、肝功能衰竭和癌症。市面上，SAM甲基转移酶酶活性分析试剂盒非常少&#xff0c…

阅读更多...

ccf历年第二题满分python代码及知识点总结（2013-2022）

ccf历年第二题满分python代码及知识点总结（2013-2022）

201312-2ISBN号码思路： 就是简单的字符串处理，没有什么好说的。代码： str_input input() s str_input.replace("-", "") sum_value 0 start 1 for i in range(len(s)-1):sum_value int(s[i]) * startstart 1…

阅读更多...

AI-多模态-2021：ALIGN【】

AI-多模态-2021：ALIGN【】

https://arxiv.org/abs/2102.05918 【写在前面】学习良好的视觉和视觉语言表征对于解决计算机视觉问题(图像检索、图像分类、视频理解)是至关重要的，目前，预训练的特征在许多NLP任务中已经展现了非常大的潜力。虽然NLP中的表示学习已经可以用没有人工…

阅读更多...

推荐文章

最新文章