自然语言处理(NLP)数据集汇总 2(附下载链接)

news2024/10/6 2:21:24

🎄🎄【自然语言处理NLP】简介 🎄🎄

自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。


🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈


1.Examiner.com—用新闻头条钓鱼的垃圾邮件[Kaggle]:现已停用的钓鱼网站The Examiner从2010年到2015年发布的3百万众包新闻头条。(200MB)

https://www.kaggle.com/therohk/examine-the-examiner

2.联邦采购数据中心的联邦合同(USASpending.gov):来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)

http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/

3.Flickr个人分类法:个人标签的树结构数据集。(40MB)

http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html

4.Freebase数据库:Freebase中所有当前事实和推断的数据库(26GB)

http://aws.amazon.com/de/datasets/freebase-data-dump/

5.Freebase简单主题库:Freebase中每个主题中基本的可识别事实的数据库(5GB)

http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/

6.Freebase四元库:Freebase中所有当前事实和推断的数据库[LZ1]。(35GB)

http://aws.amazon.com/de/datasets/freebase-quad-dump/

7.GigaOM Wordpress挑战赛[Kaggle]:博客文章,元数据,用户喜好。(1.5GB)

https://www.kaggle.com/c/predict-wordpress-likes/data

8.谷歌图书n元语法:也可通过亚马逊S3上hadoop格式文件获取。(2.2TB)

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

9.谷歌网页5元语法:含有英文单词的n元序列,及其观测频率计数(24GB)

https://catalog.ldc.upenn.edu/LDC2006T13

10.Gutenberg电子书清单:带注释电子书清单(2MB)

http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs

11.加拿大议会文本块:来自加拿大第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)

http://www.isi.edu/natural-language/download/hansard/

12.哈佛图书馆:超过1,200万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB)

http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset

13.家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB)

https://www.kaggle.com/c/home-depot-product-search-relevance/data

14.确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)

https://www.crowdflower.com/data-for-everyone/

15.美国电视节目‘危险’:216930个过去出现在‘危险’节目的问题合集。(53MB)

http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

16.200k英语明文笑话:208000种不同来源的明文笑话存档。

https://github.com/taivop/joke-dataset

17.欧洲语言机器翻译:(612MB)

http://statmt.org/wmt11/translation-task.html#download

18.材料安全数据表:230000材料安全数据表。(3GB)

http://aws.amazon.com/de/datasets/material-safety-data-sheets/

19.百万新闻头条-澳大利亚ABC[Kaggle]:由澳大利亚ABC新闻发布的从2003到2017年的130万新闻。(56MB)

https://www.kaggle.com/therohk/million-headlines

20.1MCTest:可免费使用的660个故事集和相关问题,可用于研究文本机器理解、问答(1MB)。

http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html

关于论文投稿&选刊可关注并留言博主的CSDN/QQ

>>>一起交流!互相学习!共同进步!<<<

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/81557.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

真是绝了!git标星9K

能力f&#xff08;认知&#xff0c;洞察&#xff0c;实践&#xff0c;经验总结&#xff09; 不知道你到了哪个阶段了呢&#xff1f; 架构是软件工程的实践艺术&#xff0c;要化理想为现实&#xff0c;不是空中楼阁。懂得再多的设计理念、方法论&#xff0c;光说不练还是假把式…

大二学生《Web编程基础》期末网页制作 HTML+CSS个人网页设计实例

&#x1f389;精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 &#x1f482; 作者主页: 【主页——&#x1f680;获取更多优质源码】 &#x1f393; web前端期末大作业…

8年前端带你HTML+CSS入门到实战(附视频+源码)

本文主要是解决&#xff1a; ☆ 想要自学前端开发&#xff0c; ☆ 但又不太想看博客文章&#xff0c; ☆ 觉得自学有点吃力&#xff0c;有点不知道学习步骤的同学 目录 一、HTML 1、需要了解熟练的标签 2、不太常用的标签 3、怎么算是HTML学好了&#xff0c;可以继续学CSS了…

ChatGPT教你面试阿里P6测试开发岗

​持续坚持原创输出&#xff0c;点击蓝字关注我吧 最近ChatGPT爆火&#xff0c;ChatGPT能干什么呢&#xff1f;想必已经看过很多文章了&#xff0c;例如ChatGPT通过美国高考、ChatGPT开发游戏、调试代码、写文章等等。 哈哈&#xff0c;作为一个软件测试博主&#xff0c;我怎么…

Java和MySQL的连接和操作(JDBC)

一、数据库的连接 1. 引入JDBC驱动程序 1.1 如何获取驱动程序 驱动程序由数据库提供商提供下载。 MySQL 的驱动下载地址&#xff1a;http://dev.mysql.com/downloads/ 依次点击 Connector/J -> Platform Independent &#xff0c;如然后下载下面那个 1.2 如何在Java …

ADI Blackfin DSP处理器-BF533的开发详解25:LCD_ZIKU(字库在液晶屏上的应用)(含源代码)

硬件准备 ADSP-EDU-BF533&#xff1a;BF533开发板 AD-HP530ICE&#xff1a;ADI DSP仿真器 软件准备 Visual DSP软件 硬件链接 功能介绍 代码实现了将字库信息显示到液晶屏上。 代码使用说明 增加了液晶屏驱动&#xff0c;将内存数据显示到液晶屏上。 内存数据转换&…

[附源码]Python计算机毕业设计大学生兼职推荐系统Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置&#xff1a; Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术&#xff1a; django python Vue 等等组成&#xff0c;B/S模式 pychram管理等…

Git从入门到实战

Git从入门到实战 一、Git概述 1.1、Git简介 Git是一个分布式版本控制工具&#xff0c;通常用来对软件开发过程中的源代码文件进行管理。Git仓库来存储和管理这些文件&#xff0c;Git仓库分为两种&#xff1a; 本地仓库&#xff1a;开发人员自己电脑上的Git仓库远程仓库&…

微服务框架 SpringCloud微服务架构 微服务保护 32 隔离和降级 32.1 Feign整合Sentinel

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式&#xff0c;系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 微服务保护 文章目录微服务框架微服务保护32 隔离和降级32.1 Feign整合Sentinel32.1.1 隔离和降级32.1.2 Feign 整合Sentinel32.1.3 总结32 …

算法设计与分析期末复习(一)

算法的定义和特征 什么是算法&#xff1f; 算法是求解某一特定问题的一组有穷规则的集合&#xff0c;它是由若干条指令组成的有穷符号串。算法的五个重要特性 确定性&#xff1a;算法中每一条指令必须有确切的含义&#xff0c;不存在二义性。只有一个入口和一个出口。 可行性&…

raft协议详解

文章目录1. 分布式系统数据一致性概述2. rafts算法基础2.1 基础2.2leader选举2.3raft算法数据同步2.4 raft算法之脑裂2.5 leader宕机处理raft 动画演示1. 分布式系统数据一致性概述 redis保证了可用性&#xff0c;牺牲了一致性 2. rafts算法基础 2.1 基础 2.2leader选举 2.3r…

Python列表(list)反序的7种方法

Python列表(list)原址反序的方法 (本文获得CSDN质量评分【x】)【学习的细节是欢悦的历程】Python 官网&#xff1a;https://www.python.org/ Free&#xff1a;大咖免费“圣经”教程《 python 完全自学教程》&#xff0c;不仅仅是基础那么简单…… 自学并不是什么神秘的东西&a…

第1章 Rust安装

Rust是一门安全的语言&#xff0c;最近也加入到Linux内核中&#xff0c;因此后续这门语言会越来越流行&#xff0c;所以准备学习下&#xff0c;本篇介绍Rust在Window平台上的安装过程。 目录 安装步骤 1.到官网下载安装包 2.搭建 Visual Studio Code 开发环境 安装步骤 1.…

webpack 简介以及为什么要用webpack

webpack 是什么 webpack 是一个用于现代JavaScript 应用程序的静态模块打包工具。 看来像是1个js的打包工具&#xff0c; 但是实际上并没有这么简单 传统html js 写法1 对于前端新手&#xff0c; 或者被逼写前端的后端开发&#xff0c; 他们写的代码很可能是这样的 html: &…

mysql高可用(MHA集群)

目录 一、MHA概述 &#xff08;1&#xff09;什么是MHA &#xff08;2&#xff09;MHA的组成 1&#xff09;MHA Node&#xff08;数据节点&#xff09; 2&#xff09;MHA Manager&#xff08;管理节点&#xff09; &#xff08;3&#xff09;MHA的特点 二、搭建mysql HMA…

软件体系结构复习文档

引言&#xff1a; 软件体系结构是大三下学期我们学的一门专业课&#xff0c;这门课学院给我们安排的是一名女老师上的&#xff0c;课没给我留下多深的印象&#xff0c;女老师倒是给我留下了深刻的印象&#xff0c;温柔&#xff0c;漂亮、高挑。上完每节课老师都把ppt和资料发到…

基于Android与多媒体的英文学习APP的设计

毕业设计&#xff08;论文&#xff09;任务书 第1页 毕业设计&#xff08;论文&#xff09;题目&#xff1a;基于Android与多媒体技术的英文学习APP的设计与实现设计&#xff08;论文&#xff09;要求及原始数据&#xff08;资料&#xff09;&#xff1a;1&#xff0e;综述国…

深入理解Java虚拟机:(一)Java代码是如何运行的?

jdk 的子目录下也存在一个 jre。 而我 C盘目录下也有一个 jre。 这两个 jre 有啥联系吗&#xff1f; 答案是&#xff1a;没有联系。甚至准确的来说&#xff0c;它俩是一样的&#xff0c;无论是用哪一个都是可以的。只是很多人习惯将会单独安装另一个 jre&#xff0c;虽然单独…

017 | JavaWeb企业进销存管理系统源码附带毕业设计论文 | 大学生毕业设计 | 极致技术工厂

进销存管理系统是一个基于Internet的应用系统&#xff0c;它是一个面对当前的进销存管理工作基本还处于手工和半信息自动化处理状态而应运而生的一个基于Internet的一个完全信息自动化的系统&#xff0c;整个系统从符合操作简便、界面友好、灵活、实用、安全的要求出发&#xf…

100天精通Python(数据分析篇)——第68天:Pandas数据清洗函数大全

文章目录每篇前言1. duplicated()2. drop_duplicates()3. isnull()4. notnull()5. dropna()6. fillna()7. ffill()8. bfill()9. replace()10. str.replace()11. str.split.str()每篇前言 &#x1f3c6;&#x1f3c6;作者介绍&#xff1a;Python领域优质创作者、华为云享专家、阿…