7个顶级开源数据集来训练自然语言处理(NLP)和文本模型

news2024/11/24 5:08:42
推荐:使用 NSDT场景编辑器快速助你搭建可二次编辑的3D应用场景

NLP现在是一个令人兴奋的领域,特别是在像AutoNLP这样的用例中,但很难掌握。开始使用NLP的主要问题是缺乏适当的指导和该领域的过度广度。很容易迷失在各种论文和代码中,试图吸收所有内容。

要意识到的是,当涉及到NLP时,你无法真正学习所有东西,因为它是一个广阔的领域,但你可以尝试取得渐进式的进步。当你坚持不懈时,你可能会发现你知道的比房间里的其他人都多。就像其他所有事情一样,这里的主要事情是采取这些渐进的步骤。

您需要采取的第一步是在数据集上训练您的 NLP 模型。创建自己的数据集是一项繁重的工作,在刚开始时实际上是不必要的。

每天都有无数的开源数据集发布,专注于单词、文本、语音、句子、俚语以及您能想到的任何其他内容。请记住,开源数据集并非没有问题。不幸的是,在抓取任何旧数据集进行测试时,您必须处理偏见、不完整的数据和一系列其他问题。

但是,网上有几个地方在策划数据集方面做得很好,可以更轻松地找到您要查找的内容:

  • Papers With Code - 近 5,000 个机器学习数据集被分类且易于查找。
  • Hugging Face - 一个很好的网站,用于查找专注于音频、文本、语音和其他专门针对 NLP 的数据集的数据集。

话虽如此,以下列表是我们推荐的一些最佳开源数据集来开始学习 NLP,或者您可以尝试各种模型并按照以下步骤操作。

1. Quora Question Insincerity Dataset

这个数据集非常有趣。在Kaggle上的NLP挑战赛中,我们提供了一个分类数据集,您必须根据问题内容预测问题是否有毒。使这个数据集变得无价的另一件事是各种Kaggle用户的伟大内核。

在同一个数据集上有许多不同的帖子,如果你想从NLP开始,这可能会有很大帮助。

  • 文章,深度学习的文本预处理方法,包含适用于深度学习模型的预处理技术,我们在其中讨论增加嵌入覆盖率。
  • 在第二篇文章“文本分类的常规方法”中,我们尝试带您了解一些基本的常规模型,如TFIDF,Countvectorizer,哈希等,这些模型已用于文本分类,并尝试访问其性能以创建基线。
  • 您可以在注意力、CNN 和文本分类文章中深入研究深度学习模型,该文章侧重于解决文本分类问题的不同体系结构。
  • 这里有一个关于使用BERT和ULMFit的迁移学习。

2. Stanford Question Answering Dataset (SQuAD)

斯坦福问答数据集(SQuAD)是源自维基百科文章的问答对的集合。

简而言之,在这个数据集中,我们得到了一个问题和一个文本,其中问题的答案在于。然后的任务是找出文本中答案所在的跨度。此任务通常称为问答任务。

如果您想更深入地研究,请查看通过Hugging Face理解BERT文章,其中分享了如何使用此数据集和BERT模型使用拥抱面孔库预测问题的答案。

3. UCI ML Drug Review Dataset

药物审查使用NLP预测疾病状况,照片由Michał Parzuchowski在Unsplash上拍摄。

你能根据药物审查预测疾病状况吗?UCI ML 药物评论数据集提供特定药物和相关条件的患者评论,以及反映整体患者满意度的 10 星患者评分系统。

该数据集可用于多类分类,如使用深度学习进行端到端多类文本分类中所述,还可以尝试使用各种数字特征以及文本来使用此数据集来解决多类问题。

4. Yelp Reviews Dataset

你喜欢食物,并希望创建一个好的评论网站吗?

这个Yelp数据集让你有Yelp餐厅评论以及其他信息,如JSON格式的类别、营业时间和关门时间。可以尝试解决的问题之一是创建一个系统将菜肴分类。或者将其用于命名实体识别 (NER) 以在评论中找出菜肴。你能找到或创建一个关于Yelp如何获得餐厅评论亮点的系统吗?

这也是理解Yelp业务和搜索的良好数据集。天空是您希望如何使用此数据集的限制。

5. IMDB Movie Dataset

IMDB电影信息的NLP开源数据集,照片由Marques Kaspbrak在Unsplash上拍摄。

寻找下一部要看的电影?此数据集包含来自 IMDB 的 50k 电影的电影描述、平均评分、票数、类型和演员信息。

同样,这个数据集可以以多种方式使用,而不仅仅是从NLP的角度来看。使用此数据集的最常见方法是构建推荐引擎、类型分类和查找类似的电影。

6. 20 Newsgroups

18 个新闻组数据集包含大约 000,<> 个关于 <> 个主题的新闻组帖子。主题多种多样,范围从体育、无神论、政治等。

这是一个多类分类数据集,但您也可以使用此数据集来学习主题建模,如 Python 中使用 Gensim-LDA 进行主题建模中所述。

 

7.IWSLT (International Workshop on Spoken Language Translation) Dataset

这个机器翻译数据集是用于翻译任务的事实标准,包含德语、英语、意大利语、荷兰语和罗马尼亚语的 TED 和 TEDx 演讲的翻译。这意味着您将能够在任意一对这些语言之间训练翻译人员。

另一个好处是可以使用torchtext.datasets通过PyTorch访问它。

如果您想更深入地了解如何使用此数据集来创建自己的转换器,我们将介绍BERT变压器及其工作原理,您还可以了解有关如何使用BERT从头开始创建转换器的更多信息。您可以了解有关NLP的更多信息并解决各种任务,并且还提供了一些可以使用这些数据集解决问题的途径。

原文链接:7个顶级开源数据集来训练自然语言处理(NLP)和文本模型 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/866080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

日常BUG——SpringBoot模糊映射

&#x1f61c;作 者&#xff1a;是江迪呀✒️本文关键词&#xff1a;日常BUG、BUG、问题分析☀️每日 一言 &#xff1a;存在错误说明你在进步&#xff01; 一、问题描述 SpringBoot在启动时报出如下错误&#xff1a; Caused by: java.lang.IllegalStateExceptio…

如何预防ssl中间人攻击?

当我们连上公共WiFi打开网页或邮箱时&#xff0c;殊不知此时可能有人正在监视着我们的各种网络活动。打开账户网页那一瞬间&#xff0c;不法分子可能已经盗取了我们的银行凭证、家庭住址、电子邮件和联系人信息&#xff0c;而这一切我们却毫不知情。这是一种网络上常见的“中间…

集合数据类型

非数字型 列表[]&#xff08;其他语言叫数组&#xff09; 注意点&#xff1a;第一个成员的索引编号为0&#xff0c;不能访问不存在的索引编号 # list是列表变量名&#xff0c;列表中有三个成员 list[刘备,曹操,关羽] print(list[0]) print(list[1]) print(list[2]) print(li…

[GAN] 使用GAN网络进行图片生成的“调参人”入门指南——生成向日葵图片

[GAN] 使用GAN网络进行图片生成的“炼丹人”日志——生成向日葵图片 文章目录 [GAN] 使用GAN网络进行图片生成的“炼丹人”日志——生成向日葵图片1. 写在前面&#xff1a;1.1 应用场景&#xff1a;1.2 数据集情况&#xff1a;1.3 实验原理讲解和分析&#xff08;简化版&#x…

案例14 Spring MVC文件上传案例

基于Spring MVC实现文件上传&#xff1a; 使用commons-fileupload实现上传文件到本地目录。 实现上传文件到阿里云OSS和从阿里云OSS下载文件到本地。 1. 创建项目 选择Maven快速构建web项目&#xff0c;项目名称为case14-springmvc03。 ​ 2. 配置Maven依赖 <?xml ver…

CTF-Flask-Jinja2(持续更新)

放心&#xff0c;我会一直陪着你 一.知识一.在终端的一些指令1.虚拟环境2.docker容器二.SSTI相关知识介绍1.魔术方法2.python如何执行cmd命令3.SSTI常用注入模块(1)文件读取(2)内建函数eval执行命令(3)os模块执行命令(4)importlib类执行命令(5)linecache函数执行命令(6)subproc…

大语言模型 GPT历史简介

得益于数据、模型结构以及并行算力的发展&#xff0c;大语言模型应用现今呈井喷式发展态势&#xff0c;大语言神经网络模型成为了不可忽视的一项技术。 GPT在自然语言处理NLP任务上取得了突破性的进展&#xff0c;扩散模型已经拥有了成为下一代图像生成模型的代表的潜力&#x…

Spring项目整合过滤链模式~实战应用

代码下载 设计模式代码全部在gitee上,下载链接: https://gitee.com/xiaozheng2019/desgin_mode.git 日常写代码遇到的囧 1.新建一个类,不知道该放哪个包下 2.方法名称叫A,干得却是A+B+C几件事情,随时隐藏着惊喜 3.想复用一个方法,但是里面嵌套了多余的逻辑,只能自己拆出来…

4.3、Flink任务怎样读取Kafka中的数据

目录 1、添加pom依赖 2、API使用说明 3、这是一个完整的入门案例 4、Kafka消息应该如何解析 4.1、只获取Kafka消息的value部分 ​4.2、获取完整Kafka消息(key、value、Metadata) 4.3、自定义Kafka消息解析器 5、起始消费位点应该如何设置 ​5.1、earliest() 5.2、lat…

wsl2安装mysql环境

安装完mysql后通过如下命令启动mysql service mysql start 会显示如下错误&#xff1a; mysql: unrecognized service 实际上上面显示的错误是由于mysql没有启动成功造成的 我们要想办法成功启动mysql才可以 1.通过如下操作就可以跳过密码直接进入mysql环境 2.如果想找到my…

cesium学习记录07-实体(Entity)

在学习记录05中&#xff0c;我们将了如何在 Cesium 中加载各种数据&#xff0c;包括矢量数据、影像图层、地形和 3D 模型。这些数据为我们构建了一个基础的场景和背景。特别是在加载 3D 模型时&#xff0c;我们采用了 viewer.scene.primitives.add 方法将模型作为一个原始对象添…

凯迪正大—微机继电保护校验仪

一、继电保护测试仪产品概述 KDJB-802继电保护测试仪是在参照电力部颁发的《微机型继电保护试验装置技术条件&#xff08;讨论稿&#xff09;》的基础上&#xff0c;听取用户意见&#xff0c;总结目前国内同类产品优缺点&#xff0c;充分使用现代的微电子技术和器件实现的一种新…

msvcp120.dll丢失的解决方法,Win11系统报错处理方法

在使用Windows11系统的时候&#xff0c;出现报错msvcp120.dll丢失我们需要怎么去修复它呢&#xff1f;msvcp120.dll是Windows操作系统中的一个重要的动态链接库文件&#xff0c;它包含了许多用于C程序的函数和类。然而&#xff0c;有时候我们可能会遇到msvcp120.dll丢失或损坏的…

AMD高保真超分算法1.0解密

FSR 1.0是空间滤波算法&#xff0c;分成EASU和RCAS两部分。EASU是边缘适配的空间上采样(Edge Adaptive Spatial Upsampling)&#xff0c;RCAS是健壮对比度适配锐化(Robust Contrast Adaptive Sharpening)&#xff0c;从CAS发展而来。 Lanczos 采样及多项式拟合 FSR 1.0 使用了 …

​ATF(TF-A)安全通告 TFV-7 (CVE-2018-3639)​

ATF(TF-A)安全通告汇总 目录 一、ATF(TF-A)安全通告 TFV-7 (CVE-2018-3639) 二、静态缓解&#xff08;Static mitigation&#xff09; 三、动态缓解&#xff08;Dynamic mitigation&#xff09; 一、ATF(TF-A)安全通告 TFV-7 (CVE-2018-3639) Title TF-A披露基于cache前瞻…

pc端网页用vue并且实现响应式 vue+bootstrap-vue

1、hbuiler内新建vue项目 在项目文件夹下用npm加载依赖&#xff08;或者用hbuilder内打开命令&#xff09; 2、配置路由 src内新建router文件夹&#xff0c;router内新建index.js index.js内配置重定向到首页 main.js内配置路由 import router from /router/index.js new…

08-1_Qt 5.9 C++开发指南_QPainter绘图

文章目录 前言1. QPainter 绘图系统1.1 QPainter 与QPaintDevice1.2 paintEvent事件和绘图区1.3 QPainter 绘图的主要属性 2. QPen的主要功能3. QBrush的主要功能4. 渐变填充5. QPainter 绘制基本图形元件5.1 基本图像元件5.2 QpainterPath的使用 前言 本章所介绍内容基本在《…

python编辑器安装与配置,python用哪个编辑器好用

大家好&#xff0c;给大家分享一下python编辑器pycharm安装教程&#xff0c;很多人还不知道这一点。下面详细解释一下。现在让我们来看看&#xff01; 哪些python的编程软件值得推荐&#xff1f; 编写python源代码的软件.首推的Pycharm。 PyCharm用于bai一般IDE具备的功能&…

Kotlin Executors线程池newSingleThreadExecutor单线程

Kotlin Executors线程池newSingleThreadExecutor单线程 import java.util.concurrent.Executorsfun main() {val mExecutorService Executors.newSingleThreadExecutor()for (i in 1..5) {mExecutorService.execute {println("seq-$i tid:${Thread.currentThread().threa…

CSS3 中新增了哪些常见的特性?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 圆角&#xff08;Border Radius&#xff09;⭐ 渐变&#xff08;Gradients&#xff09;⭐ 阴影&#xff08;Box Shadow&#xff09;⭐ 文本阴影&#xff08;Text Shadow&#xff09;⭐ 透明度&#xff08;Opacity&#xff09;⭐ 过渡&…