开源数据集的获取不该成为你的阻塞项

news2024/11/29 12:48:21
  • B站:啥都会一点的研究生
  • 公众号:啥都会一点的研究生

当可获取的数据有限,公共的开源数据集将是不错的选择

很多人并不知道该如何获取最权威的官方数据,亦或是不清楚有哪些数据集能为之所用,最适合自己的任务场景

不用急,本篇整理了5个获取数据集的方法且在文章的最后还准备了大招

告诉大家如何直接检测数据集,一一陈列出最相关结果,导师不管你,有人管

kaggle

kaggle是一个为开发商和数据科学家提供举办数据科学竞赛、托管数据库、编写和分享代码的在线平台

图片

https://www.kaggle.com/

进入 kaggle官网。可以发现有Compete,Datasets,Code,Discussions,Courses等其他板块

在 Kaggle 中,可以找到完成数据科学工作所需的所有代码和数据。使用超过 50,000 个公共数据集和 400,000 个公共笔记说明解决与征服任何分析问题

在搜索栏下方有准备一些常用分支的词条,当不知道挑选什么数据集作为先验或扩增时可以慢慢浏览,有十多万个数据集供大家挑选

此外,如果你有明确的目的,那么可以直接使用关键词搜索,并且在高级过滤功能中还可以选择数据集大小与数据类型等

以2022FIFA数据集为例,进入数据集后,有作者对该数据集的简介,数据划分依据和内容说明,比如这个数据集按小组划分,小组内包含各国家

图片

国家中以球员姓名的子文件夹下包含对应球员图片,拥有830个类别共计四万一千张图片

可以清晰的看到数据组织形式,此外有的还将提供代码全程指导如何利用这个数据集

paper with code

这个网站建议每个从事于人工智能领域的同学都将其添加至常用中

图片

https://paperswithcode.com/

该网站搜集了大量最新和过往各领域论文及对应代码,最主要的是可以找寻目前某领域内最好的,也就是常说的sota论文及其code实现

说到正题,我们进入dataset板块,可以看到可以根据数据形态进入如图片、文本、视频等模块寻找数据集

图片

也可以根据任务进入如目标检测、姿态估计、文本分类等模块

还可以按语言进行过滤,同样的也可以直接进行关键词搜索

进入指定数据集后会提供论文地址,最重要的是基于该数据集上不同任务的sota也可以查询到,不仅拿到了数据集,还可以学习sota论文

roboflow

号称拥有世界上最大的计算机视觉开源数据集与API

图片

https://roboflow.com/

包含十一万数据集,一亿张图像以及一万多个预训练模型

其提供的板块均与计算机视觉相关,且数据集均由图像组成

Roboflow提供将原始图像转换为自定义训练的计算机视觉模型并将其部署应用的所有工具

你可以在这里实现标注、转换、预处理、增强等功能,也是YOLOv5官方推介的网站

图片

很有意思的是当进入某个指定的数据集后,可以在线尝试基于该数据集的预训练模型检测效果

无需任何操作,只需选择本地数据即可,可以是单张图片、视频、图片或视频的链接及本地摄像头

此外,也可以浏览某些基于该数据集的训练、验证、测试效果

点击下载数据集时,也支持适配不同任务甚至是不同模型的格式,非常贴心,非常强大

Mendeley Data

图片

https://data.mendeley.com/

读研那会我的英文文献都是用mendeley进行管理,以前爱斯维尔下的期刊投稿时,有的期刊投稿指南也会推介使用该工具

在导出参考文献时方便迅速制作成该期刊指定的格式,但很多人不知道的是其实它有自己的数据管理库

包含了将近七万个数据集,此外诸如图片、文本、音频甚至是代码与软件都有提供,均与某项研究强相关

所以该数据库专业性将更上一个层次,如果选择将数据集存放于此,将拥有独特的 DOI 和易于使用的引用工具使得轻松引用自己的研究数据

最重要的是支持白嫖,每个数据集有作者的介绍,可以直接一键打包下载,甚至都不用登录账号

IEEEDataPort

图片

https://www.ieee.org/

IEEE相信每个科研人员都不陌生,没错,他自己也有数据平台,其中就包含了数据集

可以看到它也按方向分了许多大类,也可以通过关键词、作者、摘要、DOI进行检索,和Mendeley一样,数据集的专业性强

但与前面几个不同的是,它是付费的,如果你的研究与某个数据集强相关,可以考虑,其实前四个已经可以满足绝大多数需求了,还是白嫖最舒服

但我相信你们不会白嫖这篇文章对吧

google dataset search

最后就来说说我认为超有用的数据集检索方式

图片

https://datasetsearch.research.google.com/

和正常搜索操作一样,只需搜索关键字,就能在网络上发现托管在数千个存储区中的数据集,使数据集能供用户普遍访问并发挥作用

比如我们搜索mask这个关键词,一系列和它相关的数据集被一一陈列在左侧,诸如前面提的kaggle、roboflow均包含在其中

图片

还有许多其他我未提及的网站都被检索出来,任意选择一个,右边将陈列与该数据集相关的如最近一次更新日期、作者、摘要等信息

且给出了原链接,点击可直接跳转,非常方便

不希望公开数据资源的获取能成为各位的阻塞项,以上就是本期的全部内容,我是啥都生,下期再见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1348552.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

js遍历后端返回的集合将条件相同的放入同一个数组内

项目场景: echarts折线图需要根据条件动态展示多条不同曲线 解决方案: 后端直接将使用sql将数据查询出来返回即可,因为我这里不是Java使用的C#不是很熟练后台不好写逻辑,所以在前端js完成的 代码如下: function createline(villagename, buildingname…

构建安全的SSH服务体系

1、配置OpenSSH服务端 在CentOS7.3系统中,OpenSSH服务由openssh、openssh-server等软件包提供(默认已安装),并已将sshd添加为标准的系统服务。执行"systemctl start sshd"命令即可启动sshd服务。ssh服务的配置文件默认位…

前端:html+css+js实现CSDN首页

提前说一下,只实现了部分片段哈!如下: 前端:htmlcssjs实现CSDN首页 1. 实现效果2. 需要了解的前端知识3. 固定定位的使用4. js 监听的使用4. 参考代码和运行结果 1. 实现效果 我的实现效果为: 原界面如下,网址为&…

按照故障码类型分类的API接口

随着汽车的普及,车辆故障也成为了一个不可忽视的问题。对于车主来说,及时了解故障码的含义以及解决方案十分重要。挖数据平台为解决这一问题,提供了一套按照故障码类型分类的API接口,用于查询车辆故障、故障码适用品牌以及提供相应…

托管在亚马逊云科技的向量数据库MyScale如何借助AWS基础设施构建稳定高效的云数据库

MyScale是一款完全托管于亚马逊云科技,支持SQL的高效向量数据库。MyScale的优势在于,它在提供与专用向量数据库相匹敌甚至优于的性能的同时,还支持完整的SQL语法。以下内容,将阐述MyScale是如何借助亚马逊云科技的基础设施&#x…

打破数据孤岛:ChatGPT如何打通金融大数据的任督二脉?

文章目录 一、引言二、ChatGPT与金融大数据分析的融合三、实践应用:ChatGPT在金融大数据分析中的优势与挑战四、案例分析:ChatGPT在金融大数据分析中的应用案例五、前景展望:ChatGPT在金融大数据分析领域的未来发展《AI时代Python金融大数据分…

git上传代码到github远程仓库

1、添加SSH公钥 为了把本地的仓库传到github,还需要配置ssh key,说白了就是为了把本地的代码上传到github。 1、前置准备 本地需要安装git:Git - Downloads。安装成功后本地右键鼠标会多出一些git选项。 2、添加SSH Key 首先在本地创建s…

DVWA靶场中的xss-反射型xss、存储型xss的low、medium、high的详细通关方法

目录 1.DVWA反射型xss (1)Low: (2)Medium: (3)Heigh 2.xss存储型 (1)Low: (2)Medium (3)He…

2024年【黑龙江省安全员C证】考试及黑龙江省安全员C证找解析

题库来源:安全生产模拟考试一点通公众号小程序 2024年黑龙江省安全员C证考试为正在备考黑龙江省安全员C证操作证的学员准备的理论考试专题,每个月更新的黑龙江省安全员C证找解析祝您顺利通过黑龙江省安全员C证考试。 1、【多选题】下列属于编制安全检查…

Docker 从入门到实践:Docker介绍

前言 在当今的软件开发和部署领域,Docker已经成为了一个不可或缺的工具。Docker以其轻量级、可移植性和标准化等特点,使得应用程序的部署和管理变得前所未有的简单。无论您是一名开发者、系统管理员,还是IT架构师,理解并掌握Dock…

论文阅读:神经 MCMC 的深度内卷生成模型 Deep Involutive Generative Models for Neural MCMC

文章总结:本文提出了使用一种生成式的模型作为MCMC算法中的建议方式,并通过GAN进行优化。 原文:Deep Involutive Generative Models for Neural MCMC 我们引入了深度内卷生成模型(一种深度生成建模的新架构)&#xff…

PHP特性知识点扫盲 - 下篇

概述 在实际的生产环境中遇到了实际需要解决的问题,需要把服务部署的方式梳理出来,在同一个服务器中部署多个PHP环境,架构图如下: 架构方案 在工作实践中遇到的很多问题的普遍性都是相通的,公司运行的可新项目都是版…

第四部分 一维连续型随机变量

目录 温馨提示: 已知fx(X)求概率 方法: 例1 例2 求fx(X)中的未知数 方法: 例3 已知 fx(X)求F 方法: 例4 求F中的未知数 方法: 例5 已知F求f 方法: 例6 已知f求f 方法: 普通求法: 公…

CRM客户关系管理系统

系统开发环境以及版本 操作系统: Windows_7集成开发工具: Eclipse EE_4.7编译环境:JDK_1.8Web服务器:Tomcat_9.0数据库:MySQL_5.7.23 系统框架 spring框架springmvc框架mybatis框架Logback日志框架安全验证框架maven框…

26、web攻防——通用漏洞SQL注入SqlmapOracleMongodbDB2

文章目录 OracleMongoDBsqlmap SQL注入课程体系; 数据库注入:access、mysql、mssql、oracle、mongodb、postgresql等数据类型注入:数字型、字符型、搜索型、加密型(base63 json)等提交方式注入:get、post、…

VS2019+OpenCV4.7.0+OpenCV_contrib4.7.0+CUDA安装+配置视频硬解码保姆级别教程

在算法开发过程中,涉及基于opencv的rtsp流硬解码,这里设计结合当前所有的资料,实现了现有opengl相关的所有跟视频硬解码相关的功能,下面对opencv4.7.0的编译流程进行说明: 一、准备工作 下载opencv :open…

gem5学习(8):创建一个简单的缓存对象--Creating a simple cache object

目录 一、SimpleCache SimObject 二、Implementing the SimpleCache 1、getSlavePort() 2、handleRequest() 3、AccessEvent() 4、accessTiming() (1)缓存命中:sendResponse() (2)缓存未命中: 三、…

Easy Rules规则引擎实战

文章目录 简介pom 规则抽象规则Rule基础规则BasicRule事实类Facts:map条件接口动作接口 四种规则定义方式注解方式RuleBuilder 链式Mvel和Spel表达式Yml配置 常用规则类DefaultRuleSpELRule(Spring的表达式注入) 组合规则UnitRuleGroup 规则引…

读书笔记1-C++ Primer Plus

C是在C语言基础上开发的一种集面向对象编程(OOP)、通用编程和传统的过程化编程于一体的编程语言。本书是根据2003年的ISO/ANSI C标准编写的,通过大量短小精悍的程序详细而全面地阐述了C的基本概念和技术。 全书分17章和10个附录,分…

【Spring】AOP原来如此

AOP概述 什么是AOP的技术? 在软件业,AOP为Aspect Oriented Programming的缩写,意为:面向切面编程AOP是一种编程范式,隶属于软工范畴,指导开发者如何组织程序结构AOP最早由AOP联盟的组织提出的,制定了一套…