谷歌出品,数据集搜索引擎上线了!

news2025/1/12 4:04:57

c92765b106f0cfb8e3c5b65c79f630be.png

文 | 小戏

记得在刚入门 ML 时,希望找到一个关于特定领域下的数据集,涉世未深的我在中文互联网不断搜索,可每每点进链接出来的都是某 SDN 下载的高价勒索。用惯了直接从老师同学那里讨来的数据集的我第一次感受到了“寻找数据集”这样一个简单任务的艰难。

当然,虽然我们都不断说机器学习深度学习最重要的是数据集,而数据集难获得这事真正的难点倒不在,或者倒不应该在搜索引擎的检索上,其实更多是在于高质量的数据集难获得,行业内的数据集涉及商业、隐私多方考虑,难以直接使用

但是对于无论是初学还是研究而言,现在业已经有开源的数据集提供者为我们提供了广泛的数据集资源,那么如果能有一个搜索引擎规避掉这些开源数据集提供者之间行业上,网站间的壁垒,降低我们的检索成本,并可以一键直达,直接获取这些数据集资源,那是不是一项挺不错的“便民工程”呢

272dc0170345f558d2d2459eda69ef16.png

于是乎,谷歌大大扛起了这项工作,“无所谓,我会出手”,构建了一个可以称得上是资源“海量”的数据集搜索引擎“Dataset Search”,这篇推文便想向大家简介一下 Dataset Search 的功能,有关构建它的动机与实现方法,大家可以在下面这篇文章中看到:

论文题目:

Google Dataset Search: Building a search engine for datasets in an open Web ecosystem 

论文链接: 

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/77547c8d2a7fba472e76c774028cf2b3c0afdb8a.pdf

早在 2017 年,Google 就已经开始了“数据集检索”任务的实践,并且在 2019 年提出了一个“数据集搜索引擎”的初步构想与技术框架,而在 2020 年 1 月,“Dataset Search” 正式结束测试,上线了谷歌。

ceddca74122d8a8eb567394d826e0876.png

Dataset Search 的页面十分简洁,只有搜索框与和一个简单的登录按钮,使用谷歌账户登录后可以保存、跟踪需要检索的数据集。随便检索一个文本分类的任务,可以看到:

7071e4724b186773e7fb50b150f597d4.png

左边是检索结果的排列,根据相关性呈现检索到的结果,右边是检索结果的简介,显示了数据集的来源、获取入口、作者与关于这个数据集的简短说明。链接进去之后,可以直接得到数据的介绍与下载链接。

bc4294a4bdd7f9d05470148a7a79fefc.png

除了基本的检索功能外,Dataset Search 也提供了颇为丰富的筛选功能,可以从时间、下载格式、使用权限、学科与是否付费进行筛选

5a47474c9b2f2e114f42246cdcf6e361.png

可以看到,这个项目建立之初便不是把目光仅仅聚集于 AI 这一块小天地,而是更加开放的鼓励跨学科的数据集共享,学科已经有人文社科、社会科学、生命科学、农业等等,在 2020 年 8 月谷歌关于这个项目的一个博客中展现了目前这个项目的涉及领域:

f7bc8078a78b5aaa11789fe6ce2a1626.png

这也使得,Dataset Search 不仅可以针对固定的开源数据集进行搜索,还能对许多特定行业特定领域的数据进行搜索,比如检索“共享单车”,也可以找到大量共享单车的订单、轨迹等数据集:

31b743dcd319c955c7de3291099ab213.png

而再偏门一点甚至可以找到帝企鹅的饮食数据集:

66ec6d89c064be981ef0de120099e0d4.png

除了依据领域,也可以直接检索任务,比如搜索文本分类,但是在结果不会特别显示出文本分类的常用数据集,但是几乎无一例外,搜索情感分析、主题分析内的常用数据集几乎都可以在 Dataset Search 中找到

faba60a7861b2a33cd35e360396e6507.png

当然,美中不足的是,尽管 Dataset Search 支持中文搜索,但是中文数据集的数量显然不太尽如人意,数据集仍然集中于台湾、香港的大学、比赛发布的数据集:

0830a745cfb3a0ad175f5474fa87ac6e.png

而在提供强大的检索功能以为,谷歌更想做的,可能是一个数据集共享的生态,以数据集搜索引擎为线索,谷歌沿用了 2011 年提出的 schema.org 计划,schema.org 是一种与搜索引擎进行交互的代码形式,以类似 SEO 优化的形式,告诉搜索引擎在抓取信息时应该关注的重点

通过 schema.org ,可以在数据集的“供应商”与 Dataset Search 的互动中形成良性循环,更好的为用户展示数据集中的内容,便于用户更加方便快捷的使用

36e67595053fa84a381f1d9837bf697b.png

任何一个学科的发展必然需要良好的社区生态,而在一个良好的生态以外,还需要有配套的“基础设施”建设,通过这些基础设施来降低行业的入行成本,减少一些不必要的内耗。伴随着数据集的重要性愈加凸显以及数据集共享生态的逐渐形成,这个数据据检索引擎也会愈加显示它的重要性吧!

网站链接: 

https://datasetsearch.research.google.com

8d5229e659dc8bc8a2d1d6bb0cf887a4.png卖萌屋作者:小戏

边学语言学边学NLP~

作品推荐

  1. 千呼万唤始出来——GPT-3终于开源!

  2. NLP哪个细分方向最具社会价值?

  3. 吴恩达发起新型竞赛范式!模型固定,只调数据?!

  4. 仅仅因为方法 Too Simple 就被拒稿,合理吗?

  5. 算法工程师的三观测试

1348a3fa40a4e472aa639ecca944b1c3.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/146000.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【并查集】实现思路及例题

一、应用场景 用于处理不相交集合的合并和查询问题 示例: n 个元素(分属不同的的 n 个集合),进行两种操作: 并 —— 给出两个元素的关系,合并两个集合查 —— 查询两个元素是否在同一个集合 二、并查集…

「数据密集型系统搭建」原理篇|用什么方式存储数据最合适

本篇来聊聊数据存储的内容,看看程序世界里数据是以什么形式存在的?为了描述数据并把它们和这个现实世界关联起来我们一般都是如何去进行表达的?最后通过我们习惯的表达方式再结合数据结构是如何存储下来的? 在进行技术方案设计的时…

分享102个PHP源码,总有一款适合您

PHP源码 分享117个PHP源码,总有一款适合您 PHP源码下载链接:https://pan.baidu.com/s/1Ike0x99BcMfZPy6tFSpM9w?pwdzqem 提取码:zqem import os from time import sleepimport requests from bs4 import BeautifulSoup from docx import D…

Linux 系统Bash的常用功能

了解了基本的Linux文件文件系统的概念后,我们将更深入的了解一下Linux的其他方面的内容,那就是我们所使用的用户接口,也就是大家常听到的 Shell ,是一种Linux的命令接口,在 Linux 的世界中,默认使用的是 GNU 开发出来的 shell ,称为 BASH Shell,简单来说,我们之前使用的几个命令…

10.JS笔记-对象

1、什么是对象 对象是一个具体的事物,在js中,对象是一组无序的属性和方法的集合 属性:事物的特征 方法:事物的行为 2、创建对象 利用字面量创建对象利用new Object创建对象利用构造函数创建对象 2.1 变量、属性和方法、函数的…

人工智能的核心技术是什么?

(本文阅读时间:5分钟)人工智能的核心技术是它的算法被广泛认可的「算法」专业定义是:算法是模型分析的一组可行的,确定的,有穷的规则。基于规则的人工智能上个世纪六七十年代出现的早期人工智能系统都是基于…

VueJs中如何自定义hooks(组合式)函数

前言在Vue当中,一个非常重要的功能就是组件的复用,编写Vue组件,更多的也是在拼装组件,将页面的各个功能进行模块化便于维护和管理,而在项目里,有些页面中的组件的逻辑功能是一样的,如果没有进行功能逻辑的复用,那么每个页面都需要重复的写一遍在Vue当中各个组件是保持独立的,如…

一份职业游戏3D建模师日常工作流程列表,看完不信还有人说建模门槛低

随着游戏行业的发展,越来越多的人开始对这个行业感兴趣,因此有很多的小伙伴梦想成为一个游戏模型师,成为游戏行业里的一员。但是很多人都对这个工作具体是做什么的并不是很了解,下面,我们就来说说游戏模型师的主要工作…

Word处理控件Aspose.Words功能演示:使用 C# 将 DOCX 转换为 HTML

Aspose.Words 是一种高级Word文档处理API,用于执行各种文档管理和操作任务。API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsoft Word。此外, Aspose API支持流行文件格式处…

Javascript:Class构造函数

为什么需要class 在其他语言中class已经是一个早就被实现的功能,在JavaScript中一直到ES6被实现。在class没有实现之前我们是这样写的(如下代码) function Person(name,sex){this.name this.sex } Person.prototype.sayfunction(){alert(h…

金融类的APP该如何进行ASA推广

移动理财成为新金融的主流,在如今,金融机构都在争相推出自己的移动理财产品,那今天柚鸥ASO就来给大家讲一下,金融类的APP在进行ASA前的一些注意事项。 APP进行ASA前的开户有两种: 自主开户(1,…

检测物理内存容量

文章目录前言前置知识BIOS 中断 0x15 子功能 0xe820 获取内存代码说明实验操作前言 本博客记录《操作系统真象还原》第五章实验操作~ 实验环境:ubuntu18.04VMware , Bochs下载安装 实验内容:三种检测内存的方法。 实验原理: …

volaile关键字详解!

文章目录什么是volatile ?volatile三大特性volatile如何使用volatile保证可见性volatile不保证原子性volatile禁止指令重排volatile总结什么是volatile ? volatile是一个Java关键字volatile是Java虚拟机提供的轻量级的同步机制 volatile三大特性 保证…

【服务器搭建个人网站】教程五:手把手教你怎样进行公安备案 快来学~

前言 购买一台服务器,再来个域名,搭建一个自己的个人博客网站,把一些教程、源码、想要分享的好玩的放到网站上,供小伙伴学习玩耍使用。我把这个过程记录下来,想要尝试的小伙伴,可以按照步骤,自己…

【Qt】将QtDesigner生成的.ui文件转化为.h头文件

【Qt】将QtDesigner生成的.ui文件转化为.h头文件1、背景2、实例3、附件1、背景 操作系统:windows10专业版。 Qt版本:qt-opensource-windows-x86-msvc2013_64-5.7.1.exe 博主的Qt安装目录:E:\E01_cppIDE\E01_qt\install 并将安装后的bin目录…

校园wifi网页认证登录入口

一、校园WIFI自助服务简介在我校校园网认证业务中,教职工校园通行证账号支持最大3个终端同时在线,如果超出最大在线数,最后上线的终端会把第一个上线的终端踢下线,导致终端经常掉线,需要重新登录才可上网。那么&#x…

【Linux】基础:基础IO

【Linux】基础:基础IO 摘要:本文基础IO的内容将从过往熟悉的C语言文件操作出发,引申指系统调用的文件操作,再进一步深化为对于进程管理的文件进行介绍,从而了解文件描述符的概念和管理方式,其中还会介绍其运…

2022 IoTDB Summit:京东刘刚《Apache IoTDB 在京东万物互联场景中的应用》

12 月 3 日、4日,2022 Apache IoTDB 物联网生态大会在线上圆满落幕。大会上发布 Apache IoTDB 的分布式 1.0 版本,并分享 Apache IoTDB 实现的数据管理技术与物联网场景实践案例,深入探讨了 Apache IoTDB 与物联网企业如何共建活跃生态&#…

基于JavaSpringMvc+mybatis实现学生信息管理系统

基于JavaSpringMvcmybatis实现学生信息管理系统 博主介绍:5年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文末获取源码联系…

IOS Theos Tweak 之 HelloWorld

一、目标 Theos是什么? 是一套跨平台的开发工具套件,不仅可以开发Ios,Mac、Windows和Linux也可以的哦,开源免费。 Tweak是什么? 可以理解成动态链接库,有搞过Windows下dll注入的同学应该可以秒懂了。Android的同学…