quilt data 安装数据包框架

news2025/7/12 17:22:44

安装

Quilt 有两个用户可见的组件：

一个 Python 客户端
一个 Web 目录

Python 客户端
需要 Python 3.7 或更高版本。

$ pip install 'quilt3[pyarrow]'

Mental Model

Quilt 数据包的思维模型

Quilt 将数据集表示为数据包。一个数据包是一个不可变的相关文件集合，具有形式为 AUTHOR/DESCRIPTION 的句柄，一个用于唯一标识包内容的密码学顶级哈希（或哈希链），以及一个后备清单。

清单被序列化为一个包含条目的文件。清单条目是以下形式的元组：

(LOGICAL_KEY, PHYSICAL_KEYS, HASH, METADATA)

LOGICAL_KEY逻辑键是用户可见的友好名称，比如 “README.md”。
PHYSICAL_KEYS物理键是指磁盘上的字节或S3中的字节的完全限定路径。
Hash哈希是物理键内容的摘要，通常是 SHA-256。
METADATA元数据是一个字典，可以包含用户定义的元数据键，如边界框、标签或溯源信息（例如，{"algorithm_version": "4.4.1"} 表示给定文件的创建方式）。

数据包清单存储在注册表中。Quilt 支持本地磁盘和 Amazon S3 存储桶作为注册表。**注册表既可以存储清单，也可以存储主要数据。**选择 S3 是因为它被广泛采用，具有一流的版本控制支持，以及成本/性能配置。Quilt 的路线图中包括将来支持更多的存储格式（如 GCP、Azure、NAS 等）的计划。
下面是 COCO 机器学习数据集的数据包清单的示例:

{
"logical_key": "annotations/captions_train2017.json",
"physical_keys":
["s3://quilt-ml-data/data/raw/annotations/captions_train2017.json?versionId=UtzkAN8FP4irtroeN9bfYP1yKzX7ko3G"],
"size": 91865115,
"hash": {
"type": "SHA256",
"value":
"4b62086319480e0739ef390d04084515defb9c213ff13605a036061e33314317"},
"meta": {}
}

存储桶就是分支

在 Quilt 中，S3 存储桶类似于 git 中的分支。每个存储桶都是一个独立的注册表，用于存储一个或多个数据包。随着数据和模式的改进，您可以将一个数据包推广到新的存储桶，表示其数据质量提高。
对于数据生命周期，我们通常建议至少使用三个存储桶：

原始（Raw）
阶段（Stage）
生产（Production）

架构

Quilt 数据包统一了数据和元数据

Quilt 数据包是可复现、可发现和可信任的数据集，存储在 Blob 存储中。

数据包清单包括元数据和主要数据的物理键。

所有数据包的元数据和数据都存储在您的 S3 存储桶中。一部分数据包级别的元数据和 S3 对象内容被发送到由 Quilt 管理的 ElasticSearch 集群中。所有 Quilt 数据包清单都可以通过 AWS Athena 使用 SQL 进行访问。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/718235.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Redis的主从复制、哨兵、cluster集群

Redis的主从复制、哨兵、cluster集群

Redis 主从复制主从复制，是指将一台Redis服务器的数据，复制到其他的Redis服务器。前者称为主节点(Master)，后者称为从节点(Slave)；数据的复制是单向的，只能由主节点到从节点。默认情况下，每台Redis服务…

阅读更多...

JAVA关于多线程的学习

JAVA关于多线程的学习

1.创建线程的方法(这里不考虑继承Thread类) 通过实现Runnable接口的方式实现 public class MyRunnable implements Runnable{Overridepublic void run() {for (int i 0; i < 5; i) {System.out.println(Thread.currentThread().getName()"执行了....");}} }pub…

阅读更多...

基于.Net Core微服务-第1章：说明及技术栈

基于.Net Core微服务-第1章：说明及技术栈

微服务是一种架构模式，提倡将单一应用程序划分为一组小的服务，服务相互协调、互相配合，为用户提供最终价值。

阅读更多...

vulnhub-ripper（易）

vulnhub-ripper（易）

打靶练习Ripper，这是一个中低的靶场 0x00 部署0x01 信息收集：端口扫描、服务发现0x02路径扫描0x03 总结 0x00 部署靶机：下载地址宿主机：kali2021版本 0x01 信息收集：端口扫描、服务发现 sudo arp-scan -l #探测存…

阅读更多...

【每日随笔】摩托车驾驶 ④ ( 德州增驾摩托车 D 本记录 | 考场位置 “ 德州市公安局交警支队直属四大队车辆管理所 “ )

【每日随笔】摩托车驾驶 ④ ( 德州增驾摩托车 D 本记录 | 考场位置 “ 德州市公安局交警支队直属四大队车辆管理所 “ )

文章目录一、进入考场二、科目一三、科目二1、推车 ( 找准车辆停放位置 )2、上车前检查 ( 开始考试前准备 )3、科目二考试开始4、科目二路线要求5、坡起6、绕桩7、单边桥四、科目三教学1、推车 ( 找准车辆停放位置 )2、上车前检查 ( 开始考试前准备 )3、科目三考试开始4、科目…

阅读更多...

NSS [SWPUCTF 2021 新生赛]Do_you_know_http

NSS [SWPUCTF 2021 新生赛]Do_you_know_http

NSS [SWPUCTF 2021 新生赛]Do_you_know_http 先看题目，应该是伪造XFF，UA等东西。 postman一把梭。

阅读更多...

Bootloader Design of PIC18 series MCU

Bootloader Design of PIC18 series MCU

注意：下列描述是在PIC单片机上启用Bootloader的一个相关知识的近似完备集。所有需要了解的，bootloader与用户态程序交互的理论知识都已给出。 1.概述嵌入式产品化后，需要考虑现场升级，单片机如果需要添加现场升级功能&#xff…

阅读更多...

linux+win——嵌套虚拟机性能测试

linux+win——嵌套虚拟机性能测试

参考博文：CSDN-Violent-Ayang（作者）-UNIX BENCH详细安装及使用步骤 unix bench wget http://175.6.32.4:88/soft/test/unixbench/unixbench-5.1.2.tar.gz tar -xzvf unixbench-5.1.2.tar.gz cd unixbench-5.1.2 vim Makefile # 将 Makefile 中…

阅读更多...

虹科方案 | Redis Enterprise：适用于任何企业的矢量数据库解决方案

虹科方案 | Redis Enterprise：适用于任何企业的矢量数据库解决方案

用户希望他们遇到的每个应用程序和网站都具有搜索功能。然而，超过80%的业务数据是非结构化的，以文本、图像、音频、视频或其他格式存储。因此，我们需要一种跨非结构化数据的搜索方式。什么是矢量数据库（vector database&#xff…

阅读更多...

【自动化测试教程】 —— pytest 框架详解 ~

【自动化测试教程】 —— pytest 框架详解 ~

pytest框架特点: 容易上手, 入门简单, 文档丰富, 文档中有很多参考案例支持简单的单元测试和复杂的功能测试支持参数化执行测试用例过程中, 支持跳过操作支持重复失败的case支持运行Nose, unittest编写测试用例pytest支持很多第三方插件方便和持续集成工具集成 1. pytest断…

阅读更多...

如何搭建独享的IP代理池？

如何搭建独享的IP代理池？

随着互联网技术的日趋成熟，爬虫已经成为一种常见的数据获取方法。在采集业务中，建立本地IP代理池是非常重要的。今天将与您探讨IP代理池的选择以及如何搭建独享的IP代理池。独享IP代理池是指由客户单独使用的IP池，优点是客户可以享受池中所…

阅读更多...

关于opencv中cv2.imread函数读取的图像shape问题

关于opencv中cv2.imread函数读取的图像shape问题

图像坐标系是（w,h）,w为x轴，h为y轴,(x,y) 但opencv读出来的数组却正好相反，是（h,w,3）,(y,x,3) 所以这里会有一个转换 image cv2.imread(1.jpg) print(image.shape[0:2]) ##输出（365,500&#x…

阅读更多...

【操作系统】Linux编程 - 多线程的创建和使用 II (临界区、互斥量、信号量的使用)

【操作系统】Linux编程 - 多线程的创建和使用 II (临界区、互斥量、信号量的使用)

临界区的概念之前的实例中我们只尝试创建了1个线程来处理任务，接下来让我们来尝试创建多个线程。不过，还是得先拓展一个概念——“临界区” 临界区指的是一个访问共用资源（例如：共用设备或是共用存储器）的程序片段&…

阅读更多...

哈工大计算机网络课程网络层协议详解之：Internet路由BGP协议详解

哈工大计算机网络课程网络层协议详解之：Internet路由BGP协议详解

哈工大计算机网络课程网络层协议详解之：BGP协议详解在之前的网络层协议中，我们介绍了Internet网络两个自治系统内的路由协议：RIP协议和OSPF协议。这两个协议应该来说是自治系统内协议的两个代表性协议，前一个基于距离向量路由算…

阅读更多...

优化内存利用：深入了解垃圾回收算法与回收器

优化内存利用：深入了解垃圾回收算法与回收器

🔭 大家好，我是 vnjohn，在互联网企业担任 Java 开发，CSDN 优质创作者 📖 推荐专栏：Spring、MySQL、Nacos、Java，后续其他专栏会持续优化更新迭代 🌲文章所在专栏：JVM &am…

阅读更多...

机器学习面试题- 特征工程

机器学习面试题- 特征工程

目录标题 1、为什么要对特征做归一化2、对特征归一化的方法2.1 线性函数归一化2.2 零均值归一化 3、对数据预处理时，如何处理类别型特征3.1 序号编码3.2 独热编码3.3 二进制编码 4、什么是组合特征？如何处理高维组合特征？5、怎样有效地找到组…

阅读更多...

python接口自动化（十）--post请求四种传送正文方式（详解）

python接口自动化（十）--post请求四种传送正文方式（详解）

简介 post请求我在之前的文章已经讲过一部分了，主要是发送一些较长的数据，还有就是数据比较安全等。我们要知道post请求四种传送正文方式首先需要先了解一下常见的四种编码方式： HTTP 协议规定 POST 提交的数据必须放在消息主体（…

阅读更多...

SpringBoot处理全局异常详解（全面详细+Gitee源码）

SpringBoot处理全局异常详解（全面详细+Gitee源码）

前言：在日常的开发工作中，项目在运行过程中多多少少是避免不了报错的，对于报错信息肯定不可以把全部信息都抛给客户端去显示，这里就需要我们对常见的七种异常情况统一进行处理，让整个项目更加优雅。目录一、基本介绍…

阅读更多...

AMEYA360：航顺芯片产品有哪些航顺家族介绍

AMEYA360：航顺芯片产品有哪些航顺家族介绍

经济型 HK32M050 家族采用ARM Cotex-M0内核，最新工艺标准，最高48M主频，内置16K FALSH，4K SRAM，支持DMA，内置4个模拟比较器，2路运放（PGA），支持多种通讯包括2个…

阅读更多...

二叉树 — 给定二叉树中某个节点，返回该节点的后继节点

二叉树 — 给定二叉树中某个节点，返回该节点的后继节点

后继节点定义： 二叉树以中序的方式进行遍历打印，节点X的下一个节点，就是X的后继节点。假设二叉树如下图所示：则中序遍历的后打印出来的就是 4 -> 2 -> 5 -> 1 -> 6 -> 3 -> 7。如果X 3，则X的后继节…

阅读更多...

推荐文章

最新文章