为您的人工智能数据提供类似 Git 的版本管理功能

news2024/10/12 5:51:59

您过去肯定有过版本控制代码。但是,您是否对数据进行了版本控制?您是否曾经想过与不同的团队协作处理大量数据,而无需提交大量数据?想象一下,使用类似 git 的命令来运行类似存储库的生态系统,在该生态系统中,您可以提交数据、创建分支、检查历史记录并在整个数据生命周期中跟踪更改,那将是多么酷。最终,这可确保大型组织中的团队以与协作处理代码相同的方式协作处理数据。Pachyderm 的支柱是其文件系统 PFS。它本质上构建在 Postgres 和 Object Store 之上,例如 MinIO。这可确保数据在所有请求中都是安全和一致的。这可确保用户可以使用分支和提交对其数据进行版本控制,以管理和跟踪随时间的变化。

我们来看看如何以 MinIO Enterprise Store 作为主干来设置 Pachyderm。

MinIO Enterprise Store 和 Pachyderm

您应该已经有一个 Kubernetes 集群,并使用 Kubernetes 的支持版本运行。完成后,请继续下载并解压缩 MinIO Enterprise Store 的 Kubernetes YAML 文件。

wget https://dl.min.io/enterprise/console.tar.gz


tar xvf console.tar.gz

启动 MinIO Enterprise 控制台


kubectl apply -k console

接下来让我们安装 Pachyderm。

添加 Helm Chart 仓库和更新

helm repo add pachyderm https://helm.pachyderm.com

helm repo update

使用以下步骤创建 MinIO 存储桶

<div>

  <script async src="https://js.storylane.io/js/v2/storylane.js"></script>

  <div class="sl-embed" style="position:relative;padding-bottom:calc(79.17% + 25px);width:100%;height:0;transform:scale(1)">

	<iframe loading="lazy" class="sl-demo" src="https://app.storylane.io/demo/cesgrcyf9wnq?embed=inline" name="sl-embed" allow="fullscreen" allowfullscreen style="position:absolute;top:0;left:0;width:100%!important;height:100%!important;border:1px solid rgba(63,95,172,0.35);box-shadow: 0px 0px 18px rgba(26, 19, 72, 0.15);border-radius:10px;box-sizing:border-box;"></iframe>

  </div>

</div>

使用 MinIO 终端节点、存储桶名称、访问密钥 ID 和私有密钥更新 Pachyderm Helm 值文件。

pachd:

  storage:

	backend: "AMAZON"

	storageURL: "s3://pachyderm-test?endpoint=minio.default.svc.cluster.local:9000&disableSSL=true&region=dummy-region"


部署 Pachyderm

helm install pachyderm -f values.yaml pachyderm/pachyderm --version <your_chart_version>

添加和检索数据

有两种方法可以添加和检索数据。

MC

MC 是最好和最简单的方法。您可以像添加任何其他 S3 终端节点一样添加 Pachyderm 终端节点

mc alias set pachyderm_minio <pachyderm-address> <YOUR-PACHYDERM-AUTH-TOKEN> <YOUR-PACHYDERM-AUTH-TOKEN>

列出 Pachyderm 存储库和项目的内容

mc ls local/master.<repo>.<project>

命令行界面

您还可以使用 aws cli 将数据放入 MinIO 中

aws --endpoint-url <pachyderm-address> s3 cp myfile.csv s3://minio.default.svc.cluster.local:9000

从 MinIO Enterprise Store 检索数据同样简单

aws --endpoint-url <pachyderm-address> s3 cp s3://minio.default.svc.cluster.local:9000/myfile.csv

如果您在 Kubernetes 集群之外,则可以使用端口转发,但我建议将其限制为测试用例。

AI 数据的版本控制

我们发布代码,现在很明显我们为什么要这样做。我们将基础设施版本化为代码,这在过去并不是常态,但慢慢地,即使对于小型设置,对基础设施代码进行版本控制也与应用程序代码一样重要。从根本上说,我们这样做的原因是为了合作。了解大数据和 AI/ML 是同一枚硬币的两面非常重要,你不能缺一不可,随着模型的发展,它们都会相互影响。因此,您希望能够确保其他团队可以以有意义的方式处理您生成的数据,而无需再次重做整个数据,想象一下每次有人在没有适当的 git commit/merge 的情况下覆盖您的代码。在 MinIO,我们不仅注重简单性,还注重管理基础设施的最佳实践。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2207167.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

模型案例:| SenseCraft Al平台模型训练与部署

导读 2023年以ChatGPT为代表的大语言模型横空出世&#xff0c;它的出现标志着自然语言处理领域取得了重大突破。它在文本生成、对话系统和语言理解等方面展现出了强大的能力&#xff0c;为人工智能技术的发展开辟了新的可能性。同时&#xff0c;人工智能技术正在进入各种应用领…

关于Transformer的相关问题

&#x1f381;&#x1f449;点击进入文心快码 Baidu Comate 官网&#xff0c;体验智能编码之旅&#xff0c;还有超多福利&#xff01;&#x1f381; &#x1f50d;【大厂面试真题】系列&#xff0c;带你攻克大厂面试真题&#xff0c;秒变offer收割机&#xff01; ❓今日问题&am…

MacOS 同时配置github、gitee和gitlab密钥

MacOS 同时配置github、gitee和gitlab密钥 1 在终端中新建 ~/.ssh目录 1.1 生成GitHub、Gitee和Gitlab的SSH密钥对 ssh-keygen -t ed25519 -C "xxxxxxxxxxx.com" -f ~/.ssh/id_ed25519_gitee ssh-keygen -t ed25519 -C "xxxxxxxxxxx.com" -f ~/.ssh/id_…

mac电脑卸载软件在哪里?苹果电脑卸载软件的正确步骤

如今&#xff0c;越来越多的人选择使用Mac电脑来办公&#xff0c;然而&#xff0c;随着使用时间的增长&#xff0c;Mac电脑上安装的软件越来越多&#xff0c;硬盘空间逐渐被占用&#xff0c;电脑性能也可能因此受到影响。许多用户在尝试卸载不再需要的软件时&#xff0c;发现直…

【JVM】原理篇

1 栈上的数据存储 在Java中有8大基本数据类型&#xff1a; 这里的内存占用&#xff0c;指的是堆上或者数组中内存分配的空间大小&#xff0c;栈上的实现更加复杂。 以基础篇的这段代码为例&#xff1a; Java中的8大数据类型在虚拟机中的实现&#xff1a; boolean、byte、char、…

【重学 MySQL】六十四、主键约束的使用

【重学 MySQL】六十四、主键约束的使用 主键约束的特性主键约束的创建创建单列主键创建联合主键在表创建后添加主键 主键约束的删除主键约束的特点主键约束与自增长约束注意事项 在MySQL中&#xff0c;主键约束&#xff08;PRIMARY KEY&#xff09;用于唯一标识表中的每一行数据…

AOT漫谈专题(第一篇): 如何调试C# AOT程序

一&#xff1a;背景 1. 讲故事 上个月接到了二个C# AOT程序的故障分析&#xff0c;发现如今的C# AOT程序也开始在各个领域开枝散叶了&#xff0c;这是一件非常好的事情&#xff0c;本着对这类程序有一个专业的维修态度&#xff0c;开一个系列好好聊一聊吧&#xff0c;当然我这…

互动式教育技术:Spring Boot师生共评作业管理系统

3系统分析 3.1可行性分析 通过对本师生共评的作业管理系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本师生共评的作业管理系统采用JAVA作为开发语言&…

uniapp引入ThorUI的方法

1、下载文件 2、复制相应的文件除了pages 3、往项目中复制即可 4、引入即可实现 5、添加easycome自动引入

SpringBoot2核心功能-web开发

目录 一、简单功能分析1.1、静态资源访问1.2、欢迎页支持、自定义 Favicon 二、请求参数处理2.1、请求映射2.1.1、rest使用与原理2.1.2、请求映射原理 2.2、普通参数与基本注解2.2.1、注解2.2.2、Servlet API&#xff1a;2.2.3、复杂参数&#xff1a; 三、拦截器四、Web原生组件…

STM32之CAN外设

相信大家在学习STM32系列的单片机时&#xff0c;在翻阅芯片的数据手册时&#xff0c;都会看到这么一个寄存器外设——CAN外设寄存器。那么&#xff0c;大家知道这个外设的工作原理以及该如何使用吗&#xff1f;这节的内容将会详细介绍STM32上的CAN外设&#xff0c;文章结尾附有…

气象数据三维可视化的实现原理及代码

气象数据三维可视化是一种使用三维图形技术来呈现和分析气象数据的方法。通过三维可视化&#xff0c;用户可以更直观地观察气象数据的空间分布、变化趋势以及天气现象的复杂结构。这种技术广泛应用于气象预报、科学研究以及环境监测等领域。 本文将介绍气象数据三维可视化的基…

未来战争中的指控体系不仅是分布式的

指控体系&#xff0c;作为军事指挥与控制的重要组成部分&#xff0c;经历了从传统的集权指挥向现代分布式指挥的转变。历史上&#xff0c;战争指挥体系主要依赖于集中式指挥官的决策&#xff0c;信息流动缓慢&#xff0c;决策过程受到地理位置、通信手段等多种因素的制约。随着…

数据库实例

例3.5建立一个“学生”表student create table student(sno char(9) primary key,sname char(20) unique,ssex char(2),sage smallint,sdept char(20)); 例3.6建立一个“课程”表course create table course(cno char(4) primary key,cname char(40) not null,cpno char(4),…

保姆级教程 | VMD输出局部结构及利用TkConsole实现旋转

背景 由于课题需要,现需要展示lammps模拟轨迹中的局部结构(主要是想可视化这里的结果:保姆级教程 | 输出分子动力学轨迹文件输出特定原子范围内的化学环境),因为ovito效果有点笨笨的,所以我这里选用VMD软件为例进行操作,效果图(超级好看夸夸): (说明:主要的分子构…

计算机毕业设计 | SSM 旅游网站后台管理系统(附源码)

1&#xff0c;概述 1.1 背景分析 随着人们生活水平的提高和对休闲旅游的日益重视&#xff0c;旅游业已成为全球最大的经济产业之一。越来越多的人选择通过在线方式进行旅行预订&#xff0c;这种趋势为旅游网站提供了巨大的商机。用户体验是决定旅游网站成功与否的关键因素。良…

vue代码中关于字符串对比的实现

常见的数据比较都只限制于数字比较的比较&#xff0c;但是现在遇到一个框架他会自动将所有传输过来的值转化为字符串形式&#xff0c;导致在比较的时候无法进入到表单校验的代码中去 1.使用Number函数 2.使用 号运算符,都可以实现

python networkx 计算路径A*

import matplotlib.pyplot as plt # 导入 Matplotlib 工具包 import networkx as nx # 导入 NetworkX 工具包 from typing import List# 初始化空的无向图 graph nx.Graph() # 向图中添加多条赋权边: (node1,node2,weight) graph.add_weighted_edges_from([(1, 2, 50),(1, 3…

智能扭矩系统在制造领域应用_SunTorque

【大家好&#xff0c;我是唐Sun&#xff0c;唐Sun的唐&#xff0c;唐Sun的Sun。一站式数智工厂解决方案服务商】 在当今高度自动化和智能化的制造领域&#xff0c;各种先进技术不断涌现&#xff0c;为提高生产效率、保证产品质量和降低成本提供了有力支持。智能扭矩系统作为其中…

【电子电力】基于DSP28335+DSP28035的三相三电平大功率并网逆变器程序代码

摘要 本文介绍了基于DSP28335和DSP28035的三相三电平大功率并网逆变器设计和实现。通过DSP控制器对三电平逆变器的精确控制&#xff0c;实现了逆变器与电网的并网控制&#xff0c;保证了系统的高效稳定运行。该设计主要应用于光伏发电和风力发电系统中的并网发电部分。本文通过…