LanceDB:在对抗数据复杂性战役中,您可信赖的坐骑

news2025/1/12 18:37:30

LanceDB 建立在 Lance(一种开源列式数据格式)之上,具有一些有趣的功能,使其对 AI/ML 具有吸引力。例如,LanceDB 支持显式和隐式矢量化,能够处理各种数据类型。LanceDB 与 PyTorch 和 TensorFlow 等领先的 ML 框架集成。Cooler 仍然是 LanceDB 的快速邻居搜索,它能够使用近似最近邻算法有效地检索相似的向量。所有这些结合在一起,创建了一个快速、易于使用且轻量级的矢量数据库,可以部署在任何地方。

LanceDB 能够查询兼容 S3 对象存储中的数据。这种组合非常适合构建高性能、可扩展和云原生的 ML 数据存储和检索系统。MinIO 为不同的硬件、位置和云环境带来了性能和无与伦比的灵活性,使其成为此类部署的自然选择。

完成本教程后,您将准备好使用 LanceDB 和 MinIO 来应对任何数据挑战。

什么是Lance?

Lance 文件格式是一种针对 ML 工作流和数据集优化的列式数据格式。它旨在轻松快速地进行版本控制、查询和用于训练,适用于各种数据类型,包括图像、视频、3D 点云、音频和表格数据。此外,它还支持高性能随机访问:Lance 报告基准测试的速度比 Parquet 快 100 倍。Lance 的速度在一定程度上是在 Rust 中实现的结果,以及它的云原生设计,其中包括零拷贝版本控制和优化的矢量操作等功能。

它的主要功能之一是能够执行向量搜索,允许用户在 1 毫秒内找到最近的邻域,并将 OLAP 查询与向量搜索相结合。lance 格式的其他生产应用包括用于 ML 应用的边缘部署低延迟向量数据库,自动驾驶汽车公司中多模态数据的大规模存储、检索和处理,以及电子商务公司中亿级 + 向量个性化搜索。Lance 文件格式的部分吸引力在于它与流行的工具和平台兼容,例如 Pandas、DuckDB、Polars 和 Pyarrow。即使您不使用 LanceDB,您仍然可以在数据堆栈中使用 Lance 文件格式。

专为 AI 和机器学习而构建

像 LanceDB 这样的矢量数据库为 AI 和机器学习应用提供了明显的优势,这要归功于它们高效的解耦存储和计算架构以及对数据的高维矢量表示的检索。以下是一些关键用例:

自然语言处理(NLP):

语义搜索:根据含义查找类似于查询的文档或段落,而不仅仅是关键字。这为聊天机器人响应、个性化内容推荐和知识检索系统提供支持。

问答:通过根据语义相似性查找相关文本段落来理解和回答复杂的问题。

主题建模:发现大型文本集合中的潜在主题,这对于文档聚类和趋势分析很有用。

计算机视觉:
目标检测和分类:通过高效检索相似的训练数据,提高目标检测和分类模型的准确性。

视频推荐:根据之前观看过的视频的视觉内容推荐类似视频

视频推荐:根据之前观看过的视频的视觉内容推荐类似视频

将 MinIO 与 LanceDB 结合使用有几个好处,包括:

  • 可扩展性和性能:MinIO 的云原生设计专为扩展和高性能存储和检索而构建。通过利用 MinIO 的可扩展性和性能,LanceDB 可以有效地处理大量数据,使其非常适合现代 ML 工作负载。

  • 高可用和容错:MinIO具有高可用、不可变、高持久性等特点。这确保了存储在 MinIO 中的数据免受硬件故障的影响,并提供高可用性和容错能力,这对于像 LanceDB 这样的数据密集型应用程序至关重要。

  • 主动-主动复制:多站点、主动-主动复制支持在多个 MinIO 部署之间近乎同步地复制数据。这种强大的工艺确保了高耐用性和冗余性,使其成为在关键任务生产环境中屏蔽数据的理想选择。

MinIO 和 LanceDB 的结合为管理和分析大规模 ML 数据集提供了高性能、可扩展的云原生解决方案。

要求

要按照本教程进行操作,您需要使用 Docker Compose。您可以单独安装 Docker 引擎和 Docker Compose 二进制文件,也可以使用 Docker Desktop 一起安装。最简单的选择是安装 Docker Desktop。

通过运行以下命令确保安装了 Docker Compose:

docker compose version

您还需要安装 Python。你可以从这里下载 Python。在安装过程中,请确保选中将 Python 添加到系统的 PATH 的选项。

或者,您可以选择创建虚拟环境。最好创建虚拟环境来隔离依赖项。为此,请打开终端并运行:

python -m venv venv

要激活虚拟环境,请执行以下操作:

On Windows: 在 Windows 上:

.\venv\Scripts\activate

On macOS/Linux: 在 macOS/Linux 上:

source venv/bin/activate

开始

首先从这里克隆项目。完成后,导航到终端窗口中下载文件的文件夹并运行:

docker-compose up minio

这将启动 MinIO 容器。您可以导航到“http://172.20.0.2:9001”以查看 MinIO 控制台。

使用用户名和密码 minioadmin:minioadmin 登录。

接下来,运行以下命令以创建名为 lance 的 MinIO 存储桶。

docker compose up mc

此命令在 shell 中执行一系列 MinIO 客户端 (mc) 命令。

以下是每个命令的细分:

until (/usr/bin/mc config host add minio http://minio:9000 minioadmin minioadmin) do echo ‘…waiting…’ && sleep 1; done;:
此命令反复尝试配置使用指定参数(端点、访问密钥和密钥)命名 minio 的 MinIO 主机,直到成功。在每次尝试期间,它都会回显等待消息并暂停 1 秒钟。

/usr/bin/mc rm -r --force minio/lance; 此命令强制移除(删除)MinIO lance 中存储桶中的所有内容。

/usr/bin/mc mb minio/lance; 此命令创建一个在 MinIO 中命名 lance 的新存储桶。

/usr/bin/mc policy set public minio/lance; 此命令将 lance 存储桶的策略设置为 public,允许 public 读取访问。

exit 0; 此命令确保脚本退出,状态代码为 0,表示执行成功。

LanceDB

不幸的是,LanceDB 没有原生 S3 支持,因此,您将不得不使用类似 boto3 的东西来连接到您制作的 MinIO 容器。随着 LanceDB 的成熟,我们期待原生 S3 支持,这将使用户体验更好。

下面的示例脚本将帮助你入门。

使用 pip 安装所需的包。使用以下内容创建名为 requirements.txt 的文件:

lancedb~=0.4.1
boto3~=1.34.9
botocore~=1.34.9

然后运行以下命令以安装软件包:

pip install -r requirements.txt

如果创建 MinIO 容器的方法与上述方法不同,则需要更改凭据。

将以下脚本保存到文件中,例如 lancedb_script.py .

import lancedb
import os
import boto3
import botocore
import random

def generate_random_data(num_records):
    data = []
    for _ in range(num_records):
        record = {
            "vector": [random.uniform(0, 10), random.uniform(0, 10)],
            "item": f"item_{random.randint(1, 100)}",
            "price": round(random.uniform(5, 100), 2)
        }
        data.append(record)
    return data

def main():
    # Set credentials and region as environment variables
    os.environ["AWS_ACCESS_KEY_ID"] = "minioadmin"
    os.environ["AWS_SECRET_ACCESS_KEY"] = "minioadmin"
    os.environ["AWS_ENDPOINT"] = "http://localhost:9000"
    os.environ["AWS_DEFAULT_REGION"] = "us-east-1"

    minio_bucket_name = "lance"

    # Create a boto3 session with path-style access
    session = boto3.Session()
    s3_client = session.client("s3", config=botocore.config.Config(s3={'addressing_style': 'path'}))

    # Connect to LanceDB using path-style URI and s3_client
    db_uri = f"s3://{minio_bucket_name}/"
    db = lancedb.connect(db_uri)

    # Create a table with more interesting data
    table = db.create_table("mytable", data=generate_random_data(100))

    # Open the table and perform a search
    result = table.search([5, 5]).limit(5).to_pandas()
    print(result)

if __name__ == "__main__":
    main()

此脚本将从随机生成的数据创建一个 Lance 表,并将其添加到您的 MinIO 存储桶中。同样,如果您不使用上一节中的方法创建存储桶,则需要在运行脚本之前执行此操作。请记住更改上面的示例脚本,以匹配您对 MinIO 存储桶的名称。

最后,脚本打开表,而不将其移出 MinIO,并使用 Pandas 进行搜索并打印结果。

脚本的结果应类似于下面的结果。请记住,数据本身每次都是随机生成的。

                   vector      item  price  _distance
0  [5.1022754, 5.1069164]   item_95  50.94   0.021891
1   [4.209107, 5.2760105]  item_100  69.34   0.701694
2     [5.23562, 4.102992]   item_96  99.86   0.860140
3   [5.7922664, 5.867489]   item_47  56.25   1.380223
4    [4.458882, 3.934825]   item_93   9.90   1.427407

自行扩展

本教程中提供了许多在此基础上进行构建的方法,以创建高性能、可扩展且面向未来的 ML/AI 架构。您的武器库中有两个尖端的开源构建块 - MinIO 对象存储和 LanceDB 矢量数据库 - 将其视为 ML/AI 锦标赛的获胜门票。

不要止步于此。LanceDB 提供了广泛的方法和教程来扩展您在本教程中构建的内容,包括最近宣布的关于使用矢量数据库构建生成式 AI 解决方案的 Udacity 课程。特别令人感兴趣的是这个与您的文档聊天的秘诀。我们都致力于打破障碍,从您的数据中获得最大收益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1349249.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三菱人机交互GT Designer的使用(三,指示灯,数值显示与输入,字符串显示与输入,日期|时间的显示)

今天继续对GT进行学习,如有不妥,欢迎指正!!! 目录 指示灯设置 设置指示灯 位指示灯 字指示灯 数值输入,输出(二者差距不大) 数值显示与输出 数值显示(只能显示&…

【Maven】工程依赖下载失败错误解决

在使用 Maven 构建项目时,可能会发生依赖项下载错误的情况,主要原因有以下几种: 下载依赖时出现网络故障或仓库服务器宕机等原因,导致无法连接至 Maven 仓库,从而无法下载依赖。 依赖项的版本号或配置文件中的版本号错…

【计算机毕业设计】ssm+mysql+jsp实现的在线bbs论坛系统源码

项目介绍 jspssm(springspringMVCmybatis)MySQL实现的在线bbs论坛系统源码,本系统主要实现了前台用户注册登陆、浏览帖子、发布帖子、个人信息管理、消息通知管理,积分管理,后台管理功能有:友情链接管理、…

怎么设计一个简单又直观的接口?

文章目录 问题的开端为什么从问题开始?自然而来的接口 一个接口一件事情减少依赖关系使用方式要“傻” 小结 开放的接口规范是使用者和实现者之间的合约。既然是合约,就要成文、清楚、稳定。合约是好东西,它可以让代码之间的组合有规可依。但…

Stable Diffusion API入门:简明教程

Stable Diffusion 是一个先进的深度学习模型,用于创造和修改图像。这个模型能够基于文本描述来生成图像,让机器理解和实现用户的创意。使用这项技术的关键在于掌握其 API,通过编程来操控图像生成的过程。 在探索 Stable Diffusion API 的世界…

爱思唯尔的KBS——模板、投稿、返修、接收的总结

第二篇论文终于是接受了QAQ,被审稿人疯狂拖时间,KBS是真难绷啊 由于之前发布过关于爱思唯尔旗下的ESWA博客,KBS和ESWA是类似的,因此本篇博客主要说下区别以及期间碰到的各种情况,有疑问依然可以在评论区说,…

【C语言】函数

函数是什么? “函数”是我们早些年在学习数学的过程中常见的概念,简单回顾一下:比如下图中,你给函数 f(x)2*x3 一个具体的x,这个函数通过一系列的计算来返回给你一个结果(图示如下)。 这就是数学中函数的基本过程和作用。但是你…

48、激活函数 - 梯度消失和梯度爆炸

简单介绍下梯度消失和梯度爆炸,这个不是重点,但是我觉得有必要再深入了解这个概念,以及很多激活函数为什么是可以防止梯度消失的。 梯度消失和梯度爆炸实际上是在神经网络训练过程中经常会遇到的两类问题,这两类问题都与梯度有关。 什么是梯度 在神经网络训练中,梯度是指…

Final Cut 视频剪辑快速入门,小白上手视频课的制作

本文是一个快速入门教程,如果您是0视频处理基础,又想录制网课或是一些对效果要求不高的视频那么这篇教程足够使用了。 本文主要用Final Cut处理视频课,本文是笔者在制作视频课过程中逐渐摸索的,如果您想制作一些比较专业的视频&a…

mysql原理--Explain详解

1.概述 一条查询语句在经过 MySQL 查询优化器的各种基于成本和规则的优化会后生成一个所谓的 执行计划 ,这个执行计划展示了接下来具体执行查询的方式,比如多表连接的顺序是什么,对于每个表采用什么访问方法来具体执行查询等等。设计 MySQL 的…

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

论文标题:LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文作者:Chunyuan Li∗, Cliff Wong∗, Sheng Zhang∗, Naoto Usuyama, Haotian Liu, Jianwei Yang Tristan Naumann, Hoifung Poon, Jianfeng Gao 作…

uni-app 前后端调用实例 基于Springboot 下拉刷新实现

锋哥原创的uni-app视频教程: 2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中..._哔哩哔哩_bilibili2023版uniapp从入门到上天视频教程(Java后端无废话版),火爆更新中...共计23条视频,包括:第1讲 uni…

UDS诊断(ISO14229-1) 11服务

文章目录 功能简介应用场景请求和响应1、请求2、子功能3、肯定响应4、否定响应 报文示例UDS中常用 NRC参考 功能简介 11服务,即 ECUReset(ECU重置)服务,用来控制MCU进行重启,重启分为硬件重启和软件重启。 应用场景…

事件循环的理解

1.单线程 Js是一个单线程的语言,代码只能一行一行去执行,遇到同步的代码就直接执行了,如果遇到异步的代码怎么办? 不可能等到异步的代码执行完,在去执行后面同步的代码。 2.主线程 遇到同步的代码,就在主线程里面直接执行了。 3.任务队列 遇到异步的…

Vue中使用JavaScript中的requestAnimationFrame动画循环实现循环滚动效果-demo

效果 requestAnimationFrame是一个由浏览器提供的 JavaScript 方法,用于在下一次浏览器重绘之前执行指定的回调函数。它接受一个回调函数作为参数,并返回一个整数值,可以用于取消动画循环。 使用 requestAnimationFrame 可以创建平滑的动画效…

【AIGC-图片生成视频系列-5】I2V-Adapter:一种用于视频扩散模型的通用图像生成视频适配器

目录 一. 项目与贡献概述 二. 方法详解 a. 整体框架图 b. 帧相似性先验 三. 一般化图像生成动画结果 四. 基于个性化 T2I 模型的动画结果 五. 结合ControlNet动画结果 六. 项目论文和代码 七. 个人思考与总结 在快速发展的数字内容生成领域,焦点已从文本到…

C#中的Attribute详解(下)

C#中的Attribute详解(下) 一、Attribute本质二、Attribute实例化三、Attribute实例化的独特之处四、元数据的作用五、自定义Attribute实例六、Attribute的附着目标七、附加问题 一、Attribute本质 从上篇里我们可以看到,Attribute似乎总跟pu…

Linux基础知识点(五-信号)

一、信号的基本概念 1.1 信号的概念 信号(signal),又称为软中断信号,用于通知进程发生了异步事件,它是Linux系统响应某些条件而产生的一个事件,它是在软件层次上对中断机制的一种模拟,是一种异…

12.29最小生成数K算法复习(注意输入输出格式),校园最短路径(通过PRE实现路径输出,以及输入输出格式注意)

7-2 最小生成树-kruskal算法 分数 15 const int maxn 1000; struct edge {int u, v, w; }e[maxn]; int n, m, f[30]; bool cmp(edge a, edge b) {return a.w < b.w; } int find(int x) {if (f[x] x) {return x;}else {f[x] find(f[x]);return f[x];} } //int arr[100…

简单FTP客户端软件开发——VMware安装Linux虚拟机(命令行版)

VMware安装包和Linux系统镜像&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1UwF4DT8hNXp_cV0NpSfTww?pwdxnoh 提取码&#xff1a;xnoh 这个学期做计网课程设计【简单FTP客户端软件开发】需要在Linux上配置 ftp服务器&#xff0c;故此用VMware安装了Linux虚拟机&…