DocArray 0.20.0 发布!新增 Milvus 后端支持,更好地嵌套数据搜索,新增 RGB-D 格式的 3D 模型表示

news2025/1/14 0:56:34

 

DocArray 是一个用于处理、传输和存储多模态数据的 Python 工具包。DocArray 提供便捷的多模态数据处理功能,具备基于 Protobuf 提供高性能的网络传输性能,同时也为多种向量存储方案提供统一的 API 接口。

GitHub:github.com/docarray/docarray

文档:docarray.jina.ai

DocArray 基于 Apache 2.0 License 协议,于 2022 年 1 月正式发布,目前是 LF AI & Data 基金会的沙盒项目。同时,DocArray 也是 Jina 生态使用的通用数据结构。

本次发布新增了对 Milvus 向量数据库的支持,现在可以将 Milvus 作为 DocArray 后端存储;新增了支持在嵌套级别检索 Root document;DocArray 现已支持不同格式的 3D 模型表示,此版本新增了 RGB-D 格式表示的支持;同时新增了对 Qdrant 基于关键字的文本过滤的支持,以及支持加载多页 tiff 图像到chunk等等。

重要新功能

1. 新增 Milvus 后端存储支持

DocArray 现在支持 Milvus 向量数据库作为后端存储。Milvus 提供了高性能的向量搜索和分析功能,并支持大规模地添加、删除、更新和近乎实时的搜索向量。有了 Milvus,DocArray 可以提供更快、更准确的搜索结果。

DocArray 和 Milvus 的集成使得用户可以通过统一熟悉的 DocArray API 就能享受 Milvus 所有的优势。与其他后端存储一样,配置起来非常简单:

da = DocumentArray(storage='milvus', config={'n_dim': 3))

2. 通过 root_id 更好地支持嵌套搜索

在处理嵌套数据时,我们通常在给定的嵌套级别上比较数据,例如视频中的帧,但我们实际需要的返回结果是整个视频。

也就是说,在使用向量数据库时,即使在嵌套级别(例如在 chunk 级别)使用 sub-indices(子索引)进行搜索时,也可以检索 root-document(根文档)。在存储配置中设置root_id=True,就可以启用此功能。

top_level_matches = da.find(query=np.random.rand(512), on='@.[image]', return_root=True)3. 新增 RGB-D 格式的 3D 模型表示

3. 新增 RGB-D 格式的 3D 模型表示

DocArray 已经支持不同格式的 3D 模型表示,这个版本增加了对 RGB-D 格式表示的支持。

doc.load_uris_to_rgbd_tensor()

其它新增功能

 将多页 tiff 文件加载到 Chunk 中

现在通过load_uri_to_image_tensor()可以加载多页 tiff 图像。

d = Document(uri="foo.tiff")
d.load_uri_to_image_tensor()
print(d)
<Document ('id', 'uri', 'chunks') at 7f907d786d6c11ec840a1e008a366d49>
  └─ chunks
     ├─ <Document ('id', 'parent_id', 'granularity', 'tensor') at 7aa4c0ba66cf6c300b7f07fdcbc2fdc8>
     ├─ <Document ('id', 'parent_id', 'granularity', 'tensor') at bc94a3e3ca60352f2e4c9ab1b1bb9c22>
     └─ <Document ('id', 'parent_id', 'granularity', 'tensor') at 36fe0d1daf4442ad6461c619f8bb25b7>

 基于 Qdrant 的文本关键字过滤

filter = {
    'must': [
        {"key": "info", "match": {"text": "shoes"}}
    ]
}

results = da.find(np.random.rand(n_dim), filter=filter)

上面的代码将在所有包含 "shoes" 关键字的 Document 中进行搜索,并返回相应的结果。

 从 uri 加载视频向量时存储关键帧索引

当从 uri 加载视频向量时,会在 Document 的 tags 中存储 key_frame_indices。这样,就可以提取视频中关键帧之间的部分。

d = Document(uri="video.mp4").load_uri_to_video_tensor()
print(d.tags['keyframe_indices'])
[0, 25, 196, ...]

 更好地绘制嵌套和复杂数据的 embedding 图

您现在可以选择在调用 DocumentArray 的方法 plot_embedding()排除哪些元字段,这使得绘制复杂和嵌套数据的 embedding 图变得更加容易。

docs.plot_embeddings(exclude_fields_metas=['chunks'])

 更好地支持信息检索评估

此版本向评估函数增加了 max_rel_per_label 参数,它提供了每个标签的相关文档数,即集合中具有该标签的文档数。

metrics = da.evaluate(['recall_at_k'], max_rel_per_label={i: 1 for i in range(3)})

🐞 bug 修复

 支持独立于类列表行为的长度计算

本次发布中,我们修复了在 DocArray 0.19 版本里引入的 Redis 后端存储的长度计算,使其独立于类列表行为。

 删除有错误赋值的余弦相似度字段

在 Weaviate 的后端存储中,余弦距离不会g再被错误地分配给 cosine_similarity 字段。

 清除存储后重建索引

当调用 _clear_storage 时,就可以重建 Redis 和 Elasticsearch 文档存储的索引。

更多详细信息请点击 https://jina.ai/news/docarray-0-20-update/

📗 文档更新

这一部分主要涉及文档的改进,包括更正文档中的错误描述、修复文档中的链接、修改逻辑顺序以符合博客文章,以及将云支持移动到整合部分。这些更新旨在让文档更加清晰易读,帮助用户更好地了解 DocArray。更多详细信息请访问文档 docarray.jina.ai

🤘 贡献者

在此感谢本次发布的所有贡献者:

  • Delgermurun

  • 杨小燕

  • Anna-charlotte

  • Johannes Messner 

  • Alex Cureton-Griffiths 

  • AlaeddineAbdessalem 

  • 相栋

  • coolmian 

  • Joan Fontanals 

  • 王楠

  • Sami Jaghouar

  • Michael Günther

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/85729.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

外包公司面试门槛高吗?软件测试员进外包公司容易吗?

虽然很多测试人员都抵制外包&#xff0c;但实际情况则是依旧有大量软件测试员&#xff0c;选择加入到外包这个圈子。外包公司面试门槛高吗?外包公司容易进吗?本篇来解答一下这个问题。 外包公司面试门槛高吗&#xff1f; 外包的面试门槛&#xff0c;相对大厂要低很多。尤其…

二、Docker 阿里云镜像加速

1、为什么需要增加镜像加速 咱们先看运行 hello word 都干了哪些事情 "Unable to find image hello-world:latest locally" 是说本地没有hello-world 这个images(镜像) "latest: Pulling from library/hello-world" 本地没有那就得去拉取 这段是拉取 i…

尚医通-MyBatisPlus:查询-删除(四)

&#xff08;1&#xff09;MyBatis-简单查询-分页查询 &#xff08;2&#xff09;MyBatisPlus删除与逻辑删除 &#xff08;1&#xff09;MyBatis-简单查询-分页查询 1.1通过多个id批量查询 完成了动态sql的foreach的功能 //多个id批量查询Testpublic void testSelect1() { …

C++ 入门篇之类 对象的关系

&#x1f4d2;博客主页&#xff1a; ​​开心档博客主页​​ &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐留言&#x1f4dd; &#x1f4cc;本文由开心档原创&#xff01; &#x1f4c6;51CTO首发时间&#xff1a;&#x1f334;2022年12月12日&#x1f334; ✉…

docker(3):镜像分层原理

目录UnionFS&#xff08;联合文件系统&#xff09;docker镜像加载原理分层理解commit镜像docker中&#xff0c;镜像是一种轻量级、可执行的独立软件包&#xff0c;用来打包软件运行环境和基于运行环境开发的软件&#xff0c;它包含运行某个软件所需的所有内容、包括代码、运行时…

【计算机网络】HTTP首部详解

HTTP首部详解HTTP 协议的请求和响应报文中必定包含 HTTP 首部。首部内容为客户端和服务端分别处理请求和响应提供所需要的信息。对于客户端用户来说&#xff0c;这些信息中的大部分内容都无需亲自查看。 1.HTTP请求报文 2.HTTP响应报文 3.首部字段类型 3.1 通用首部字段 首部…

在线CAD-梦想云图Node.JS服务

说明 后台提供梦想Node.JS服务&#xff0c;方便调用控件后台功能&#xff0c;Bin/MxDrawServer的安装目录中有Linux和Windows两个文件夹&#xff0c;用户可以根据自己的操作系统下载对应的程序。 启动服务 Windows:进入Bin\MxDrawServer\Windows目录&#xff0c;运行start.ba…

大数据毕业设计 新闻分类算法实现

文章目录1 简介1.1 本文章博主将介绍:2 参与及比较算法3 先说结论4 实现过程4.1 数据爬取4.2 数据预处理5 CNN文本分类6 最后1 简介 &#x1f525; Hi&#xff0c;大家好&#xff0c;这里是丹成学长的毕设系列文章&#xff01; &#x1f525; 对毕设有任何疑问都可以问学长哦…

JUC并发编程详解

JUC并发编程详解一、Callable接口二、ReentrantLock类三、原子类四、线程池五、信号量Semaphore六、闭锁CountDownLatch七、线程安全的集合类7.1 多线程环境使用 ArrayList7.2 多线程环境使用队列7.3 多线程环境使用哈希表JUC > java.util.concurrent&#xff0c;这个包里放…

【AI with ML】第 1 章 :TensorFlow 简介

&#x1f50e;大家好&#xff0c;我是Sonhhxg_柒&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流&#x1f50e; &#x1f4dd;个人主页&#xff0d;Sonhhxg_柒的博客_CSDN博客 &#x1f4c3; &#x1f381;欢迎各位→点赞…

python使用bs模块爬取小说数据

目录 一、BS模块介绍 二、分析页面架构 三、代码实现 四、结果展示 五、总结思路 一、BS模块介绍 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱&#xff0c;通过解析文档为用户提供需要抓取的数据…

【云计算与大数据技术】Hadoop MapReduce的讲解(图文解释,超详细必看)

一、Hadoop MapReduce架构 MapReduce 是一种分布式计算框架,能够处理大量数据 ,并提供容错 、可靠等功能 , 运行部署在大规模计算集群中&#xff0c;MapReduce计算框架采用主从架构&#xff0c;由 Client、JobTracker、TaskTracker组成 Client的作用 用户编写 MapReduce程序…

Debye-Wolf积分计算器

摘要 众所周知&#xff0c;Debye-Wolf积分可用于以半解析方式计算焦平面附近的矢量场。Debye-Wolf积分通常用作分析高数值孔径显微镜成像情况的基本工具。它是基于理想模型&#xff0c;因此不需要待求镜头精确规格的知识。该用例将解释如何在VirtualLab Fusion中使用Debye-Wolf…

Guitar Pro8更新了多达30项功能优化

很多人在听到Guitar Pro这个名词时&#xff0c;本能反应就是跟吉他有关的软件吧&#xff0c;但是具体是什么样子&#xff0c;有什么功能我们却不一定知道的那么详细&#xff0c;下面呢&#xff0c;我们就来详细的介绍下Guitar Pro这款软件。 Guitar Pro是初学作曲&#xff0c;特…

openlayers百万级和千万级数据量的矢量切片在渲染过程中的技术难点解析

目录1 前言2 数据介绍3 切片方案及技术难点3.1 大数据量图层矢量切片无法正确返回结果3.2 矢量切片标注过程中标注拥挤3.3 矢量切片每一块切片都进行了标注&#xff0c;形成了冗余3.4 矢量切片标注的随机性会造成时而在中央&#xff0c;时而在边界上3.5 特殊样式的制作3.6 图层…

Jmeter(九):jmeter_逻辑控制器_事务控制器HTTP Cookie管理器

Jmeter(19)&#xff1a;jmeter_逻辑控制器_事务控制器 事务&#xff1a; 性能测试中&#xff0c;事务指的是从端到端&#xff0c;一个完整的操作过程&#xff0c;比如一次登录、一次 筛选条件查询&#xff0c;一次支付等&#xff1b;技术上讲&#xff1a;事务就是由1个或多个…

C# Spire.Xls将DataTable导出到Excel并加密

背景需求&#xff1a; 页面展示信息列表&#xff0c;需要将数据导出到Excel并加密sheet文件和工作簿结构。 代码思路&#xff1a;1.将数据转换为dataTable&#xff0c;2.将dataTable导出到Excel&#xff0c;3.处理加密。 文章目录引入必要的dll文件1.将数据转换为DataTable2.将…

Python英文词频统计(哈姆雷特)程序示例

今天继续给大家介绍Python相关知识&#xff0c;本文主要内容是Python英文词频统计程序示例&#xff0c;主要是对英文文本——《哈姆雷特》进行分词。 一、英文文本词频统计思路 想要对《哈姆雷特》进行英文单词词频统计&#xff0c;那么我们首先需要拿到《哈姆雷特》的原文&a…

“笨鸟”逆风飞:一场荣耀的高端越峰征程

2020年的11月17日&#xff0c;荣耀被迫“成年”。 “那一天都是在忙碌过程中度过的&#xff0c;有很多人要去沟通&#xff0c;有很多资产的分割……”&#xff0c;在12月12日央视网财经的访谈节目《云顶对话》中&#xff0c;荣耀CEO赵明首次向外袒露心迹&#xff0c;转身成为对…

C++11标准模板(STL)- 算法(std::max)

定义于头文件 <algorithm> 算法库提供大量用途的函数&#xff08;例如查找、排序、计数、操作&#xff09;&#xff0c;它们在元素范围上操作。注意范围定义为 [first, last) &#xff0c;其中 last 指代要查询或修改的最后元素的后一个元素。 返回各给定值中的较大者 …