DocArray 0.20.0 发布！新增 Milvus 后端支持，更好地嵌套数据搜索，新增 RGB-D 格式的 3D 模型表示

news2026/2/11 8:23:27

DocArray 是一个用于处理、传输和存储多模态数据的 Python 工具包。DocArray 提供便捷的多模态数据处理功能，具备基于 Protobuf 提供高性能的网络传输性能，同时也为多种向量存储方案提供统一的 API 接口。

GitHub：github.com/docarray/docarray

文档：docarray.jina.ai

DocArray 基于 Apache 2.0 License 协议，于 2022 年 1 月正式发布，目前是 LF AI & Data 基金会的沙盒项目。同时，DocArray 也是 Jina 生态使用的通用数据结构。

本次发布新增了对 Milvus 向量数据库的支持，现在可以将 Milvus 作为 DocArray 后端存储；新增了支持在嵌套级别检索 Root document；DocArray 现已支持不同格式的 3D 模型表示，此版本新增了 RGB-D 格式表示的支持；同时新增了对 Qdrant 基于关键字的文本过滤的支持，以及支持加载多页 tiff 图像到chunk等等。

重要新功能

1. 新增 Milvus 后端存储支持

DocArray 现在支持 Milvus 向量数据库作为后端存储。Milvus 提供了高性能的向量搜索和分析功能，并支持大规模地添加、删除、更新和近乎实时的搜索向量。有了 Milvus，DocArray 可以提供更快、更准确的搜索结果。

DocArray 和 Milvus 的集成使得用户可以通过统一熟悉的 DocArray API 就能享受 Milvus 所有的优势。与其他后端存储一样，配置起来非常简单：

da = DocumentArray(storage='milvus', config={'n_dim': 3))

2. 通过 root_id 更好地支持嵌套搜索

在处理嵌套数据时，我们通常在给定的嵌套级别上比较数据，例如视频中的帧，但我们实际需要的返回结果是整个视频。

也就是说，在使用向量数据库时，即使在嵌套级别（例如在 chunk 级别）使用 sub-indices(子索引)进行搜索时，也可以检索 root-document(根文档)。在存储配置中设置root_id=True，就可以启用此功能。

top_level_matches = da.find(query=np.random.rand(512), on='@.[image]', return_root=True)3. 新增 RGB-D 格式的 3D 模型表示

3. 新增 RGB-D 格式的 3D 模型表示

DocArray 已经支持不同格式的 3D 模型表示，这个版本增加了对 RGB-D 格式表示的支持。

doc.load_uris_to_rgbd_tensor()

其它新增功能

将多页 tiff 文件加载到 Chunk 中

现在通过load_uri_to_image_tensor()可以加载多页 tiff 图像。

d = Document(uri="foo.tiff")
d.load_uri_to_image_tensor()
print(d)

<Document ('id', 'uri', 'chunks') at 7f907d786d6c11ec840a1e008a366d49>
  └─ chunks
     ├─ <Document ('id', 'parent_id', 'granularity', 'tensor') at 7aa4c0ba66cf6c300b7f07fdcbc2fdc8>
     ├─ <Document ('id', 'parent_id', 'granularity', 'tensor') at bc94a3e3ca60352f2e4c9ab1b1bb9c22>
     └─ <Document ('id', 'parent_id', 'granularity', 'tensor') at 36fe0d1daf4442ad6461c619f8bb25b7>

基于 Qdrant 的文本关键字过滤

filter = {
    'must': [
        {"key": "info", "match": {"text": "shoes"}}
    ]
}

results = da.find(np.random.rand(n_dim), filter=filter)

上面的代码将在所有包含 "shoes" 关键字的 Document 中进行搜索，并返回相应的结果。

从 uri 加载视频向量时存储关键帧索引

当从 uri 加载视频向量时，会在 Document 的 tags 中存储 key_frame_indices。这样，就可以提取视频中关键帧之间的部分。

d = Document(uri="video.mp4").load_uri_to_video_tensor()
print(d.tags['keyframe_indices'])

[0, 25, 196, ...]

更好地绘制嵌套和复杂数据的 embedding 图

您现在可以选择在调用 DocumentArray 的方法 plot_embedding()排除哪些元字段，这使得绘制复杂和嵌套数据的 embedding 图变得更加容易。

docs.plot_embeddings(exclude_fields_metas=['chunks'])

更好地支持信息检索评估

此版本向评估函数增加了 max_rel_per_label 参数，它提供了每个标签的相关文档数，即集合中具有该标签的文档数。

metrics = da.evaluate(['recall_at_k'], max_rel_per_label={i: 1 for i in range(3)})

🐞 bug 修复

支持独立于类列表行为的长度计算

本次发布中，我们修复了在 DocArray 0.19 版本里引入的 Redis 后端存储的长度计算，使其独立于类列表行为。

删除有错误赋值的余弦相似度字段

在 Weaviate 的后端存储中，余弦距离不会g再被错误地分配给 cosine_similarity 字段。

清除存储后重建索引

当调用 _clear_storage 时，就可以重建 Redis 和 Elasticsearch 文档存储的索引。

更多详细信息请点击 https://jina.ai/news/docarray-0-20-update/

📗 文档更新

这一部分主要涉及文档的改进，包括更正文档中的错误描述、修复文档中的链接、修改逻辑顺序以符合博客文章，以及将云支持移动到整合部分。这些更新旨在让文档更加清晰易读，帮助用户更好地了解 DocArray。更多详细信息请访问文档 docarray.jina.ai

🤘 贡献者

在此感谢本次发布的所有贡献者：

Delgermurun
杨小燕
Anna-charlotte
Johannes Messner
Alex Cureton-Griffiths
AlaeddineAbdessalem
相栋
coolmian
Joan Fontanals
王楠
Sami Jaghouar
Michael Günther

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/85729.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

DocArray 0.20.0 发布！新增 Milvus 后端支持，更好地嵌套数据搜索，新增 RGB-D 格式的 3D 模型表示

相关文章

外包公司面试门槛高吗？软件测试员进外包公司容易吗？

二、Docker 阿里云镜像加速

尚医通-MyBatisPlus：查询-删除（四）

C++ 入门篇之类对象的关系

docker（3）：镜像分层原理

【计算机网络】HTTP首部详解

在线CAD-梦想云图Node.JS服务

大数据毕业设计新闻分类算法实现

JUC并发编程详解

【AI with ML】第 1 章：TensorFlow 简介

python使用bs模块爬取小说数据

【云计算与大数据技术】Hadoop MapReduce的讲解（图文解释，超详细必看）

Debye-Wolf积分计算器

Guitar Pro8更新了多达30项功能优化

openlayers百万级和千万级数据量的矢量切片在渲染过程中的技术难点解析

Jmeter(九)：jmeter_逻辑控制器_事务控制器HTTP Cookie管理器

C# Spire.Xls将DataTable导出到Excel并加密

Python英文词频统计（哈姆雷特）程序示例

“笨鸟”逆风飞：一场荣耀的高端越峰征程

C++11标准模板（STL）- 算法（std::max）