适配各类大模型应用!手把手教你选择 Zilliz Cloud 实例类型

news2025/1/5 14:53:22

作为大模型时代备受关注的细分赛道,向量数据库可以不仅为大模型提供存储和向量检索的功能,还能适配各种 AI 应用场景,例如聊天机器人、内容审核、增强 LLM 知识库等。

不过,对于向量数据库的开发者而言,成本是绕不开的一大话题。基于对用户硬件成本的考量,Zilliz Cloud 推出了不同类型的 CU,以满足不同用户在不同场景下的使用需求。

Zilliz Cloud 中的计算单元(CU)指的是用于处理搜索请求和索引的硬件资源。Zilliz Cloud 提供 3 种类型的 CU:性能型、容量型和经济型。不同 CU 类型由不同的 CPU、内存和存储资源组合而成,适用于不同的业务场景。因此,需要在配置 Zilliz Cloud 集群时选择合适的 CU 类型和大小。

alt

性能型 CU

性能型 CU 适用于需要低延迟和高吞吐量的向量相似性检索场景。该类型的 CU 能够保证毫秒级的响应。性能型 CU 的适用场景包括但不限于:

  • 生成式 AI

  • 推荐系统

  • 搜索引擎

  • 聊天机器人

  • 内容审核

  • 增强 LLM 知识库

  • 反诈系统

容量型 CU

相较性能型 CU,容量型 CU 能多存储 5 倍的数据,但延迟可能会增加,因此适用于需要大量存储空间的场景,尤其是需要处理千万级向量数据的场景。容量型 CU 的适用场景包括但不限于:

  • 搜索大规模的非结构化数据(如:文本、图像、视频、分子式结构等)

  • 版权保护

  • 身份验证

经济型 CU

经济型 CU 可支持的数据规模与容量型 CU 一致,但价格更低,性能略有下降,适用于追求高性价比或预算敏感的场景。经济型 CU 的适用场景包括但不限于:

  • 数据标记或数据聚类

  • 数据去重

  • 数据异常检测

  • 平衡数据分布

CU 类型对比

下表对比了 Zilliz Cloud 中 3 种 CU 类型之间的差异。

alt

表1:3 种 CU 类型对比

性能对比

在对比不同 CU 类型的性能时,我们着重关注 2 个关键指标——搜索延迟和吞吐量。在测试 3 种 CU 类型性能时,我们使用了 2 个不同数据集,并设置了不同的 topk 值(10、100、250、1000)。第 1 个数据集包含 100 万个 768 维向量。第 2 个数据集包含 500 万个 768 维向量

alt

表2:性能测试结果:搜索延迟

上表显示性能型 CU 的搜索延迟低于其他 2 种 CU 类型,因此性能型 CU 是追求低延迟场景的最佳选择。在常见的 topk 值(10-250)下,性能型 CU 能够确保低于 10 毫秒的延迟,比容量型和经济型 CU 快 5-10 倍。当 topk 值达到 1000 时,性能型 CU 的延迟为 10-20 毫秒,容量型 CU 的延迟为 50-100 毫秒,经济型 CU 的延迟为 100-200 毫秒。当 topk 值大于等于 1000 时,虽然性能型 CU 的响应时间有所变慢,但其搜索延迟仍旧可以满足许多应用场景。

alt

表3:性能测试结果:吞吐量

性能型 CU 的吞吐量测试结果最佳,比容量型 CU 快 4-5 倍,比经济型 CU 快 15-18 倍。

容量对比

我们使用标准向量维度:128、256、512、768、1024 测试 Zilliz Cloud 3 种 CU 类型的容量。

alt

表4:容量测试结果

上表测试结果显示:

容量型 CU 和经济型 CU 的容量相同,均比性能型 CU 多 5 倍。

向量数据维度越大,需要的数据存储空间越大。例如,同一类型 CU 存储 512 维向量数据时的数据量是存储 1024 维向量数据时的数据量的 2 倍。

注意:本实验仅限于主键和向量字段,未添加标量字段。实际使用过程中,如果添加了其他标量字段(如:id、标签、关键字、摘要、URL等),每种 CU 类型的实际容量会与上表有所出入。因此,上表仅可作为参考使用,具体容量还需要根据实际使用情况判断。

CU 类型和大小选择案例

在上文中,我们通过延迟、吞吐量、容量和价格等方面对比了 Zilliz Cloud 提供的 3 种 CU 类型。下面将通过 2 个例子,帮助用户更好地选择合适的 CU 类型:

示例 1

假设你需要创建 1 个 Zilliz Cloud 集群存储 1000万 个 768 维的文档文本块向量,用于增强搭建的 LLM 聊天机器人。要求:QPS 为 1000,延迟小于 30 毫秒,topK 为 10。

想要实现延迟小于 30 毫秒,性能型 CU 是唯一的选择。由于每个性能型 CU 的容量为 1200 万 768 维向量,你需要至少 9 个性能型 CU 来处理 1000 万个向量。1 个高性能 CU 在 topk 值为 10 时,吞吐量可以达到 520。因此,如果 QPS 需要达到 1000,那需要使用 2 个副本。

综上,对于示例 1 的场景,我们推荐使用 2 个各包含 9 个性能型 CU 的副本。

示例 2

假设你需要搭建一个应用从 1 亿张 768 维图片向量中进行相似性搜索。要求:无需实时响应,topK 为 100, QPS 为 50。

容量型和性能型 CU 都能够在 topk 值为 100 时,满足 QPS 达到 50 的条件。但是,在该条件下,容量型 CU 的容量比性能型 CU 多 4 倍。因此,相比性能型 CU,容量型 CU 是更为合适的选择。

根据测试结果,单个容量型 CU 可以存储高达 560 万 768 维向量。如需存储 1 亿向量,你需要至少 18 个容量型 CU。当 topk 值为 100 时,单个容量型 CU 的吞吐量可以达到 80。要满足 QPS 为 50 的要求,只需 1 个副本即可。

综上,对于示例 2 的场景,我们推荐使用 1 个包含 18 个容量型 CU 集群。

总结

Zilliz Cloud 提供 3 种不同 CU 类型。对于追求实时响应的场景,我们推荐选择性能型 CU。对于需要存储和检索千万级向量数据的应用,我们推荐选择容量型 CU。对于追求高性价比或预算敏感的场景,我们推荐使用经济型 CU。

探索国内 Zilliz Cloud 云服务可点击访问 https://zilliz.com.cn,海外官网和云服务入口为 https://zilliz.com。

🌟「寻找 AIGC 时代的 CVP 实践之星」 专题活动即将启动!

Zilliz 将联合国内头部大模型厂商一同甄选应用场景, 由双方提供向量数据库与大模型顶级技术专家为用户赋能,一同打磨应用,提升落地效果,赋能业务本身。

如果你的应用也适合 CVP 框架,且正为应用落地和实际效果发愁,可直接申请参与活动,获得最专业的帮助和指导!联系邮箱为 business@zilliz.com。


  • 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。

  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/749841.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring学习笔记---SpringBoot快速入门

Spring学习笔记---SpringBoot快速入门 Spring学习笔记---SpringBoot1 SpringBoot简介1.1 SpringBoot快速入门1.1.1 开发步骤1.1.1.1 创建新模块1.1.1.2 创建 Controller1.1.1.3 启动服务器1.1.1.4 进行测试 1.1.2 对比1.1.3 官网构建工程1.1.3.1 进入SpringBoot官网1.1.3.2 选择…

(二)springboot实战——springboot基于多端内容协商适配实现json、xml、yaml等格式数据统一返回

前言 在实际应用开发场景中,我们有需求实现多端内容请求的适配,例如某些客户端需要返回json数据,有些客户端需要返回xml数据,有些客户端要返回yaml数据,这个时候就需要服务端做内容返回的适配,如果按照提供…

搭建vsto的clickonce一键发布IIS环境FTP

要在 Windows 上启用 IIS(Internet Information Services),可以按照以下步骤进行操作:1. 打开“控制面板”:点击 Windows 开始菜单,然后在搜索栏中输入“控制面板”,并选择相应的结果。2. 打开“…

Maven 项目构建生命周期

Maven 项目构建生命周期 一句话: Maven 构建生命周期描述的是一次构建过程经历了多少个事件 生命周期的3 大阶段 clean 清理工作 default 核心工作,例如编译,测试,打包,部署等 site 产生报告,发布站点等 生命周期…

zsh自定义命令行提示符

环境: oh-my-zsh 插件 效果: 本来的样子:感觉元素很多,比较挤占地方 现在的样子:简洁了很多 步骤: 打开主题的配置文件(我的主题是agnoster ) cd /Users/你的家目录/.oh-my-zsh/the…

Windows操纵kafka

这里写目录标题 启动kafk创建一个测试主题查看所有主题查看first详细信息修改分区数(分区数只能增加 不能减少)删除主题生产者生产数据消费命令 启动kafk 安装目录下 .\bin\windows\kafka-server-start.bat .\config\server.properties创建一个测试主题 安装目录下 .\bin\wi…

【Unity2D像素风格小游戏】期末考考完,和搭档一个月从零开始的Unity速成作品!

游戏实况视频 六月十八号,期末考完后,大佬搭档和我开始自学unity,并在七月一号正式开始一个unity2D像素小游戏的制作,这是一段很有意义,很有收获的日子。 这个项目由搭档提出,另一位超级大佬进行前期指导…

【分布式系统案例课】计数服务之存储设计

存什么? 两种存储内容,各有优劣 综合:耽搁时间和聚合数据都分别进行存储,可以得到两者的好处。 数据库选型 SQL数据库客户端嵌入代理 因为B站的数量级,单个数据库肯定是扛不住的。然后为了满足扩展性需求&#xf…

Python入门级语法详解以及实战练习

来源:投稿 作者:起酥松松 编辑:学姐 python基本语法元素 变量命名原则: 首字符不能是数字; 中间不能有空格; 不能是python保留字; 字母 ,数字 ,汉字 ,下划…

【学会动态规划】三步问题(2)

目录 动态规划怎么学? 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后: 动态规划怎么学? 学习一个算法没有捷径,更何况是学习动态规划, 跟我…

骨传导耳机好不好,盘点五款当下最流行的骨传导耳机

其实早在几年前,骨传导耳机就已经出现在大众视野了,由于使用的人数不多,所以一直不温不火的,最近这几年,骨传导耳机的热度才开始兴起,其最大的特点就是,不用入耳佩戴,不用担心运动过…

HOT60-单词搜索

leetcode原题链接:单词搜索 题目描述 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中,返回 true ;否则,返回 false 。单词必须按照字母顺序,通过相邻的单元格内的字母构成&#…

分体式骨传导,为敏感耳朵打造的舒适体验,南卡OE上手

骨传导蓝牙耳机这两年很受运动玩家的欢迎,不过标准的骨传导耳机用起来并不算方便,最近我看到南卡新推出一种分体式骨传导耳机,叫南卡OE,和普通的骨传导耳机有很大不同。上周我也入手了一款,这几天试了试,感…

基于YOLOv8开发构建目标检测模型超详细教程【以焊缝质量检测数据场景为例】

超详细教程系列在我前面的文章中也有不少的实践记录,感兴趣的话可以自行阅读即可: 《基于yolov7开发实践实例分割模型超详细教程》 《YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程》 《基于yolov5-v7.0开发实践实例分割模型超详细…

实现java参数非必传

1、路径参数: PathVariable(required false)实现参数aaa非必传 2、非路径参数: RequestParam(required false) 实现参数aaa非必传 3、实体参数: RequestBody(required false)实现实体aaa非必传

Java基础---集合类

目录 典型回答 Collection和Collections有什么区别 Java中的Collection如何遍历迭代 Iterable和Iterator如何使用 为什么不把Iterable和Iterator合成一个使用 哪些集合类是线程安全的 典型回答 什么是集合 集合就是一个放数据的容器,准确的说是放数据对象引用…

32位ARM M0+内核单片机 XL32F001简单介绍,Flash 24K,SRAM 3K

XL32F001 系列微控制器采用高性能的 32 位 ARM Cortex-M0内核,宽电压工作范围的 MCU。嵌入 24Kbytes Flash 和 3Kbytes SRAM 存储器,最高工作频率 24MHz。包含多种不同封装类型多款产品。芯片集成 I2C、SPI、USART 等通讯外设,1 路 12bit ADC…

十六、flex应用练习做淘宝按钮界面

目录: 目标小技巧实现最终代码 一、目标:我们要做一个手机版本的淘宝网,蓝色框住的按钮这部分。 二、 小技巧:如何在网页上看手机版本的页面 首先在网页上打开淘宝网,然后按F12,进入调试状态;&…

信号完整性分析基础知识之有损传输线、上升时间衰减和材料特性(一):为什么要关注损耗?

一个具有极快上升沿的信号输入到真实传输线中,在从传输线输出的时候上升时间会很长。例如,一个上升时间为50ps的信号,在经过一段36inch长,50Ohm传输线后,上升时间增加到1ns。上升时间的退化是由于传输线的损耗&#xf…

C#使用跨平台的PdfSharpCore开源库生成PDF文件

一、需求说明 在进行项目开发中,需要将C#程序的一些文本内容导出为PDF文件(能够根据文本自动分行分页),并且要求这个生成PDF文件的程序是可跨平台的;实现类似效果: 二、需求分析 ①将程序的文本内容导出为PDF文件; ②能够将文本内容自动分行分页【且可添加页眉、页脚、…