【腾讯云云上实验室-向量数据库】个人对腾讯云向量数据库的体验心得

前言

还是那句话，不用多说想必大家都能猜到，现在技术圈最火的是什么？非人工智能、大模型莫属，以及与它们相关的其他领域，如云计算、大数据等。国内外互联网厂商都在人工智能领域持续投入，这就使得语言大模型也有了质的发展和提升，也让语言大模型相关的训练、推理和知识库补充等相关的数据库相关的领域变得越来越重要。就在今年8月初，腾讯云发布了一款关于AI原生向量数据库--Tencent Cloud VectorDB（下文简称：腾讯云向量数据库），彻底打破了语言大模型关于数据库相关的使用瓶颈，它不仅被广泛应用于语言大模型的训练、推理和知识库补充等场景，而且还是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。据我所知，目前有越来越多的相关企业和个人开发者来体验和使用腾讯云向量数据库这个服务，笔者作为开发者，又初入人工智能领域，最近刚好体验了一下腾讯云向量数据库的服务，一经使用便被该服务强大的功能深深吸引到了，也真真切切感受到了它的优势和带来的便捷，非常的不错。那么本文就来简单分享一下笔者关于腾讯云向量数据库的使用体验，也希望本文能够帮助刚使用或者正打算使用腾讯云向量数据库的小伙伴们。

Tencent Cloud VectorDB概念

现在，再来了解和回顾一下Tencent Cloud VectorDB的概念，腾讯云向量数据库（Tencent Cloud VectorDB）是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据，而且该数据库支持多种索引类型和相似度计算方法，单索引支持 10 亿级向量规模，可支持百万级 QPS 及毫秒级查询延迟。

据腾讯云官方消息，腾讯云向量数据库不仅能为大模型提供外部知识库，提高大模型回答的准确性，还可广泛应用于推荐系统、自然语言处理等 AI 领域。

使用初体验

1、提前准备工作

开始体验腾讯云向量数据库之前，需要保证是否有腾讯云账号，如果没有则需要去注册，如果有就直接登录即可。

2、开通向量数据库服务

登录腾讯云账号之后，进入腾讯云向量数据库主页，然后点击“立即体验”，进行对应的服务开通，具体如下图所示：

可以直接进入腾讯云数据库（TencentDB），然后找到“向量数据库”-->“实例列表”，直接新增实例即可，如下所示：

开始新增实例的时候，根据自己的实际需要来选择对应的配置，然后最后点击“立即申请”按钮即可创建成功。

创建成功之后，实例列表就会显示刚才新创建的那个实例信息，如下所示：

3、具体使用

通过上面关于腾讯云向量数据库的开通申请之后，接下来就是具体的使用体验，这里先来分享一下基础的管理使用，如下图所示：

查看实例详情，这里包含具体的实例ID、配置、归属地区、访问地址等详细信息。

再来看看实例监控功能，主要是查看实例的实时数据和历史数据，监控实例的。

密钥管理，顾名思义就是关于实例的API密钥维护，可千万不要随便泄露给别人。

接着来看看安全组的功能，这里主要是定义和配置管理安全规则的，进而保护数据库。

Embedding功能，见名知意，主要是和嵌入式数据相关的配置，管理嵌入式的数据。

最后一个模块，可视化管理，以可视化方式呈现数据库实例的数据，以最友好的方式给使用者展示信息，方便快速去理解和做出决策。

通过可视化进入数据库管理，如下图所示：

然后创建体验Embedding，具体如下图所示：

可以直接通过精确查询，来查看对应的数据，下面通过embedding_coll精确查询如下所示：

再来看一下unenabled_embedding_coll中的精确查询，如下所示：

最后再来看看创建数据库的使用体验，直接点击开始创建即可，如下所示：

新建数据库，如下所示：

然后在新建的数据库中新建集合，如下所示：

接着继续按照前面关于精确检索的步骤来执行查询，这里就不再过多赘述。但是需要说明的是，像这种多样性的检索方式可以让使用者根据不同的业务需求来选择最适合的查询方式，非常的友好和方便，灵活性很强，值得信赖！

腾讯云向量数据库的优势

通过上面亲自体验腾讯云向量数据库之后，个人觉得还是有很多值得总结的东西，尤其是关于腾讯云向量数据库的特点和优势，结合腾讯云向量数据库官方关于向量数据库的优势介绍，总结它的优势如下所示：

1、高性能

据腾讯云官方介绍，腾讯云向量数据库单索引支持10亿级向量数据规模，可支持百万级 QPS 及毫秒级查询延迟，这是非常强大的一点，尤其是做语言大模型的时候非常适用。

2、高可用性

腾讯云向量数据库可以提供多副本、高可用特性，而且提高容灾能力，确保数据库在面临节点故障和负载变化等挑战时仍能正常运行，有很大的安全保障。

3、可大规模拓展

腾讯云向量数据库架构也可以支持水平扩展，而且单实例可支持百万级 QPS，轻松满足 AI 场景下的向量存储与检索需求，个人感觉是为大模型领域定制的。

4、低成本

还有就是腾讯云向量数据库的使用，只需在管理控制台按照指引，简单操作几个步骤，即可快速创建向量数据库实例，全流程平台托管，无需进行任何安装、部署和运维操作，有效减少机器成本、运维成本和人力成本开销。

5、简单易用

腾讯云向量数据库支持丰富的向量检索能力，使用者可以通过 HTTP的API 接口即可快速操作数据库，开发效率高，同时腾讯云向量数据库控制台提供了完善的数据管理和监控能力，操作简单便捷。

6、稳定可靠

最后一点，腾讯云向量数据库源于腾讯自研的向量检索引擎 OLAMA，在近40个业务线上稳定运行，日均处理的搜索请求高达千亿次，服务连续性、稳定性有保障，有强大的技术保障。

应用场景有哪些？

通过上文关于腾讯云向量数据库的详细介绍，以及上手体验，结合腾讯云向量数据库官方的信息来看，腾讯云向量数据库的应用示例是在：大规模知识库、问答系统、推荐系统、图/文搜索等。那么下面就来简单分享一下对应的这几个领域的应用场景。

1、大规模知识库

在目前的实际使用中，腾讯云向量数据库可以和大语言模型 LLM 配合使用，企业的私域数据存储在向量数据库中可构建外部知识库，帮助企业更好地管理和利用自己的数据资源。企业的私域数据在经过文本分割、向量化后，可以存储在腾讯云向量数据库中，构建起企业专属的外部知识库，从而在后续的检索任务中，为大模型提供提示信息，辅助大模型生成更加准确的答案。

2、推荐系统

腾讯云向量数据库会基于用户特征进行向量存储与检索，并返回与用户可能感兴趣的物品作为推荐结果。众所周知，推荐系统的目标是根据用户的历史行为和偏好，向用户推荐可能感兴趣的物品，在这种场景下，将用户行为特征向量化存储在向量数据库。当发起推荐请求时，系统会基于用户特征进行相似度计算，然后返回与用户可能感兴趣的物品作为推荐结果。

3、问答系统

还有就是腾讯云向量数据库是基于问题信息进行向量存储与检索，并返回最相关的问题与对应的答案。智能问答系统是一种能够回答用户提出问题的智能应用，通常使用 NLP 服务和深度学习等技术实现，在问答系统中，问题和答案通常被转换为向量表示，并存储在向量数据库中。如果用户提出问题时，问答系统可以通过计算向量之间的相似度，检索最相关的问题信息并返回对应的答案信息，所以使用向量数据库来存储和检索相关的向量数据，可以提高问答系统的检索效率和准确性。

4、图/文检索

最后就是腾讯云向量数据库对输入的图像和文本信息进行向量存储与检索，会找到最匹配输入信息的文本或图像结果。文本/图像检索任务是指在大规模文本/图像数据库中搜索出与指定图像最相似的结果，在检索时使用到的文本/图像特征可以存储在向量数据库中，通过高性能的索引存储实现高效的相似度计算，进而返回和检索内容相匹配的文本/图像结果。

未来展望

上文关于腾讯云向量数据库的应用场景和优势的介绍，以及在具体使用时体验腾讯云向量数据库的良好特性，个人觉得腾讯云向量数据库作为一种新的企业级分布式数据库服务，具有非常大的发展前景，这里只做总结性的说明。在不久未来，我个人比较期待腾讯云向量数据库能够进一步提升开箱即用的体验效果，通过更加智能的自动化配置，更进一步的简化开发者使用操作步骤，同时能够提供更多的使用场景，尤其是提供关于微小企业和个人开发者使用的场景，还有就是继续提升在安全和隐私领域的保护措施。另外，作为开发者同样也是使用者，期待腾讯云向量数据库的相关服务的价格能够随着技术的进步而降低，造福更多的使用者。

番外篇：腾讯云向量数据库的设计核心

最后再来分享一下腾讯云向量数据库的设计核心，这一部分的内容大部分参考与腾讯云向量数据库的官方内容，这里只做分享和学习使用。

部署架构

腾讯云向量数据库采用分布式部署架构，每个节点相互通信和协调，实现数据存储与检索。客户端请求通过 Load balance 分发到各节点上。

逻辑架构

实例是腾讯云中独立运行的数据库环境，是用户购买向量数据库服务的基本单位。腾讯云向量数据库数据存储的一个实例集群中包括 Database、Collection、Document 三个逻辑层级。其中，一个实例可以包含很多个 Database，一个 Database 可以包含多个 Collection，一个 Collection 可以包含多个 Document。

数据安全

腾讯云向量数据库的多副本设计、多可用区分布节点、API 密钥认证，并运行于私有网络环境，通过安全组控制访问来源，CAM 账户授权等多方面保护向量数据的完整性和隐私。

鉴权方式

腾讯云向量数据库使用账号（account）和 API 密钥（api_key）的组合进行鉴权，以验证用户身份并授权其访问。

连接方式

腾讯云向量数据库支持通过 HTTP 协议进行数据写入和查询等操作。

检索方法

腾讯云向量数据库支持通过标量检索、向量检索、标量向量混合检索的方法。

标量检索

是基于标量字段的检索。标量是指一个单独的数值，例如文本字段、数值字段或日期字段等，区别于向量等多维数据结构。

向量检索

是基于向量相似度进行的检索，通过计算向量之间的相似度来找到与查询向量最相似的文档或记录。

混合检索

是将标量检索和向量检索结合起来的一种方式，旨在综合利用标量属性和向量特征进行更精确和全面的检索。

结语

经过上面关于腾讯云向量数据库的体验介绍，想必作为读者的您肯定对腾讯云向量数据库有了一定的了解吧，也肯定知道了腾讯云向量数据库的特点和使用吧！笔者以为，通过本文关于全面的介绍腾讯云向量数据库的理论知识和具体的使用体验流程，作为初用者，没有遇到什么使用“卡壳”的地方，腾讯云向量数据库的产品文档写的非常清晰易懂，具体的使用步骤也不复杂，集成起来也很方便，再加上腾讯云向量数据库自身的优点，怎能不爱呢？展望一下未来，我相信腾讯云向量数据库将会进一步提高用户体验和产品优势能力，在人工智能语言大模型领域发挥更加重要的作用，并为使用者提供更加便捷、高效的向量数据库解决方案和服务，让我们一起期待腾讯云向量数据库新的腾飞！