腾讯云把向量数据库“卷”到哪一步了?

news2025/2/27 7:20:09

c0d91419ec1e54723a920dc22a34c6fa.jpeg

“不是我不明白,这世界变化快”,崔健在20世纪写下的这句歌词,放在刚刚过去的2023年,也同样适用。技术风向的变化之快,让不少人感到惊讶,向量数据库这一年的潮起潮落,就是一个典型的例子。

2023年初大模型、生成式 AI的起飞,也带来了向量数据库的火爆,投融资项目爆发式增长,传统数据库厂商和公有云厂商都推出了相关产品。然而一年狂飙之后,市场又开始退潮,前不久全球最著名的 AI 项目之一AutoGPT 宣布,不再使用向量数据库。

6b80c66875ab34fd7393d1125f87be90.png

向量数据库真的是AI革命中的组成部分吗?这一市场有哪些参与者?腾讯云为代表的公有云厂商,又在这场技术创新中发挥了什么作用?

向量数据库

刚刚开始

86203b9f1c3a8cc5706e40ff312dbc59.png

新技术的火爆,必然会伴随炒作和泡沫,但向量作为大模型理解世界的数据形式,向量数据库作为AI革命重要基建的位置,长期来看,是不会动摇的。

为什么这么说?

向量数据库并不是一种特别新的数据库技术,在AI领域已经应用了七八年,谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。如果说数据库是数据的“硬盘”,那么,向量数据库就是更适合AI体质的“硬盘”。

其“AI原生”的体质,具体表现在几个方面:

1.更高的效率。AI算法,要从图像、音频和文本等海量的非结构化数据中学习,提取出以向量为表示形式的“特征”,以便模型能够理解和处理。因此,向量数据库比传统基于索引的数据库有明显优势。

2.更低的成本。大模型要从一种新技术转化为产业价值,必须达到合理的投入产出比,而向量数据库可以有效减少存储和计算成本。一个公开数据是,通过腾讯云向量数据库,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%,就在于检索效率、运行稳定性、运营效率、推荐算法等,有了较大的提升。

f346f0d4cc964720f08d71fadcd54c14.png

(腾讯云数据库产品架构)

3.更强的数据安全。有个企业直言:我沉淀了几十年的内部数据,是我的的核心竞争力,让我无偿去公开给大模型做训练,我肯定不愿意。想做大模型,还要确保数据的隐私安全,就必须与数据库产品做好配合,这给向量数据库的本地部署带来了广阔的需求。

4.更大的扩展性。随着大模型走向行业应用,垂直领域的AI用例不断增多,汹涌的数据洪潮和存算任务,会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制,具有良好的扩展性,可以根据AI用例和模型而变化,更好地处理大规模数据集。

所以说,除非大模型技术,在短期内发生颠覆性改变,否则落地应用还是需要向量检索和向量数据库。而作为大模型技术标杆的OpenAI最近也透露:我们可能已经非常接近实现通用人工智能(AGI),应该以通用人工智能的实现为前提进行创业和技术开发。

由此可以肯定,向量数据库市场必然还会迎来一轮增长。年底趋于冷静,只是2023年热情过度高涨的适当回调。

19a8d390f049239eec82fe5af0382d11.png

两股新势力

云是方向

从引爆到饱和,向量数据库市场的发展速度迅猛,也吸引了“群雄逐鹿”。

传统数据库厂商不必多说,既有相应的能力建设,也有一定的客户基础,推出相关产品是必然。一些在AI领域积淀已久的科技大厂,如谷歌、微软、Meta、百度等大厂,都有向量数据库的技术积累,也都可以向外输出相关能力和产品。这些我们都比较熟悉了。

而上一年狂飙突进的两股新势力,成为市场上的黑马,分别是创业公司和公有云。

以上半年爆火的AI创业新秀Pinecone为代表。Pinecone是闭源的领跑者,凭借良好的开箱即用的产品体验,获得了非常大的增长,B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

总体来说,这些创业“独角兽”的向量数据库公司,固然新锐,但长期盈利能力还有待验证。原因是,其客户大多是尝鲜、实验性质。

一般来说,企业需要先将非结构化的私密数据,进行一个小的模型,进行向量化,产生一个向量的矩阵,再存储到向量数据库里,来供大模型学习和检索。这个过程涉及大量的工程化,会耗费企业许多开发人员、时间成本,一开始可能会因为AI大模型很火而对向量数据库产生兴趣,但能否真正在业务中落地还是个未知数,因此,长期付费意愿还有较大的不确定性。

另一股“新势力”:公有云厂商,也是向量数据库的积极参与者。

不是所有企业都有能力自建大模型所需要的基础设施,通过MaaS(模型即服务)业务来训练应用大模型,是更灵活的选择。

ffa8d37df302764b862af3135063c3d7.png

此外,上云用数赋智是大势所趋,很多政企客户往往会选择公有云或行业云来满足其业务需求,将数据迁移到云上,对云数据库的关注度和接受度上升,而这些用户在探索大模型时,会倾向于以整体解决方案的形式来交付,这就给了云厂商参与游戏的机会,同时也要求云厂商提供向量数据库的全栈支持。

以腾讯云为代表,腾讯云的AI 原生(AI Native)向量数据库Tencent Cloud VectorDB是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

f6d9bc378765a59d9ea3300525066d9b.png

除了产品之外,腾讯云提供了全面AI化解决方案,覆盖接入层、计算层、存储层,使用户在使用向量数据库的全生命周期,都能应用到AI能力。有数据显示,企业原先接入一个大模型需要花1个月左右时间,使用腾讯云向量数据库后,3天时间即可完成,极大降低了企业的接入成本。

此外,腾讯庞大的业务集群及智能化应用,为腾讯云向量数据库提供了绝佳的练兵场。腾讯集团每日处理千亿次检索的向量引擎(OLAMA),让腾讯云向量数据库的基本功能和性能得到了更加充分地检验与优化,从而淬炼出了很多让人眼前一亮的新能力。

以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。

风物长宜放眼量,AI技术还在快速变化之中,AI Native的腾讯云在这一市场领域的竞争力还会进一步扩大。

接下来

向量数据库卷什么?

542eb6113defbbcb37877cb0a707046b.png

不难看到,市面上并不缺少向量数据库产品,缺少的是商业模式。

据东北证券预测,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过600亿人民币。想要吃到这块巨大的蛋糕,仅仅形成技术趋势是远远不够的,成熟的产品化才能说服用户、兑现商业价值。

8394b4971011dc6b9838966e3a03c13c.png

目前来看,以腾讯云为代表的云厂商有几重特殊优势,或许会让向量数据库加速走向商业成功:

1.多元化部署。垂直行业大模型,数据都是私有机密的,客户一般不愿意放到公有云上,腾讯云提供私有部署、分布式、混合云等多种方案,打消疑虑。背后需要混合多云的云基础设施。

2.一体化AI方案。向量数据库的火爆,本质是AI需求,而AI Native时代的数据工程,还有许多复杂问题尚待解决,腾讯云提供一体化的AI解决方案,从底层算力集群、Maas模型平台到全栈工具链,通过软硬件协同优化AI开发成本,是企业和开发者所期待的。

3.产业服务能力。AI技术革命方兴未艾,行业热情高涨,但大多处于尝试探索期,需要结合自身业务、AI应用、IT设施等多种因素试错并迭代,这个过程中,随叫随到、帮助客户及时解决问题的ToB服务能力,也是非常看重的。深耕产业互联网的腾讯云,确实是企业在这场AI技术革命中可靠的伙伴。

开放、全面、贴心,才能支持企业用好向量数据库、大模型等基础设施,弄潮AI。

被大模型“带飞”的向量数据库,才刚刚开始,将在腾讯云上长出商业成功的羽翼,飞向更广阔的天地。

edc72a2da7dcd12b01b52c1c9452fde8.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1388506.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记edusrc一处信息泄露

一、信息收集 在搜索某一学校的资产时,找到了一处学工系统。 登录进去,发现有两种登陆方式,一种是统一身份认证,一种是DB认证。 统一身份认证是需要通过学生的学号和密码进行登录的,利用谷歌语法可以搜索到相关学…

网络安全的威胁PPT

建议的PPT免费模板网站:http://www.51pptmoban.com/ppt/ 此PPT模板下载地址:https://file.51pptmoban.com/d/file/2023/03/20/1ae84aa8a9b666d2103f19be20249b38.zip 内容截图:

Python简单ORM实现:不使用元类的灵活数据操作与查询构建【第29篇—python:ORM】

文章目录 不使用元类的简单ORM实现Field类Compare类Model类Query类示例使用扩展查询功能支持 LIMIT 和 OFFSET支持 GROUP BY 和 HAVING 示例用法总结 不使用元类的简单ORM实现 在 Python 中,ORM(Object-Relational Mapping)是一种将对象和数…

什么是泛域名证书?有免费的吗?

泛域名证书(Wildcard SSL Certificate)是一种用于加密多个子域名的SSL证书。与传统的SSL证书只能覆盖单个域名或特定子域不同,泛域名证书具有更广泛的适用性,可以涵盖一个域名下的所有子域。 泛域名证书的主要特点是通配符&#x…

华为数通方向HCIP-DataCom H12-831题库(判断题:1-20)

第01题 为了加快IS-IS网络中链路故障的感知速度,可以将IS-IS与BFD联动 正确 错误 答案:正确 解析: OSPF和IS-IS都可以设置与BFD联动加速链路故障检测 ,使用BFD时,可以实现毫秒级别的链路切换,所以使用IS–IS与BFD联动,可以加快IS–IS的感知速度 第02题 在OSPF中ABR会将…

引入企业社区打造员工互动环境

作为一家富有活力和创新精神的企业,应始终致力于提供一个积极、紧密和互动的工作环境,以促进员工之间的合作与讨论。引入企业社区,打造了一个集积分商城、互动板块和意见箱等功能于一体的社区空间,旨在进一步加强企业内部的沟通与…

【Linux】各目录说明

【常见目录说明】 目录 /bin 存放二进制可执行文件(ls,cat,mkdir等),常用命令一般都在这里。 /etc 存放系统管理和配置文件 /home 存放所有用户文件的根目录,是用户主目录的基点,比如用户user的主目录就是/home/user,可以…

【css】渐变效果

css渐变效果 使用 CSS 渐变可以在两种颜色间制造出平滑的渐变效果。 用它代替图片,可以加快页面的载入时间、减小带宽占用。同时,因为渐变是由浏览器直接生成的,它在页面缩放时的效果比图片更好,因此你可以更加灵活、便捷的调整页…

Google的Ndk-Sample学习笔记之一(hello-jniCallback)

前言: 近段时间因为项目的需求,需要使用JNI,所以下载了Google的Ndk-Sample学习下,准备记录 下来,留给后期自己查看 问题点一:JNI_OnLoad方法必须返回JNI的版本 JNIEXPORT jint JNICALL JNI_OnLoad(JavaVM *vm, void *reserved) {JNIEnv *env;memset(&g_ctx, 0, sizeof(g_…

鸿蒙开发笔记(五):状态管理,组件状态管理 @State @Prop @Link

如果希望构建一个动态的、有交互的界面,就需要引入“状态”的概念。 在声明式UI编程框架中,UI是程序状态的运行结果,用户构建了一个UI模型,其中应用的运行时的状态是参数。当参数改变时,UI作为返回结果,也…

斯坦福 Stats60:21 世纪的统计学:第十五章到第十八章

第十五章:比较均值 原文:statsthinking21.github.io/statsthinking21-core-site/comparing-means.html 译者:飞龙 协议:CC BY-NC-SA 4.0 我们已经遇到了许多情况,我们想要询问样本均值的问题。在本章中,我们…

当前vscode环境下 多进程多线程运行情况探究

我的代码 其中在“打开图片时”、“进入子进程之前”、“子进程join前”、“进入子进程区域后”,“子进程join后”、“进入子线程区域后”分别打印了进程线程的编号和数量。 # -*- coding: utf-8 -*-# Form implementation generated from reading ui file test2.…

嵌入式-Stm32-江科大基于标准库的GPIO通用输入输出口

文章目录 一:GPIO输入输出原理二:GPIO基本结构三:GPIO位结构四:GPIO的八种模式道友:相信别人,更要一百倍地相信自己。 (推荐先看文章:《 嵌入式-32单片机-GPIO推挽输出和开漏输出》…

virtualbox Ubuntu 网络连接

一、网络连接需求1—— 上网: 虚拟机默认的NAT连接方式,几乎不需要怎么配置,即可实现上网。 enp0s17以太网必须要开启,才能上网; 但是主机ping不通虚拟机,貌似可以ping 127.0.0.1; 二、主机和虚拟机相互p…

机器学习算法实战案例:LSTM实现多变量多步负荷预测

文章目录 1 数据处理1.1 数据集简介1.2 数据集处理 2 模型训练与预测2.1 模型训练2.2 模型多步预测2.3 结果可视化 答疑&技术交流机器学习算法实战案例系列 1 数据处理 1.1 数据集简介 实验数据集采用数据集6:澳大利亚电力负荷与价格预测数据,包括…

FFmpeg 入门

1. 编译 参考文档:FFmpeg编译和集成(FFmpeg开发基础知识),重点注意这句话: 在MSYS2 Packages可以查到云仓库有哪些包,直接安装可节约大量时间。 注意:这个路径可自定义 吐槽 在看到这篇文章之前,花了大…

赋值运算符和关系运算符

赋值运算符和关系运算符 赋值运算符 分类 符号作用说明赋值int a 10, 将10赋值给变量a加后赋值a b,将a b的值赋值给a-减后赋值a - b,将a - b的值赋值给a*乘后赋值a * b,将a b的值赋值给a/除后赋值a / b,将a b的…

Java Chassis 3技术解密:注册中心分区隔离

原文链接:Java Chassis 3技术解密:注册中心分区隔离-云社区-华为云 注册中心负责实例的注册和发现,对微服务可靠运行起到举足轻重的作用。实例变更感知周期是注册中心最重要的技术指标之一。感知周期代表提供者的实例注册或者下线后&#xf…

uni书写TP6,环境7.3,随意二开,源码交付。APP小程序H5都有,UI美观

随着数字技术的迅猛发展和教育信息化的推进,智慧校园教务管理系统软件设计开发定制成为教育管理的重要举措。这样的系统可以利用先进的技术手段,提供全面的教务管理功能,提高教育管理的效率和质量。 课程管理:智慧校园教务管理系…

人力资源智能化管理项目(day01:基础架构拆解)

学习源码可以看我的个人前端学习笔记 (github.com):qdxzw/frontlearningNotes 觉得有帮助的同学,可以点心心支持一下哈 一、基础架构拆解 1.拉取模板代码 git clone GitHub - PanJiaChen/vue-admin-template: a vue2.0 minimal admin template 项目名 2.core-js…