科技云报道:押注向量数据库,为时过早?

news2025/1/11 9:10:27

科技云报道原创。

在大模型的高调火热之下,向量数据库也获得了前所未有的关注。

近两个月内,向量数据库迎来融资潮,Qdrant、Chroma、Weaviate先后获得融资,Pinecone宣布1亿美元B轮融资,估值达到7.5亿美元。

东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超600亿人民币。

但是在这蒸蒸日上的发展态势下,向量数据库依然面临着不可忽视的挑战。

有声音认为,不必专门开发一款纯粹的向量数据库,而是可以在现有数据库的基础上添加一些层,赋予其向量检索的能力。更有业内人士认为,现在入局向量数据库可能并非合适的时机。

那么,向量数据库是否算得上AI时代的标配?其热度能维持到几时,此时押注后续又要挤出多少泡沫?

在这里插入图片描述

向量数据库 大模型的“海马体”

与传统数据库不同,向量数据库不依赖于结构化格式,而是将数据作为数学向量存储在高维空间中并对其进行索引。

这种方法被称为“向量化”,可以更有效地搜索相似性并更好地处理复杂的数据类型(图像、音视频、自然语言)。

某种程度上,向量数据库代表了数据存储和检索的范式转变。随着大模型的兴起,向量数据库的优势得以充分发挥,甚至有人将其视为AIGC成功的基石。

一种通俗的比方是,行业内将大模型称为“大脑”,向量数据库则是其“海马体”。

目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知,第一是没有实时的数据,第二是缺乏私域数据或者企业数据。

向量数据库可以通过存储最新信息或者企业数据有效弥补了这些不足,让大模型突破在时间和空间上的限制,加速大模型落地行业场景。

同时,通过向量数据的本地存储,还能够协助解决目前企业界最担忧的大模型泄露隐私的问题。

不过值得一提的是,向量技术并不新鲜,早在ChatGPT横空出世之前,向量数据库非常小众。前文提到的两家初创公司Pinecone和Weaviate都成立于2019年,但此前无论是融资还是营收都是乏善可陈的状态。

Pinecone联合创始人兼首席执行官Edo Liberty曾坦率地提到,如果没有ChatGPT的出现,我们根本不可能获得巨额融资。

软件服务初创公司Heltar的创始人Avyukt Aggarwal也谈到,AIGC的爆火成就了向量数据库。

“每次淘金热都会有人卖铲子。对于生成式AI,铲子是什么?向量数据库。几乎每一个LLM支持的应用程序都在使用它们或即将使用它们。”

向量数据库 有必要走向专业化吗?

向量数据库系统的诞生,来源于具体业务需求——想要高效处理海量的向量数据,就需要更细分、更专业的数据基础设施,为向量构建专门的数据库处理系统。

但这种路径是必须的吗?

从产品层面讲,如果传统数据库厂商不单独研发向量数据库,那么基本上会主张支持原生的向量词嵌入和向量搜索引擎。

向量数据库市场的阵营,在ChatGPT影响之前就已经在形成分化,既包括提供开源组件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商业化服务产品Pinecone,再到大厂谷歌推出的Vertex AI匹配引擎,数据库厂商Elastic和Redis基于自身提供的向量检索功能等等。

这其实也表明了当前向量数据库市场存在的两种路线:

一个是基于分析数据库的向量化执行引擎,英文是Vectorization,这是学术界2013年提出的名词,如Clickhouse、Spark引擎,是一种新型的执行方式,用于处理传统的结构化数据如表单等,更多的是结构化数据分析数据里面做并行执行的一种方式,在新型的处理芯片上进行处理。

另一个则是推出向量数据库(Vector Database),本质上处理的是AI领域的一类新型数据类型,例如对多模数据的处理,相比其他的向量检索技术在检索速度和精准性上都有了一个很高的提升。

后者的做法也基本在几家主流云厂商如亚马逊云、阿里云上能够看到,而这些云平台应用市场也会提供给这些第三方向量数据库企业进行托管。

例如,阿里云开发的内存数据库Tair,在兼容Redis生态的同时,也具备向量检索能力,实现缓存+向量二合一,已经投入在电商等场景。

有业内人士认为,对于简单的用户和场景来说,在传统数据库上添加一个向量分层来满足技术发展需求,这种方法是可行的。

然而,考虑到 AI 场景和产业需求,情况可能有所不同。AI领域的迭代非常快,随着数据量和应用场景的增加,传统数据库可能不再适用于高要求的计算密集型场景,向量数据库可能才是最终的解决方案。

押注向量数据库 挑战颇多

作为今年以来的热门技术赛道,向量数据库已吸引了大量厂商和创业团队入场,先发者与后来者,老牌厂商与新生力量之间的竞争正在持续升温。

但值得注意的是,向量数据库真的值得厂商全力投入吗?

在《为什么你不应该投资向量数据库?》一文中,吴英骏表示,现在入局向量数据库可能并非合适的时机。其理由主要集中于以下几点:

其一,先发优势明显。目前向量化技术目前已十分成熟,并存在大量开源解决方案,在不同的领域也存在不同的向量化方案,潜在用户可以很容易地在现有市场中找到合适的选择。

其二,需求层次不同。如果一家公司已经采用了Elastic,Redis,SingleStore或Rockset等商业数据库,并且不需要高度先进的向量搜索功能,则可以充分利用这些数据库的现有功能。

尽管在向量数据处理方面的表现不如专业的向量数据库,但依然可以满足多数用户的一般要求。

其三,技术在不断前进。随着数据库领域技术的进步,越来越多的数据库会考虑纳入向量搜索功能,以满足当前用户群的需求。对于目前缺乏向量搜索功能的数据库,实现这些功能或许只是时间问题。

也有声音认为,相较于大模型的高调火热,向量数据库仍然靠近底层,并没有达到真正意义上的全民皆知,向量数据库更多时候是需要集成到其他平台或云上被销售。

而从需求端看,过去向量检索还主要聚焦于机器学习和数据挖掘领域,通过高效的数据存储和查询工具,使得相似性搜索和聚类分析成为可能。

在推荐系统中,向量数据库助力个性化推荐,根据用户兴趣和商品相似性,呈现给用户最贴切的推荐结果。

简言之,“与其投资新的向量数据库项目,不如集中精力于现有数据库,并探索利用向量引擎增强这些数据库的机会,使其更加健壮和强大”。

结语

无论如何,在技术的快速迭代下,数据库市场的持续扩张是不可避免的。当前存在着大量的需求,将吸引越来越多的数据库甚至向量数据库加入竞争。

不过从长远来看,向量数据库的市场需求尚处于初期,中远期规模尚难以预估。在若干轮优胜劣汰之后,我们或许才能看清谁是真正的执棋者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1068015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小谈设计模式(22)—单例模式

小谈设计模式(22)—单例模式 专栏介绍专栏地址专栏介绍 单例模式点睛所在优缺点分析优点确保只有一个实例全局访问点节省资源线程安全 缺点难以扩展对象的生命周期单一职责原则隐藏依赖关系 Java程序实例实例a分析实例b,更安全分析优化 ——“…

Git 学习笔记 | Git 基本理论

Git 学习笔记 | Git 基本理论 Git 学习笔记 | Git 基本理论Git 工作区域Git 工作流程 Git 学习笔记 | Git 基本理论 Git 工作区域 Git本地有三个工作区域:工作目录(Working Directory)、暂存区(Stage/Index)、资源库(Repository或Git Direc…

【Kubernetes】当K8s出现问题时,我们可以从哪些方面排查出

前言 kubernetes,简称K8s,是用8代替名字中间的8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kub…

高级 I/O【Linux】

阅读前导: “高级 I/O”处于知识树中网络和操作系统的最后,因此本文默认读者有计算机网络和操作系统的基础。 1. 什么是 I/O 下面以“流”(stream)和冯诺依曼体系架构的视角来简单回顾一下什么是 I/O: I/O可以理解…

bin-editor-next实现josn序列化

线上链接 BIN-EDITOR-NEXThttps://wangbin3162.gitee.io/bin-editor-next/#/editor gitee地址bin-editor-next: ace-editor 的vue3升级版本https://gitee.com/wangbin3162/bin-editor-next#https://gitee.com/link?targethttps%3A%2F%2Funpkg.com%2Fbin-editor-next%2F 实现…

规则引擎(JVS-rules):从应用到场景的全面解析

JVS-RULES规则引擎是一款可视化的业务规则设计器,它的核心功能在于可集成多种数据源,包括多种类型数据库和API,将数据进行界面可视化的加工处理后,形成策略节点所需要的各种变量,然后通过规则的可视化编排,…

2.3 物理层下面的传输媒体

思维导图: 前言: 2.3 物理层下的传输媒体 --- **传输媒体概述**: 传输媒体,又称传输介质或传输媒介,它是连接发送器与接收器之间的物理路径,扮演着在这两者之间传递数据的角色。 --- **分类**&#x…

李宏毅 2022机器学习 HW3 boss baseline 上分记录

作业数据是所有数据都有标签的版本。 李宏毅 2022机器学习 HW3 boss baseline 上分记录 1. 训练数据增强2. cross validation&ensemble3. test dataset augmentation4. resnet 1. 训练数据增强 结论:训练数据增强、更长时间的训练、dropout都证明很有效果&…

Gooxi全面拥抱AIGC时代,让智慧算力触手可及

8月31日凌晨,百度正式宣布文心一言全面对外开放,打响了国内大模型上线的第一枪,紧接着五家国内大模型相继对外开放。当前AIGC已经成为业内竞相追逐的热点与重构产业生产力的关键,在生物医药、材料分析、自动驾驶、元宇宙等领域已逐…

兼容性测试的定义和目标是什么

兼容性测试是通过在各种操作系统、浏览器、设备等多样化环境下测试软件,以验证其在这些环境中的稳定性和一致性。兼容性测试的目标是确保软件在不同平台上具有一致的功能、性能和用户体验,以满足广大用户的需求。 一、兼容性测试的定义和目标 兼容性测试…

进程间通信-信号概述

一、信号的概念 信号是一种进程间通信的机制,用于在软件层面上对异步事件进行通知。信号通常是由操作系统或其他进程发送给目标进程的一种通知,以指示发生了某种事件或条件。这样的事件可能包括硬件异常、用户输入、定时器到期、子进程状态变化等。 引发…

C# OpenCvSharp 实现迷宫解密

效果 项目 代码 using OpenCvSharp; using System; using System.Drawing; using System.Windows.Forms;namespace OpenCvSharp_实现迷宫解密 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e…

Python实现AES算法和国密SM4算法

本文主要介绍使用AES加密算法的Python实现和shell脚本实现、SM4国密算法的Python实现。Python使用pycryptodome实现AES加解密、使用GmSSL实现SM4加解密算法;Shell脚本使用openssl实现AES加解密,详细见下文。 1、Python实现加密和解密 1.1 Python实现AES…

最新AI创作系统源码ChatGPT网站源码V2.6.3/支持Midjourney绘画/支持OpenAI GPT全模型+国内AI全模型

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统,支持OpenAI GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署AI创作Chat…

《人间失格》阅读笔记

《人间失格》读书笔记 2023年10月7日读完,在过去的三个月时间内,有忙碌申博、从杭州辞职回家、准备入学、到澳门入学的事情,终于忙完了这些所有事情,回到了横琴的小房子里读完了这本书。 这本书前半部分讲了主角,作为…

香港Web3.0生态现状

目前香港Web3.0生态正在快速发展。香港政府和金融机构正在积极推动Web3.0生态的建设,以推动数字经济和智慧城市的发展。香港政府已经发布了有关虚拟资产发展的政策宣言,鼓励和监管并重,加大力度推动虚拟资产产业向前发展。同时,香…

【用unity实现100个游戏之14】Unity2d做一个建造与防御类rts游戏

前言 欢迎来到本次教程,我将为您讲解如何使用 Unity 引擎来开发一个建造与防御类 RTS(即实时战略)游戏。 在本教程中,我们将学习如何创建 2D 场景、设计 2D 精灵、制作 2D 动画、响应用户输入、管理游戏数据、以及其他有关游戏开…

聊聊分布式架构——BIO到NIO的演进

目录 I/O I/O模型 BIO示例 BIO与NIO比较 NIO的三大核心 NIO核心之缓冲区 Buffer常用子类: Buffer常用API Buffer中的重要概念 NIO核心之通道 FileChannel 类 FileChannel常用方法 NIO核心之选择器 概述 应用 NIO非阻塞原理分析 服务端流程 客户端…

【Java8】线程问题排查分析

文章目录 thread dump简介JDK 工具jstackjattachjvisualvm Java程序CPU消耗较高,怎么快速看出是那个线程导致的呢?我们可以使用命令 jstack/jattach来快速定位问题 thread dump简介 thread dump 是 Java 进程的所有线程状态的快照。每个线程的状态都通过…

java基础-第1章-走进java世界

一、计算机基础知识 常用的DOS命令 二、计算机语言介绍 三、Java语言概述 四、Java环境的搭建 JDK安装图解 环境变量的配置 配置环境变量意义 配置环境变量步骤 五、第一个Java程序 编写Java源程序 编译Java源文件 运行Java程序 六、Java语言运行机制 核心机制—Java虚拟机 核…