我认为"AI 向量数据库"这个概念非常切合实际,它类似于关系数据库在交易领域的作用。个人观点是,向量数据库实际上是为了人工智能而生的。一方面,向量数据库的数据完全源自于人工智能技术。另一方面,对于 AI 应用而言,向量数据库也是至关重要的基础设施。
至于和我们日常理解的数据库有何不同,我简单解释一下。传统数据库主要处理数值和字符类型的数据,通常是高质量的关系型表。当然,现在也有许多处理半结构化数据(如 JSON 数据)的数据库,例如 MongoDB、Elasticsearch 等。然而,这些数据的语义通常只表现在表面,没有深层次的含义。
向量数据库则与众不同,它处理的是非结构化数据,如图片、视频、长文本和音频等。这些数据的意义不在于其物理表示,并不仅仅是一堆字节,真正有意义的地方在于隐藏的语义。
与传统数据库不同,我们无法通过数据库直接处理语义问题。那么,数据库如何解决这个问题呢?我们采用了 AI 技术,例如典型的神经网络,来识别、提取和编码非结构化数据背后的语义特征。最终,我们将这种数据的语义映射或嵌入到高维的向量空间中。这样做有什么好处呢?这实际上将数据库无法直接处理的语义问题,转化为向量空间中的一个搜索问题。简而言之,我们利用 AI 技术将数据库无法直接处理的数据背后的语义转化为一个结构化的过程。