大模型的数据供血系统-向量数据库常识科普

1. 数据库行业有了新动向

对于传统数据库研发运维来说，数据库行业上次有概念创新，还是十几年前的NoSQL……

在AI大行业发展的推进下，向量数据库成为了最新兴的数据库技术趋势，业内多家开源向量数据库都拿到了高额融资，腾讯云等多家云厂商，也在将自用的向量数据库包装云化推广给客户。

附录：这个行业的大新闻时间轴

大部分研发和运维工程师从未接触过向量数据，也更未了解过向量数据库；但是各种大模型和生成式AI技术，都会用到向量数据库。笔者趁着腾讯云发布向量数据库产品的机会，向相关领域技术大牛进行了多次讨教学习，给不了解向量数据库的读者们做一次公益科普。

科普的开篇，读者首先弄清楚一个问题，什么是向量数据，向量数据和大模型有什么关系。

“向量-Vector”虽然高中课本就学过，但是计算机领域、大模型领域使用的向量还是和数学向量有点区别。所以本文先举3个向量数据的例子，再举1个向量计算的例子。

举例1：简单向量数据。这个例子就是各种一维数组，类似于各种xy轴、xyz轴的数组。

a=[0.5, 0.3] b=[0.33, -0.59, 0.6] c=[25, 105, -60]

## 常规向量并不限制数值的范围，但是各种AI词嵌入产生的向量一般都是负1到正1之间的偏移量。

举例2：多维矩阵向量数据，无论是描述一堆复杂的东西还是渲染图像，都可以用这个矩阵向量来描述。

举例3：词向量数据，通过向量数值的距离，说明了两者的关联性。这个例子图省事我随便写了3个参数，生产环境中用词嵌入（Embedding）的方式生成带几百个到几十万个维度的词向量。

举例4：基于上文的向量数据样例，对下列三句话做相似性运算，找到语义最相近的两句话。

例句A：因为玫瑰花，她很开心。

例句B：因为漂亮的花，她很开心。

例句C：因为东西不贵，她很开心。

标准答案：例句A和例句B相似度最高。

从这四个例子就能看出来，面向AIGC和大模型的向量数据并不是结构化数据，这些数据也需要新的检索和运算方法。向量化的数据，可以完成图片、语音、文本的相似性的搜索，并据此完成推荐系统和问答系统。

3. 向量数据是大模型的供血系统

虽然很多科普文章将向量数据库当做大模型的记忆体，但我更愿意称呼向量数据库是大模型的供血系统。大脑管理记忆的运作机制太难解释了，用食物营养和血液的关系打比方，会更通俗易懂。

人类吃食物的过程，需要经历消化、存储和使用的过程，食物首先会被消化系统分解成葡萄糖，葡萄糖既要通过血液循环系统送到肝脏储存，也要通过血液循环系统传递给各种急需葡萄糖的人体器官。

大模型要做模型训练，也不是硬解原始文字或者原始图片，而是和人类吃饭类似，也有个消化、存储和使用的操作逻辑。向量数据库在整个大流程中，发挥的就是血液循环系统的作用。

1.消化数据：大模型应用需要通过数据标注、文本分段、词嵌入等方法，将原始文件分解成向量数据。这一段数据消化工作和本文关注的数据库工作无关，我们只要知道，在此环节开始产生了向量数据。
2.存储数据：向量数据比原始数据更“精粹”，在大部分情况下也比原始数据更重要，这些向量数据应该存储在一个专用的数据库里，这个数据库需要提供稳妥的存储保障，也需要保障数据读取写入时的高性能。
3.使用数据：大模型做脱机训练时，需要大批量读取数据库内大部分向量信息；大模型做业务推演时，可能需要快速补充新闻、知识库、热点信息，此时就需要快速检索定位到具体向量信息；其他应用程序（比如知识图谱）需要依赖向量数据库的数据分析能力，完成向量对比等工作。