大数据产业创新服务媒体
——聚焦数据 · 改变商业
理解、生成、逻辑、记忆是人工智能的四大核心能力。
一段人类的日常对话通常可以分解为引子、记忆、分析三个部分。计算机自然语言处理的解法,AI科学家归纳出一个CPV结构:以ChatGPT为代表的大模型承担“分析”,Vector Database(向量数据库)承担“记忆”,Prompt(提示词)承担“引子”。
向量数据库,正是计算机记忆体一般的存在。AI 2.0时代,一度落寞的向量数据库又一次站在技术最前沿,成为数据库厂商竞相投入研发的对象。
向量数据库,一个计算机超级大脑
向量数据库处理和存储音频、视频、图像等非结构化数据,通过向量嵌入实现相似度检索、模糊匹配,输出概率上最符合条件的答案,在大模型兴起之前便已广泛应用于以图搜图、哼歌识曲等场景。
作为一个超级记忆体,向量数据库可以解决大模型预训练成本高、无长期记忆、知识更新不足的问题,突破大模型在时间上、空间上的限制,加速大模型落地于行业场景。正因为如此,ChatGPT横空出世之后,向量数据库也火爆出圈,成为资本竞逐的对象。
2023年4月,向量数据库厂商Qdrant、Chroma、Weaviate、Pinecone相继获得融资,其中Pinecone融资1亿美元。国内上市公司星环科技、云创数据也经历一波股价上涨。
7月,腾讯云正式发布向量数据库Tencent Cloud VectorDB。9月,国产数据库“老四家”之一的GBASE南大通用在天津软博会期间发布向量数据库GBase Cloud Vector DB。向量数据库与大模型结合,正成为一个超级大脑,将AI 2.0时代引向深入。
GBase向量数据库,支持大模型应用
南大通用的向量数据库GBase Cloud Vector DB在GBase 8a集群架构的基础上开发,一方面继承了GBase 8a高可用、高扩展性性、高安全性的特性,另一方面又通过存储数据向量、使用相似度度量,实现向量数据库的功能。
向量数据库GBase Cloud Vector DB采用存算分离架构,各层均可独立扩展,协调服务层拥有express引擎和向量引擎,存储服务层增加向量类型和索引的存储文件,计算服务层增加向量类型计算支持和向量类常用索引检索算法。整个分布式集群系统既可支持业务职能、报表分析、决策支持等传统分析业务,又可应对图像处理、推荐系统、自然语言处理和机器学习等向量数据业务。
据南大通用董事长丁明峰介绍,向量数据库GBase Cloud Vector DB可处理大规模高维度的向量数据,支持2048维度以上浮点型向量数据的存储和相似度检索,可广泛应用于自然语言处理、图像检索和视频分析等使用场景。GBase Cloud Vector DB可与大模型结合,提升大模型的数据时效性,为大模型提供私域下的专业数据,让大模型拥有长期记忆储存和专业领域知识。
南大通用,打进金融、电信核心系统
2004年成立的南大通用总部位于天津,是国内最早创立的独立数据库厂商之一,与达梦数据、人大金仓、神舟通用并称为国产数据库四朵金花。
经过二十年的发展,南大通用一方面保持交易型数据库、分析型数据库的国内领先水平,另一方面又紧跟云化、分布式等技术演进趋势,不断推出数据库产品。向量数据库GBase Cloud Vector DB的推出,正是南大通用不断创新、持续迭代的又一例证。
数据库与操作系统、中间件并列为三大基础软件,是基础软件皇冠上的明珠。作为第一批国家级专精特新小巨人企业,南大通用一直专注于数据库基础软件研发,产品核心技术、底层代码自主可控。在国家信创产业迅猛发展的大背景下,南大通用与其它国产数据库厂商一起,致力于国产软件生态建设,加快重点行业的国产化替代。
通过构建涵盖数据管理全生命周期、全技术栈的数据产品体系,南大通用在自主研发的GBase系列数据库基础上推出场景化解决方案,为客户量身定制数据库产品和服务。据丁明峰介绍,南大通用的数据库产品已在金融、电信等行业的核心系统实现规模化应用。
文:Bugle-X / 数据猿