自今年大模型趋势发生以来,向量数据库领域备受关注。
今年3月以后,多家向量数据库厂商拿下最新融资,其中Pinecone更是获得高达1亿美元的B轮融资。
腾讯云当然也注意到了这一趋势。
腾讯云数据库副总经理罗云表示,当时内部已经开始讨论,随着AI趋势演进是否需要有一个单独workload的向量数据库去对外提供服务?
要知道,向量检索其实非常消耗CPU和内存资源。随着使用向量数据库的workload越来越大,插件式的数据库会面临一些挑战。
如果能把LTP(语言技术平台)流量扩增和向量流量扩增的资源分开,能让企业更加精细化管理自己的资源,从而降低成本。
因此腾讯云认为这种Purpose-built(专用)向量数据库会越来越重要。
而且在那个时间点,内部已经有了一个比较明确的判断:
腾讯云在多年的积累下,对外提供一个更大规模的向量数据库产品,是有优势的。
为什么这么说?
有两方面原因。
对内,腾讯云并非是从0到1开始做向量数据库;对外,市场需求已经非常明显,而且会越来越大。
内因方面,腾讯云向量数据库从2019年开始在内部进行孵化,集成了业内以及腾讯自研的大量优秀算法,其能力已在内部多项业务中得到充分验证,并且积累了比较丰富的实践经验。
腾讯云向量数据库依托于腾讯内部的分布式向量数据库引擎Olama(原名ElasticFaiss)。
腾讯PCG大数据平台部搜索推荐Senior Tech Lead郑伟介绍,Olama目前负责处理腾讯集团每日千亿次检索,在内部海量场景的实践下,数据接入AI的效率也比传统方案提升10倍,运行稳定性达99.99%。
其向量化能力(embedding)在2021年登顶MS MARCO 榜单第一,相关成果已发表在NLP顶会ACL。
而在Olama的最新升级中,还针对成本、稳定性、自动化等方面做出更大提升。
目前,Olama已经应用在了多个腾讯内部业务上,如腾讯视频、QQ浏览器、QQ音乐等30款产品中。
数据显示,使用腾讯云向量数据库后,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%。
以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。
而在外因方面,不仅是看到了向量数据库领域的发展趋势,腾讯云认为在这一方面云厂商也有一定自身优势。
罗云表示,出于对数据的重视,国内企业在选择数据类产品服务时,会希望能更加稳定、长久。
那么在国内的To B决策链条里,公有云厂商提供自己相应的技术服务,会很有竞争力。
据东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。
腾讯云的动向,代表了云厂商在向量数据库方面的发力。
而除此之外,我们也看到Zilliz在内的向量数据库厂商,陆续面向大模型进行产品更新和升级。以及一些老牌数据库厂商(如甲骨文)也在发布AI相关业务。
而目前行业尚处于一个比较早期的阶段,未来趋势如何发展,还要看各方厂商的具体动向了。
但总之,在大模型趋势推动下,向量数据库领域还在不断升温。