向量数据库技术全景
经过长期的内部探索和优化,抖音采用的向量数据库产品结构如下图所示:基于云基础设施,提供经过深度打磨和优化的各个引擎,提供从多模态数据写入,到向量生成,再到在线检索,以及上线后的弹性调度和监控的一整套全链路解决方案。
火山引擎向量数据库的场景化落地实践
经过抖音集团内部的技术实践,向量数据库目前已经覆盖50+的业务线,基本支撑了内部所有的向量检索场景,比如抖音、头条、懂车帝、图虫、火山引擎Oncall智能问答和剪映等,主要的业务场景包括智能搜索、AIGC跨模态检索、推荐和去重、智能问答、相关排序、聚类分析和数据挖掘等,并且多个场景库规模达百亿级别。
下面以图虫和火山引擎Oncall智能问答为例,展示向量数据库的应用实践。
● 智能搜索场景——图虫的以图搜图
图虫提供了以图搜图的能力,致力于为用户提供正版素材内容及数字资产管理解决方案。目前,图虫创意在库图片量4.6亿、高清视频超2000万条,每天有大量用户来搜索、查询图片和视频。亿级海量数据对向量检索服务能力提出更高要求,业务如何灵活的设置分片,当数据量大幅增加时又如何避免重新部署集群,加快索引构建、节约