ModaHub魔搭社区:那这种传统的数据库加向量插件的方式和 AI native 的向量数据库两者之间的区别是什么?做 AI native 的向量数据库有哪些技术难点?
李莅:向量检索算法是向量领域最核心的技术挑战。目前,主流的算法是基于图的算法,部分算法可以使用倒排索引等算法,并结合一些量化技术来降低成本。如果能够自主优化该算法,将会成为核心技术,例如,通过优化算法可以提高性能或吞吐量,这是第一层技术挑战。社区已经对此进行了很好的处理,但真正具备这方面能力的公司很少。
第二层技术挑战是与具体的系统相结合。因为算法需要依托于一个工程实现。这个工程实现通常会选择基于数据库或从头实现一个框架。这个框架的选择会对整体性能产生影响,因此也存在技术挑战。
如果基于已有的开源系统,成本会降低很多,例如直接在 ElasticSearch 或 Redis 上进行开发。因此,许多研究人员会选择成熟的系统来解决工程问题,并且会考虑使用开源社区的引擎。这样,他们可以更专注于开发应用程序和生态系统,例如与 AI 生态系统、长期存储进行对接,或者开发更多的案例以及上下游工具。因此,技术挑战主要包括两个方面:算法和后端的系统。