一豪:Charles提到了一个关键点,就是RAG技术结合模型对非结构化数据的理解和搜索能力,甚至可以很好地架接在传统结构化数据的解决方案中。作为向量数据库的核心技术点,对数据本身特别是非结构化数据的向量化、精炼和压缩,我相信Zilliz等公司有很多独门技巧和技术积累。随着数据量的进一步爆炸,终端设备对多模态非结构化数据的收集量可能呈指数级增长,这种能力本身会对商业业务的成本控制产生最大影响。Charles能否谈谈你们在这方面的技术积累和看到的机会?
Charles:您提到的数据压缩、向量化、精炼等其实属于整个非结构化数据处理生态的范畴。如果把现代数据库企业定义为像Snowflake或Databricks那样,那么您说的数据向量化其实是新型非结构化数据的transformation,类似于传统数据的ETL(即 Extract提取、Transform 转换 和 Load 加载)过程。这个过程不应该是向量数据库厂商去做的领域。
Charles:在这一块我们会积极与生态企业合作。比如我们与上游大模型厂商合作,他们通常有embedding模型,可以将各种非结构化数据转化为向量数据的表达方式。我们也在与全球流行的数据处理框架如Fivetran(一个云端的全托管数据集成平台,专注于自动化ELT过程,可以自动处理增量数据复制、调度、负载均衡等任务,简化了数据工程师的工作)、DBT(一个开源