01.
简介
在此前发布的文章(https://zilliz.com/learn/sparse-and-dense-embeddings)中,我们探析了当前稠密 Embedding 模型的架构,并介绍了 sentence-transformers 库的一些基础用法。虽然通过 sentence-transformers 可以使用众多预训练模型,但这些模型几乎都采用了与原始 SBERT 模型相同的架构——在 transformer 编码器上进行汇总特征的训练,并使用掩码语言模型(Masked Language Modeling,MLM)。
从构建应用的角度出发,选择一个合适的文本 Embedding 模型至关重要。这种选择通常依赖于应用的具体需求。本文将探讨选择模型时需要考虑的一些关键因素。同时,我们还将介绍如何使用 Arize Phoenix 和 Ragas 来评估不同的文本 Embedding 模型。
02.
考量因素
现在,大多数应用都在使用 OpenAI 的