不同的embedding技术效果评价

news2026/2/15 2:29:26

在评估四种不同的嵌入技术（Conan-embedding-v1、demo_vector_bm25、nomic-embed-text_latest、xiaobu-embedding-v2）的效果时，考虑以下几个方面：

相关性：嵌入结果是否与查询高度相关。

多样性：嵌入结果是否涵盖了不同的信息维度。

信息量：嵌入结果是否提供了足够的信息来回答查询。

结构清晰度：嵌入结果是否易于理解和解析。

我的评价标准：(0-10分进行手动打分)

精确性：其中相似度最高的前两个检索结果能否符合问题要求

相关性：嵌入的所有结果是否与查询相关。

问答1：找博士学历候选人

问题：问博士学历，他不一定能判断出来，基于相似度可能找到的是学历，而不是博士

这个测试没有代表性，因为测试样本中博士比较少，没有显示出不同模型能力的差别。

	demo(km25)	conan	xiaobu	nomic	bge-large	bge-m3
精确性	3	3	2	2	3	3
相关性	2	2	2	2	2	2
总分	5	5	4	4	5	5

问答2：985高校硕士

问题：部分查不到985，只能检索高校，但不知道哪些高校是985

	demo	conan	xiaobu	nomic	bge-large	bge-m3
精确性	6	4	7	3	7	4
相关性	6	4	8	4	4	6
总分	12	8	15	7	11	10

问答3：211大学本科以上学历

问题：与985问题一样，而且211以上，也没有区分按道理985也应该能够找到。同样的问题还有“有大型企业工作经历”，怎样去定义大型？llm不理解

	demo	conan	xiaobu	nomic	bge-large	bge-m3
精确性	0	5	8	8	6	6
相关性	0	4	8	10	4	2
总分	0	9	16	18	10	8

问答4：国外留学背景

问题：国外留学背景，不能理解整个问题的意思，和国相关就去检索了，但是国和国外的检索差别很大，分词上。

	demo	conan	xiaobu	nomic	bge-large	bge-m3
精确性	1	5	8	5	0	5
相关性	0	4	4	0	4	2
总分	1	9	12	5	4	7

问答5：找流体力学专业

问题：demo按关键词搜索，在预估表现上并没有超过相似度检索的xiaobu和conan，可能问题的纯度比较高，相似度还是能够满足需求

	demo	conan	xiaobu	nomic	bge-large	bge-m3
精确性	8	8	8	5	8	6
相关性	6	6	8	4	4	4
总分	14	14	16	9	12	10

问答6：找计算机相关专业

问题：考取了计算机相关证书的也会检索到，然而他可能并不是计算机专业的。按关键词检索就会出问题，因为有些专业叫做高能物理计算。

	demo	conan	xiaobu	nomic	bge-large
精确性	1	7	7	0	8
相关性	0	8	8	0	6
总分	1	15	15	0	14

问答7：熟悉Python的

	demo	conan	xiaobu	nomic	bge-large
精确性	8	8	8	8	4
相关性	4	6	6	6	6
总分	12	14	14	14	10

问答8：有深度学习经验的

问题：虽然不能直接通过关键词检索到深度学习，但是相似度的检索还是占有优势，比如简历中提到卷积方法、tenserflow、yolo5

	demo	conan	xiaobu	nomic	bge-large
精确性	1	5	5	1	5
相关性	0	2	6	0	4
总分	1	7	11	1	9

问答9：有3年以上工作经验

问题：相似度检索整体相关性很好，但面对这种问题，不能理解整个问题的意思，只抽取部分词语去理解，经验——熟练掌握中英文。关键词就很好，因为一般简历会直接写几年工作经验。不过2.5年经验的也会被检索到。

相同的问题是“互联网行业经验”，如果一个关键词语在一整句问题中占的比例较少，基于相似度检索的效果就不佳

	demo	conan	xiaobu	nomic	bge-large
精确性	6	3	3	5
相关性	6	4	6	4
总分	12	7	9	9

问答10：有项目管理经验的

问题：相似度检索能从管理检索到主导这类的词语，相同语义的也能检索。

	demo	conan	xiaobu	nomic
精确性	0	4	4	0
相关性	2	6	8	2
总分	2	10	12	2

问答11：有专利成果的

	demo	conan	xiaobu	nomic
精确性	0	5	5	0
相关性	0	2	2	0
总分	0	7	7	0

问答12：有聚变行业经验

问题：简历测试文件比较少，聚变人才少，这个问题不太好测

	demo	conan	xiaobu	nomic
精确性	0	0	0	0
相关性	0	0	0	0
总分	0	0	0	0

总结：

大部分场景相似度检索的效果更好，其中xiaobu效果最优。部分场景更适合用关键词检索，3年以上工作经验，但是也会漏了类似2012-2015这样的时间信息。

因此后续的检索效果提升准备用混合检索，80%的大模型+20%关键词检索。

多agent思路、交互速度（并行OCR解析）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2277411.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！