在评估四种不同的嵌入技术(Conan-embedding-v1、demo_vector_bm25、nomic-embed-text_latest、xiaobu-embedding-v2)的效果时,考虑以下几个方面:
相关性:嵌入结果是否与查询高度相关。
多样性:嵌入结果是否涵盖了不同的信息维度。
信息量:嵌入结果是否提供了足够的信息来回答查询。
结构清晰度:嵌入结果是否易于理解和解析。
我的评价标准:(0-10分进行手动打分)
精确性:其中相似度最高的前两个检索结果能否符合问题要求
相关性:嵌入的所有结果是否与查询相关。
问答1:找博士学历候选人
问题:问博士学历,他不一定能判断出来,基于相似度可能找到的是学历,而不是博士
这个测试没有代表性,因为测试样本中博士比较少,没有显示出不同模型能力的差别。
demo(km25) | conan | xiaobu | nomic | bge-large | bge-m3 | |
精确性 | 3 | 3 | 2 | 2 | 3 | 3 |
相关性 | 2 | 2 | 2 | 2 | 2 | 2 |
总分 | 5 | 5 | 4 | 4 | 5 | 5 |
问答2:985高校硕士
问题:部分查不到985,只能检索高校,但不知道哪些高校是985
demo | conan | xiaobu | nomic | bge-large | bge-m3 | |
精确性 | 6 | 4 | 7 | 3 | 7 | 4 |
相关性 | 6 | 4 | 8 | 4 | 4 | 6 |
总分 | 12 | 8 | 15 | 7 | 11 | 10 |
问答3:211大学本科以上学历
问题:与985问题一样,而且211以上,也没有区分按道理985也应该能够找到。同样的问题还有“有大型企业工作经历”,怎样去定义大型?llm不理解
demo | conan | xiaobu | nomic | bge-large | bge-m3 | |
精确性 | 0 | 5 | 8 | 8 | 6 | 6 |
相关性 | 0 | 4 | 8 | 10 | 4 | 2 |
总分 | 0 | 9 | 16 | 18 | 10 | 8 |
问答4:国外留学背景
问题:国外留学背景,不能理解整个问题的意思,和国相关就去检索了,但是国和国外的检索差别很大,分词上。
demo | conan | xiaobu | nomic | bge-large | bge-m3 | |
精确性 | 1 | 5 | 8 | 5 | 0 | 5 |
相关性 | 0 | 4 | 4 | 0 | 4 | 2 |
总分 | 1 | 9 | 12 | 5 | 4 | 7 |
问答5:找流体力学专业
问题:demo按关键词搜索,在预估表现上并没有超过相似度检索的xiaobu和conan,可能问题的纯度比较高,相似度还是能够满足需求
demo | conan | xiaobu | nomic | bge-large | bge-m3 | |
精确性 | 8 | 8 | 8 | 5 | 8 | 6 |
相关性 | 6 | 6 | 8 | 4 | 4 | 4 |
总分 | 14 | 14 | 16 | 9 | 12 | 10 |
问答6:找计算机相关专业
问题:考取了计算机相关证书的也会检索到,然而他可能并不是计算机专业的。按关键词检索就会出问题,因为有些专业叫做高能物理计算。
demo | conan | xiaobu | nomic | bge-large | ||
精确性 | 1 | 7 | 7 | 0 | 8 | |
相关性 | 0 | 8 | 8 | 0 | 6 | |
总分 | 1 | 15 | 15 | 0 | 14 |
问答7:熟悉Python的
demo | conan | xiaobu | nomic | bge-large | ||
精确性 | 8 | 8 | 8 | 8 | 4 | |
相关性 | 4 | 6 | 6 | 6 | 6 | |
总分 | 12 | 14 | 14 | 14 | 10 |
问答8:有深度学习经验的
问题:虽然不能直接通过关键词检索到深度学习,但是相似度的检索还是占有优势,比如简历中提到卷积方法、tenserflow、yolo5
demo | conan | xiaobu | nomic | bge-large | ||
精确性 | 1 | 5 | 5 | 1 | 5 | |
相关性 | 0 | 2 | 6 | 0 | 4 | |
总分 | 1 | 7 | 11 | 1 | 9 |
问答9:有3年以上工作经验
问题:相似度检索整体相关性很好,但面对这种问题,不能理解整个问题的意思,只抽取部分词语去理解,经验——熟练掌握中英文。关键词就很好,因为一般简历会直接写几年工作经验。不过2.5年经验的也会被检索到。
相同的问题是“互联网行业经验”,如果一个关键词语在一整句问题中占的比例较少,基于相似度检索的效果就不佳
demo | conan | xiaobu | nomic | bge-large | ||
精确性 | 6 | 3 | 3 | 5 | ||
相关性 | 6 | 4 | 6 | 4 | ||
总分 | 12 | 7 | 9 | 9 |
问答10:有项目管理经验的
问题:相似度检索能从管理检索到主导这类的词语,相同语义的也能检索。
demo | conan | xiaobu | nomic | |
精确性 | 0 | 4 | 4 | 0 |
相关性 | 2 | 6 | 8 | 2 |
总分 | 2 | 10 | 12 | 2 |
问答11:有专利成果的
demo | conan | xiaobu | nomic | |
精确性 | 0 | 5 | 5 | 0 |
相关性 | 0 | 2 | 2 | 0 |
总分 | 0 | 7 | 7 | 0 |
问答12:有聚变行业经验
问题:简历测试文件比较少,聚变人才少,这个问题不太好测
demo | conan | xiaobu | nomic | |
精确性 | 0 | 0 | 0 | 0 |
相关性 | 0 | 0 | 0 | 0 |
总分 | 0 | 0 | 0 | 0 |
总结:
大部分场景相似度检索的效果更好,其中xiaobu效果最优。部分场景更适合用关键词检索,3年以上工作经验,但是也会漏了类似2012-2015这样的时间信息。
因此后续的检索效果提升准备用混合检索,80%的大模型+20%关键词检索。
多agent思路、交互速度(并行OCR解析)