不同的embedding技术效果评价

news2025/1/16 6:33:48

在评估四种不同的嵌入技术(Conan-embedding-v1、demo_vector_bm25、nomic-embed-text_latest、xiaobu-embedding-v2)的效果时,考虑以下几个方面:

相关性:嵌入结果是否与查询高度相关。

多样性:嵌入结果是否涵盖了不同的信息维度。

信息量:嵌入结果是否提供了足够的信息来回答查询。

结构清晰度:嵌入结果是否易于理解和解析。

我的评价标准:(0-10分进行手动打分)

精确性:其中相似度最高的前两个检索结果能否符合问题要求

相关性:嵌入的所有结果是否与查询相关。

问答1:找博士学历候选人

问题:问博士学历,他不一定能判断出来,基于相似度可能找到的是学历,而不是博士

这个测试没有代表性,因为测试样本中博士比较少,没有显示出不同模型能力的差别。

demo(km25)

conan

xiaobu

nomic

bge-large

bge-m3

精确性

3

3

2

2

3

3

相关性

2

2

2

2

2

2

总分

5

5

4

4

5

5

问答2:985高校硕士

问题:部分查不到985,只能检索高校,但不知道哪些高校是985

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

6

4

7

3

7

4

相关性

6

4

8

4

4

6

总分

12

8

15

7

11

10

问答3:211大学本科以上学历

问题:与985问题一样,而且211以上,也没有区分按道理985也应该能够找到。同样的问题还有“有大型企业工作经历”,怎样去定义大型?llm不理解

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

0

5

8

8

6

6

相关性

0

4

8

10

4

2

总分

0

9

16

18

10

8

问答4:国外留学背景

问题:国外留学背景,不能理解整个问题的意思,和国相关就去检索了,但是国和国外的检索差别很大,分词上。

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

1

5

8

5

0

5

相关性

0

4

4

0

4

2

总分

1

9

12

5

4

7

问答5:找流体力学专业

问题:demo按关键词搜索,在预估表现上并没有超过相似度检索的xiaobu和conan,可能问题的纯度比较高,相似度还是能够满足需求

demo

conan

xiaobu

nomic

bge-large

bge-m3

精确性

8

8

8

5

8

6

相关性

6

6

8

4

4

4

总分

14

14

16

9

12

10

问答6:找计算机相关专业

问题:考取了计算机相关证书的也会检索到,然而他可能并不是计算机专业的。按关键词检索就会出问题,因为有些专业叫做高能物理计算。

demo

conan

xiaobu

nomic

bge-large

精确性

1

7

7

0

8

相关性

0

8

8

0

6

总分

1

15

15

0

14

问答7:熟悉Python的

demo

conan

xiaobu

nomic

bge-large

精确性

8

8

8

8

4

相关性

4

6

6

6

6

总分

12

14

14

14

10

问答8:有深度学习经验的

问题:虽然不能直接通过关键词检索到深度学习,但是相似度的检索还是占有优势,比如简历中提到卷积方法、tenserflow、yolo5

demo

conan

xiaobu

nomic

bge-large

精确性

1

5

5

1

5

相关性

0

2

6

0

4

总分

1

7

11

1

9

问答9:有3年以上工作经验

问题:相似度检索整体相关性很好,但面对这种问题,不能理解整个问题的意思,只抽取部分词语去理解,经验——熟练掌握中英文。关键词就很好,因为一般简历会直接写几年工作经验。不过2.5年经验的也会被检索到。

相同的问题是“互联网行业经验”,如果一个关键词语在一整句问题中占的比例较少,基于相似度检索的效果就不佳

demo

conan

xiaobu

nomic

bge-large

精确性

6

3

3

5

相关性

6

4

6

4

总分

12

7

9

9

问答10:有项目管理经验的

问题:相似度检索能从管理检索到主导这类的词语,相同语义的也能检索。

demo

conan

xiaobu

nomic

精确性

0

4

4

0

相关性

2

6

8

2

总分

2

10

12

2

问答11:有专利成果的

demo

conan

xiaobu

nomic

精确性

0

5

5

0

相关性

0

2

2

0

总分

0

7

7

0

问答12:有聚变行业经验

问题:简历测试文件比较少,聚变人才少,这个问题不太好测

demo

conan

xiaobu

nomic

精确性

0

0

0

0

相关性

0

0

0

0

总分

0

0

0

0

总结:

大部分场景相似度检索的效果更好,其中xiaobu效果最优。部分场景更适合用关键词检索,3年以上工作经验,但是也会漏了类似2012-2015这样的时间信息。

因此后续的检索效果提升准备用混合检索,80%的大模型+20%关键词检索。

多agent思路、交互速度(并行OCR解析)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2277411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

带头双向循环链表(数据结构初阶)

文章目录 双向链表链表的分类概念与结构实现双向链表定义链表结构链表打印判空申请结点初始化头插尾插头删尾删查找指定位置插入和删除销毁链表 顺序表和链表的分析结语 欢迎大家来到我的博客,给生活来点impetus!! 这一节我们学习双向链表&a…

在eNSp上telnet一下吧

在上篇博客:DNS 我们提到了telnet和设备带外管理、带内管理,它确实是非常有趣的一个知识点哦,接下来我们一起来学习学习吧~ Telnet(远程登陆协议) Telnet基于TCP 23号端口,典型的C/S架构模式,是…

Spring MVC复杂数据绑定-绑定集合

【图书介绍】《SpringSpring MVCMyBatis从零开始学(视频教学版)(第3版)》_【新华文轩】springspring mvcmybatis从零开始学(视频教学版) 第3版 正版-CSDN博客 《SpringSpring MVCMyBatis从零开始学(视频教学版)(第3版…

基于禁忌搜索算法的TSP问题最优路径搜索matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于禁忌搜索算法的TSP问题最优路径搜索,旅行商问题(TSP)是一个经典的组合优化问题。其起源可以追溯到 19 世纪初,…

静态综合路由实验

实验拓扑 实验要求 1.除R5的环回地址外,整个其他所有网段基于192.168.1.0/24进行合理的IP地址划分 2.R1-R4每个路由器存在两个环回接口,用于模拟pc网段;地址也在192.168.1.0/24这个网络范围内 3.R1-R4上不能直接编写到达5.5.5.0/24的静态路由…

前端组件开发:组件开发 / 定义配置 / 配置驱动开发 / 爬虫配置 / 组件V2.0 / form表单 / table表单

一、最早的灵感 最早的灵感来自sprider / 网络爬虫 / 爬虫配置,在爬虫爬取网站文章时候,会输入给爬虫一个配置文件,里边的内容是一个json对象。里边包含了所有想要抓取的页面的信息。爬虫通过这个配置就可以抓取目标网站的数据。其实本文要引…

[Deep Learning] Anaconda+CUDA+CuDNN+Pytorch(GPU)环境配置-2025

文章目录 [Deep Learning] AnacondaCUDACuDNNPytorch(GPU)环境配置-20250. 引子1. 安装Anaconda1.1 安装包下载:1.2 启用安装包安装1.3 配置(系统)环境变量1.4 验证Anaconda是否安装完毕1.5 Anaconda换源 2. 安装CUDACuDNN2.1 判断本机的CUDA版本2.2 下载适合自己CU…

直播预告丨Arxiv Insight:用 AI 重新定义论文检索

1月16日晚上20:00-20:50,Zilliz直播间,深圳大学计算机视觉所硕士牛增豪先生将带来《Arxiv Insight:用 AI 重新定义论文检索》分享,届时他将讲述从零到一构建 Arxiv Insight产品的过程,思考以及未来计划。欢迎大家锁定Z…

STM32 FreeRTOS 的任务挂起与恢复以及查看任务状态

目录 任务的挂起与恢复的API函数 任务挂起函数 任务恢复函数 任务恢复函数(中断中恢复) 函数说明 注意事项 查看任务状态 任务的挂起与恢复的API函数 vTaskSuspend():挂起任务, 类似暂停,可恢复 vTaskResume()&#xff1a…

4. 使用springboot做一个音乐播放器软件项目【数据库表的创建】

上一章文章 我们做了音乐播放器 这个项目一些公共封装的一些工具类。参考网址: https://blog.csdn.net/Drug_/article/details/145093705 那么这篇文章 我们开始创建数据表。来存储我们项目中所需要存储的数据。 对于 我们这个项目 版本一 需要开发的核心功能 在 第…

leetcode刷题记录(五十四)——560. 和为 K 的子数组

(一)问题描述 560. 和为 K 的子数组 - 力扣(LeetCode)560. 和为 K 的子数组 - 给你一个整数数组 nums 和一个整数 k ,请你统计并返回 该数组中和为 k 的子数组的个数 。子数组是数组中元素的连续非空序列。 示例 1&am…

软考,质量管理。

项目质量管理,PMBOOK 质量是满足需求的能力的特性的总结 需求的满足程度 质量通常是指产品的质量,广义上的质量还包括工作质量。产品质量是指产品的使用价值及其属性;而工作质量则是产品质量的保证,它反映了与产品质量直接有关的…

Re78 读论文:GPT-4 Technical Report

诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文全名:GPT-4 Technical Report 官方博客:GPT-4 | OpenAI appendix懒得看了。 文章目录 1. 模型训练过程心得2. scaling law3. 实验结果减少风险 1. 模型训练过程心得 模型结构还…

LeetCode | 图文详细描述动态规划DP算法及经典题型

本文将用简单直白的方式,从零开始带你掌握动态规划的精髓。你会发现: 动态规划其实没那么难——它就是递归的“记性”版。状态转移方程不再玄学——从题目思路到实现,手把手教你推导。经典题型剖析——从“爬楼梯”到“背包问题”&#xff0…

学习threejs,使用RollControls相机控制器

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.RollControls 相机控…

期权懂|场内期权合约行权价格是如何设定制度的?

锦鲤三三每日分享期权知识,帮助期权新手及时有效地掌握即市趋势与新资讯! 场内期权合约行权价格是如何设定制度的? 场内期权合约的行权价格是期权合约中的一个关键要素,它决定了期权买方在期权到期日或之前买入(对于…

设计模式相关面试

设计模式 工厂方法模式 简单工程模式 工厂方法设计模式 抽象工厂设计模式 工厂方法小结 策略模式 案例(工厂模式策略模式) 责任链设计模式 概述 常见使用方式 常见技术场景 单点登录如何实现 权限认证如何实现 上传数据的安全如何控制 遇到了那些比较棘…

C#轻松实现ModbusTCP服务器接口

大家好!我是付工。 通透!终于把ModbusRTU弄明白了 这样看来,ModbusTCP协议太简单了 太简单了!C#轻松实现Modbus通信 前面给大家介绍了一系列关于Modbus和ModbusTCP的知识,主要针对的是ModbusTCP客户端。 在实际开…

比较之舞,优雅演绎排序算法的智美篇章

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一、冒泡排序:数据海…

mysql-5.7.18保姆级详细安装教程

本文主要讲解如何安装mysql-5.7.18数据库: 将绿色版安装包mysql-5.7.18-winx64解压后目录中内容如下图,该例是安装在D盘根目录。 在mysql安装目录中新建my.ini文件,文件内容及各配置项内容如下图,需要先将配置项【skip-grant-tab…