深入RAG优化:BGE词嵌入全解析与Landmark Embedding新突破

news2024/12/28 4:47:10

前面已经写过一篇关于Embedding选型的文章,《如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!》,主要介绍通过开源网站的下载量和测评效果选择Embedding模型。

一、Embedding选型建议与结果

在这里插入图片描述

选型建议:

1、大部分模型的序列长度是 512 tokens。8192 可尝试 tao-8k,1024 可尝试 stella。

2、在专业数据领域上,嵌入模型的表现不如 BM25,但是微调可以大大提升效果。

3、有微调需求且对模型训练了解较少的,建议选择 bge 系列(完善的训练脚本、负例挖掘等)。但多数模型都基于BERT,训练脚本也通用,其他模型也可以参考。

4、重排模型选择很少,推荐使用 bge-reranker,也支持微调。reranker 模型因为单次输入较多,只能通过 GPU 部署。

选型结果:

  1. PEG
    作者:腾讯
    模型地址:https://huggingface.co/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2107206.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

每日最新AIGC进展(59):谷歌提出关键帧插值算法、谷歌研究院提出用实时游戏画面生成算法、中国科学院大学提出复杂场景图像生成算法

Diffusion Models专栏文章汇总:入门与实战 Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation 本研究提出了一种新颖的关键帧插值方法,旨在生成符合自然运动轨迹的连续视频片段。我们适应了已经训练好的图像到视频扩…

每日OJ_牛客_Emacs计算器(逆波兰表达式)

目录 牛客_Emacs计算器(逆波兰表达式) 解析代码 牛客_Emacs计算器(逆波兰表达式) Emacs计算器__牛客网 解析代码 逆波兰表达式(后缀表达式)求值,需要借助栈,思路: 循环输入,获取…

智能制造新纪元:3D协同平台引领前沿创新

随着市场的发展,我们的企业面临两个方面的挑战: 从业务和市场方面来看,为了在竞争中取得更大优势,我们需要以高质且低价的产品赢得消费者的信赖,同时必须有效控制成本、加速产品迭代,缩短产品上市周期&…

Orcad如何更改A4到A3纸,表格填充

1 可以直接从以有的A4纸转到A3 2 选择过滤 1 有电气属性的都选择不了 2 修改元器件名称,改了之后下面有横线

交换机堆叠配置

1.华为S系列交换机 维护宝典 https://support.huawei.com/enterprise/zh/doc/EDOC1100339648/d9b3a94b 2.堆叠方式有两种 2.1.专用堆叠卡 2.2.业务口堆叠-10G光口 主交换机(19,20口)对应备交换机(20,19口) 全新设…

OceanBase 4.x 存储引擎解析:如何让历史库场景成本降低50%+

据国际数据公司(IDC)的报告显示,预计到2025年,全球范围内每天将产生高达180ZB的庞大数据量,这一趋势预示着企业将面临着更加严峻的海量数据处理挑战。随着数据日渐庞大,一些存储系统会出现诸如存储空间扩展…

家用智能水表精度要求是多少?

家用智能水表的精度要求是为了确保水表能够准确计量用户的用水量,避免因计量误差导致的不公平收费或水资源浪费。根据国家标准和行业规范,家用智能水表的精度通常需要达到一定的技术指标,以确保其在不同流量条件下的测量准确性。 一、精度标…

喜讯-惟客数据成为中国信息协会数据要素专委会首批常务理事单位

近日,中国信息协会数据要素专业委员会成立大会暨数据资源开发利用及场景创新主题研讨会在贵阳顺利举行,WakeData惟客数据作为受邀企业出席此次活动,并通过资格审核,成为数据要素专委会首批常务理事单位。 中国信息协会数据要素专委…

Java项目: 基于SpringBoot+mysql学生宿舍管理系统(含源码+数据库+开题报告+毕业论文)

一、项目简介 本项目是一套基于SpringBootmysql学生宿舍管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作简单、功…

在线演示文稿应用PPTist本地化部署并实现无公网IP远程编辑PPT

文章目录 前言1. 本地安装PPTist2. PPTist 使用介绍3. 安装Cpolar内网穿透4. 配置公网地址5. 配置固定公网地址 前言 本文主要介绍如何在Windows系统环境本地部署开源在线演示文稿应用PPTist,并结合cpolar内网穿透工具实现随时随地远程访问与使用该项目。 PPTist …

CSS解析:盒模型

在网页上实现元素布局涉及很多技术。在复杂网站上,可能会用到浮动元素、绝对定位元素以及其他各种大小的元素,甚至也会使用较新的CSS特性,比如Flexbox或者网格布局。 在此之前我们要打好基础,深刻理解浏览器是如何设置元素的大小…

PHP一站式解决方案高级房产系统小程序源码

一站式解决方案,高级房产系统让房产管理更轻松 🏠【开篇:告别繁琐,迎接高效房产管理新时代】🏠 你是否还在为房产管理的繁琐流程而头疼?从房源录入、客户咨询到合同签订、售后服务,每一个环节…

828华为云征文|华为云Flexus X实例docker部署jdk21最新版jenkins搭建自己的devops服务器

828华为云征文|华为云Flexus X实例docker部署jdk21最新版jenkins搭建自己的devops服务器 华为云最近正在举办828 B2B企业节,Flexus X实例的促销力度非常大,特别适合那些对算力性能有高要求的小伙伴。如果你有自建MySQL、Redis、Nginx等服务的…

PHP智能匹配轻松预订自习室在线订座系统小程序源码

智能匹配,轻松预订——自习室在线订座系统 📚【开篇:告别排队,迎接智能学习新时代】📚 还在为找不到合适的自习室座位而烦恼吗?是不是每次去图书馆或自习室都要提前好久去排队占位?现在&#…

【计算机方向】IF:10.7,发展势头迅猛,中科院二区TOP神刊!

期刊解析 🚩本 期 期 刊 看 点 🚩 国人发文占比第一,审稿友好 影响因子高 自引率2.8% 今天小编带来计算机领域SCI快刊的解读! 如有相关领域作者有意投稿,可作为重点关注! 01 期刊信息✦ 期刊名称&am…

GPT-4o在加密货币情绪动态和行为模式应用

本文研究了加密货币相关讨论中的预测性陈述、希望言论和后悔检测行为,旨在通过少量学习和大语言模型(如GPT-4o)分析投资者的情绪动态和预测行为。该问题的研究难点包括:数据量有限、资源可用性不足、需要准确分类预测性陈述、希望…

Java基于微信小程序的家庭财务管理系统,附源码

博主介绍:✌Java徐师兄、7年大厂程序员经历。全网粉丝13w、csdn博客专家、掘金/华为云等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇🏻 不…

微深节能 环冷机卸灰小车定位远程控制系统 格雷母线

微深节能环冷机卸灰小车定位远程控制系统中的格雷母线是一种高精度位移测量系统,该系统在环冷机卸灰小车的定位与控制中发挥着关键作用。 一、系统组成 格雷母线系统主要由以下几个核心部分组成: 格雷母线:一种特殊的编码线缆,通常…

RAG挑战来袭:长上下文的LLMs会取代RAG系统吗?

2023年,上下文LLMs窗口一般在4K-8K左右。但是,截至 2024 年 7 月,LLMs上下文窗口超过 128K 的情况很常见。 例如,Claude 2 有一个 100K 的上下文窗口。Gemini 1.5 声称有 2M 的上下文,后来的 LongRoPE 声称将LLM上下文窗口扩展到 200 万个令牌之外。此外,Llama-3–8B-I…

天气预报爬虫

一、获取天气接口 主要通过nowapi注册用户之后,进入相应的接口,进行抓取报文。 二、wireshark抓取报文,解析cjson格式 Http的交互过程 1.建立TCP连接 2.发送HTTP请求报文 3.回复HTTP响应报文 4.断开TCP连接 CJSON的使用办法 1. JSON…