如何训练Embedding Model

news2024/10/5 11:45:50

BGE的技术亮点:

  • 高效预训练和大规模文本微调;
  • 在两个大规模语料集上采用了RetroMAE预训练算法,进一步增强了模型的语义表征能力;
  • 通过负采样和难负样例挖掘,增强了语义向量的判别力;
  • 借鉴Instruction Tuning的策略,增强了在多任务场景下的通用能力。

数据集的构成:
在这里插入图片描述

RetroMAE预训练

主要思想是:encoder用小一点的mask rate得到sentence embedding,然后decoder用大一点的mask rate结合encoder得到的sentence embedding进行重构

在这里插入图片描述
此外,为了使得每个token使用的context信息不同,RetroMAE还使用了增强解码的方法

在这里插入图片描述

  • 解码的时候每一行都带,上下文信息和位置信息
    在这里插入图片描述
    在这里插入图片描述

微调

  • 主要通过对比学习和Instruction Tuning的思想

对比学习是一种训练模型的方法,通过比较正例和反例来学习数据的表示。

  • 输入数据的格式:模型接受三元组格式的数据作为输入,包括一个查询(query),一个正例(positive),和一个反例(negative)。

  • in-batch negatives 策略:除了上述三元组中的反例外,他们还采用了“in-batch negatives”策略,意思是在同一个批次的数据中,使用其他数据作为额外的反例。

  • cross-device negatives sharing method:这是一种在不同的GPU之间共享反例的方法,目的是大大增加反例的数量。

  • 训练硬件和参数:使用了48个A100(40G)的GPU进行训练。批次大小为32,768,因此每个查询在批次中有65,535个反例。使用了AdamW优化器,学习率为1e-5。对比损失的温度为0.01。

  • 在训练中为检索任务的查询添加了instruction。 对于英语,指令是Represent this sentence for searching relevant passages: ; 对于中文,指令是为这个句子生成表示以用于检索相关文章:. 在评测中,针对段落检索任务的任务需要在查询中添加指令,但不需要为段落文档添加指令。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1136957.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在k8s的Java服务镜像(Linux)中设置中文字体

问题描述:服务是基于springboot的Java服务,在项目上是通过Maven的谷歌插件打包,再由k8s部署的。k8s的镜像就是一个Java服务,Java服务用到了中文字体。 解决这个问题首先需要搞定镜像字体的问题。有很多类似的解决方案,…

window环境下安装node.js8+angular6

安装node.js8 1.登录node官网 node官网Node.js is a JavaScript runtime built on Chromes V8 JavaScript engine.https://nodejs.org/en2.找到适合自己的版本 选择下载 安装的时候一键next傻瓜式安装即可 设置淘宝镜像: npm config set registry https://regist…

动态增删kdtree(ikdtree)主要思路

ikdtree本质上也是一种kdtree,基本的构造方法和kdtree是一样的,本文主要记录两者不一样的地方,以港大MaRS实验室最新开源的增量式 kd-tree(https://github.com/hku-mars/ikd-Tree)里面的一些代码作为示范。 以下是ikdtree结构体包…

【Linux精讲系列】——yum软件包管理

​作者主页 📚lovewold少个r博客主页 ⚠️本文重点:Linux系统软件包管理工具yum讲解 😄每日一言:踏向彼岸的每一步,都是到达彼岸本身。 目录 前言 Linux系统下的软件下载方式 yum 查看软件包 如何安装软件 如何卸…

业务连续性和恢复性计划:保障企业IT业务的可靠性

第一章:引言 在当今数字化时代,企业对信息技术的依赖愈发显著,IT系统的稳定性和可用性变得至关重要。无论是自然灾害、硬件故障还是网络攻击,都可能导致业务中断,从而带来严重的经济损失和声誉损害。为了保障企业IT业…

UI自动化测试工具推荐

UI自动化测试已经成为现代软件开发过程中不可或缺的一部分。它能够提供诸多优势,包括提高测试效率、减少人力成本、提升软件质量等。同时,可视化工具为UI自动化测试带来了更多便利和灵活性。然而,可视化工具也存在一些潜在的劣势。本文将探讨…

【电路笔记】-波特图(Bode Diagrams)

波特图(Bode Diagrams) 文章目录 波特图(Bode Diagrams)1、概述2、定义3、波特图的呈现4、常见的波特图4.1 一阶滤波器4.2 二阶滤波器 5、总结 1、概述 上世纪30年代末,一位名叫 Hendrick Wade Bode 的美国工程师设计了一个著名的表示法来研究频域中的交流电路。 这…

stable diffusion简介和原理

Stable Diffusion中文的意思是稳定扩散,本质上是基于AI的图像扩散生成模型。 Stable Diffusion是一个引人注目的深度学习模型,它使用潜在扩散过程来生成图像,允许模型在生成图像时考虑到文本的描述。这个模型的出现引起了广泛的关注和讨论&am…

Python 算法高级篇:回溯算法的优化与剪枝技巧

Python 算法高级篇:回溯算法的优化与剪枝技巧 引言 1. 什么是回溯算法?2. 回溯算法的优化与剪枝技巧2.1 剪枝技巧2.1.1 可行性剪枝2.1.2 最优性剪枝 2.2 优化方法 2.2.1 记忆化搜索2.2.2 双向搜索 3. 代码示例3.1 旅行推销员问题 4. 总结 引言 回溯算法…

Windows下如何编译FFmpeg

ffmpeg一般在linux环境中使用,但是我们目前很多的开发工具是windows,为了方便在windows下调试和使用ffmpeg,我们需要再windows下面编译和使用ffpeg,本文只讲述windows下如何编译ffmpeg的内容。   windows下编译ffmpeg有很多的方…

「Dr. Bomkus 的试炼」——最详尽的通关资讯!

🧪 Dr. Bomkus 的试炼:新的冒险来临 天才科学家Dr. Bomkus一直在不知疲倦地打造他的最新作品。但是遇到了一些问题!现在,他需要你的帮助。 为了找到真正的有价值之人,Dr. Bomkus准备了六场试炼。这一系列令人激动的挑战…

VR全景餐厅,为餐饮老板开启了新纪元

在近两年的“元宇宙”概念的催生下,VR全景技术逐渐渗透到我们生活的方方面面,从舌尖到指尖、从田间到车间、从衣食住行到娱乐消费等,越来越多的行业、领域开始引入VR全景了,并在各自的垂直领域开拓了VR全景新时代。 而一直以来&am…

VBA技术资料MF73:将Logo添加到页眉侧

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。我的教程一共九套,分为初级、中级、高级三大部分。是对VBA的系统讲解,从简单的入门,到…

SENet 学习

ILSVRC 是一个比赛,全称是ImageNet Large-Scale Visual Recognition Challenge,平常说的ImageNet比赛指的是这个比赛。 使用的数据集是ImageNet数据集的一个子集,一般说的ImageNet(数据集)实际上指的是ImageNet的这个子…

解决javascript报错:SyntaxError: Invalid Unicode escape sequence

在处理cookie时报这个错: 网上搜了一圈都说是反斜杠问题,要把\替换成/ 但是试了网上的replace替换: replace(/\\/g, /) 结果没有用!!! 然后我干脆直接做了一个最简单字符串赋值,再打印出来。…

GZ035 5G组网与运维赛题第2套

2023年全国职业院校技能大赛 GZ035 5G组网与运维赛项(高职组) 赛题第2套 一、竞赛须知 1.竞赛内容分布 竞赛模块1--5G公共网络规划部署与开通(35分) 子任务1:5G公共网络部署与调试(15分) 子任务2:5G室内与室外站点建设(20分) 竞赛模块2--5G公共网络运维与优化(…

ROS学习笔记——配置环境变量

重点解决:避免每次都source ros2环境,每次都要设置ros_domain_id等等设置 Background ROS 2 relies on the notion of combining workspaces using the shell environment. ros2 依赖于“组合工作区”这个改变,使用shell 环境来实现 …

中央设备状态监控系统CMS如何帮助半导体晶圆厂提高产品良率

中央设备状态监控系统(CMS)在半导体晶圆厂中扮演着关键角色,帮助企业提高产品的良率。本文将介绍CMS是什么、当前半导体晶圆厂产品良率面临的挑战,并重点探讨CMS如何通过实时数据监控、故障预测和预警、以及统计分析和过程改进等方…

Linux之VM、WindowsServer安装及开发环境配置

目录 前言 一、操作系统简介 1. 基本概述 1.2 常见的操作系统 1.3 个人版本与服务器版本的区别 1.4 Linux的各个版本 Debian Ubuntu Redhat Fedora centos 二、安装并配置VMWare虚拟机 1. 安装 2. 激活VM虚拟机软件 3. 使用注意事项 3.1 注意点一:配置…

设计大师都在用!电商设计素材网站大公开

双十一即将到来,想必各电商平台的设计师早已开启电商设计项目。找到合适的电商设计模板是电商设计成功的关键因素。高质量的电商设计模板素材不仅能够提升网站的吸引力,还能提升用户体验,从而增加商品的交易率。 Pixso资源社区 在寻找电商设计…