动手学习RAG: 向量模型

动手学习RAG: 向量模型

news2026/2/12 8:33:56

在世界百年未有之变局与个人自暴自弃的间隙中，我们学一点RAG。 RAG是一种独特的应用，“一周写demo，优化搞半年”，我甚至听说它能破解幻术。

为了理解其优化中的关键一环，我们先看下文本向量。文本向量除了是RAG检索的重要模块外，也应用在信息检索、排序、分类、聚类、语义相似度中。

添加图片注释，不超过 140 字（可选）

1. 词向量到文本向量

向量模型把人类世界中的语言，变为计算机世界中的数字。输入一句话，输出一维向量。由于transformer中的一句话一般会输出一个二维向量，其形状为(sequence_length, embedding_dim)，因此模型后面通常加一层pooling，把sequence_length这一维坍塌。

pip install open-retrievals

添加图片注释，不超过 140 字（可选）

colab上有这段小小的代码: https://colab.research.google.com/drive/1dTzcMJNX3kSqqjTFUJXwZu6fRnf_5oHD?usp=sharing

更多更好的模型，根据语言需要（英文或中文还是多语言），顺着MTEB的榜单捋一下就行：https://huggingface.co/spaces/mteb/leaderboard

在这里插入图片描述

2. 文本向量的若干主流训练范式

语言模型可以很容易得到一个文本向量模型，但语言模型并不是为向量训练的，因此预训练的语言模型直接pooling不一定能取得满意的效果。那么，根据向量任务先微调一下再用。

微调的目的，把相似句子向量聚拢更近一些，把不相关的句子向量拉的更远一些。如何从一个语言模型训练出一个向量模型呢？我们从几篇典型论文中理解其范式。

BGE模型

使用普通的文本语料进行RetroMAE预训练
使用大量文本对进行batch内负样本对比学习
使用高质量文本进行困难负样本加batch内负样本根据任务对比学习微调

添加图片注释，不超过 140 字（可选）

GTE模型

大量文本对进行batch内负样本对比学习
高质量文本进行困难负样本学习

在这里插入图片描述

E5-mistral模型

合成大量的不同任务不同语言的检索数据，困难负样本与batch内负样本对比学习

添加图片注释，不超过 140 字（可选）

nv-embed模型

高质量检索数据进行困难负样本加batch内负样本对比学习
继续根据非检索数据，如一些分类等其他任务数据进行微调

添加图片注释，不超过 140 字（可选）

3. 结论

我们试图从几种范式中总结出以下几点认知：

训练方式，尤其是合理设计的多阶段pipeline仍然能够提升性能
数据，数据大小、质量、多样性很重要，甚至更长的文本在向量模型中也更受重视。更重要的，合成数据开始展露头脚
模型，Decoder-only LLM微调的向量模型效果越来越好。大模型也逐步统治向量模型榜单，带来的收益和增加的开销相比如何，咱也不知道，但是这些参数中蕴含的知识确实让人印象深刻
对比学习和难负样本挖掘仍然扮演关键角色。
多任务，用不同任务不同来源的数据进行训练，一个batch内如何组织数据也有优化空间。instruction-based fine-tuning可以在训练时帮助模型拿到任务上的线索

更多内容，请关注：https://github.com/LongxingTan/open-retrievals

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2114498.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

# 键盘字母上有下标数字，输入时怎么一键去掉，关闭键盘上的下标数字。‌

# 键盘字母上有下标数字，输入时怎么一键去掉，关闭键盘上的下标数字。‌

键盘字母上有下标数字，输入时怎么一键去掉，关闭键盘上的下标数字。‌ 一、问题描述： 如下图，有的笔记本电脑键盘上，没有数字小键盘，数字小键盘会和字母混和在一起，这样打字时，不容…

阅读更多...

AI在医学领域：MASL多模态辅助诊断声带麻痹

AI在医学领域：MASL多模态辅助诊断声带麻痹

声带麻痹（Vocal Cord Paralysis, VP），也称为喉瘫痪，是指由于支配声带的神经受损导致声带运动障碍的疾病。这种状况可以是单侧或双侧的，通常由脑部、颈部、胸部的肿瘤、外伤、炎症，以及各种全身疾病引起。这…

阅读更多...

$复数随机变量(信号)的方差和协方差矩阵的计算$

复数随机变量(信号)的方差和协方差矩阵的计算

怎么计算复数随机变量的方差和协方差矩阵？ 使得其与MATLAB中var函数和cov函数的结果一致。前言复信号在信号处理中随处可见，关于复信号（复随机变量）的方差和协方差矩阵该如何计算呢？本文给出了复信号的方差和协方差矩…

阅读更多...

什么是大数据、有什么用以及学习内容

什么是大数据、有什么用以及学习内容

目录 1.什么是大数据？ 2.大数据有什么用？ 2.1商业与营销： 2.2医疗与健康： 2.3金融服务： 2.4政府与公共服务： 2.5交通与物流： 2.6教育与个性化学习： 3.学习大数据需要学习哪…

阅读更多...

C++笔试强训12、13、14

C++笔试强训12、13、14

文章目录笔试强训12一、选择题1-5题6-10题二、编程题题目一题目二笔试强训13一、选择题1-5题6-10题二、编程题题目一题目二笔试强训14一、选择题1-5题6-10题二、编程题题目一题目二笔试强训12 一、选择题 1-5题引用：是一个别名，与其被引用的实…

阅读更多...

认知杂谈54

认知杂谈54

I I 内容摘要： 这篇内容主要有以下几个要点：首先，沟通不在一个调时可学习人际交往心理学知识、线上课程及关注名师来改善。其次，挑房子、工作、搭档和人生伴侣要谨慎，找心灵相通能共同进步的人。再者，远离…

阅读更多...

AI周报（9.1-9.7）

AI周报（9.1-9.7）

AI应用-Tidal 引领海洋养殖革命 Tidal团队，一个源自Alphabet X的创新项目，今年七月顺利从X实验室毕业，成为一家独立的公司。Tidal正在通过人工智能技术改变海洋养殖，特别是鲑鱼养殖。Tidal的总部位于挪威特隆赫姆，他们…

阅读更多...

Java-数据结构-栈和队列-Stack和Queue (oﾟ▽ﾟ)o

Java-数据结构-栈和队列-Stack和Queue (oﾟ▽ﾟ)o

文本目录： ❄️一、栈(Stack)： ▶ 1、栈的概念： ▶ 2、栈的使用和自实现： ☑ 1）、Stack(): ☑ 2）、push(E e): ☑ 3）、empty(): ☑ 4）、peek(E e): ☑ 5）、pop(E e): …

阅读更多...

将添加功能的抽屉剥离，在父组件调用思路

将添加功能的抽屉剥离，在父组件调用思路

一、新建组件新建AddRoleEditerDrawer.vue<template><div><el-drawer v-model"dialog" title"添加角色" :before-close"handleClose" direction"rtl" colse"cancelForm"class"demo-drawer" moda…

阅读更多...

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五)：Blender锥桶建模

基于UE5和ROS2的激光雷达+深度RGBD相机小车的仿真指南(五)：Blender锥桶建模

前言本系列教程旨在使用UE5配置一个具备激光雷达深度摄像机的仿真小车，并使用通过跨平台的方式进行ROS2和UE5仿真的通讯，达到小车自主导航的目的。本教程默认有ROS2导航及其gazebo仿真相关方面基础，Nav2相关的学习教程可以参考本人的其他博…

阅读更多...

MQ-2烟雾传感器详解（STM32）

MQ-2烟雾传感器详解（STM32）

目录一、介绍二、传感器原理 1.原理图 2.引脚描述 3.工作原理介绍三、程序设计 main.c文件 mq2.h文件 mq2.c文件四、实验效果五、资料获取项目分享一、介绍 MQ-2气体传感器是一种常用的气体传感器，用于检测空气中的烟雾浓度。工作原理是基于半导…

阅读更多...

App Store最低版本要求汇总

App Store最低版本要求汇总

1，自此日期起： 2024 年 4 月 29 日自 2024 年 4 月 29 日起，上传到 App Store Connect 的 App 必须是使用 Xcode 15 为 iOS 17、iPadOS 17、Apple tvOS 17 或 watchOS 10 构建的 App。将 iOS App 提交至 App Store - Apple Developer 2&…

阅读更多...

天然药物化学史话：“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话：“四大光谱”在天然产物结构鉴定中的应用-文献精读46

天然药物化学史话：“四大光谱”在天然产物结构鉴定中的应用，天然产物化学及其生物合成必备基础知识~ 摘要天然产物化学研究在药物研发中起着非常重要的作用，结构研究又是天然产物化学研究中最重要的工作之一。在天然药物化学史话系列文章的…

阅读更多...

Elasticsearch：无状态世界中的数据安全

Elasticsearch：无状态世界中的数据安全

作者：来自 Elastic Henning Andersen 在最近的博客文章中，我们宣布了支持 Elastic Cloud Serverless 产品的无状态架构。通过将持久性保证和复制卸载到对象存储（例如 Amazon S3），我们获得了许多优势和简化。从历史上…

阅读更多...

科研绘图系列：R语言富集散点图（enrichment scatter plot）

科研绘图系列：R语言富集散点图（enrichment scatter plot）

介绍富集通路散点图（Enrichment Pathway Scatter Plot）是一种数据可视化工具，用于展示基因集富集分析（Gene Set Enrichment Analysis, GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献…

阅读更多...

以后写代码都是AI自动写了，Cursor+Claude-3.5-Sonnet，Karpathy 点赞的 AI 代码神器。如何使用详细教程

以后写代码都是AI自动写了，Cursor+Claude-3.5-Sonnet，Karpathy 点赞的 AI 代码神器。如何使用详细教程

Cursor 情况简介 AI 大神 Andrej Karpathy 都被震惊了！他最近在试用 VS Code Cursor Claude Sonnet 3.5，结果发现这玩意儿比 GitHub Copilot 还好用！ Cursor 在短短时间内迅速成为程序员群体的顶流神器，其背后的原因在于其默认使…

阅读更多...

AIGC批量处理文件系列：word、pdf文件改名

AIGC批量处理文件系列：word、pdf文件改名

1.背景大家应该也有遇到，自己电脑有很多文件命名不合理的文件，比如：文件1、想法3 ，当你长时间再看到这个文件的时候，已经很难知道文件内容。今天我们将借助AIGC的编码能力，帮我们生成一个批量改文件名的…

阅读更多...

【H2O2|全栈】Markdown | Md 笔记到底如何使用？【前端 · HTML前置知识】

【H2O2|全栈】Markdown | Md 笔记到底如何使用？【前端 · HTML前置知识】

Markdown的一些杂谈目录 Markdown的一些杂谈前言准备工作认识.Md文件为什么使用Md？ 怎么使用Md？ 编辑怎么看别人给我的Md文件？ Md文件命令切换模式粗体、倾斜、下划线、删除线和荧光标记分级标题水平线引用无序…

阅读更多...

哪种超声波清洗机效果好？较好的超声波眼镜清洗机品牌推荐

哪种超声波清洗机效果好？较好的超声波眼镜清洗机品牌推荐

作为一名拥有20年戴镜经验的眼镜爱好者，我深深体会到眼镜清洁的挑战：微小缝隙里的污垢难以触及，频繁的脏污让我苦于找不到清洁时机，而用力不当的擦拭方法更是可能对眼镜特别是镜片造成伤害，这确实让人感到苦恼&#xf…

阅读更多...

js 写个最简单的 chrome 插件，修改网页背景颜色

js 写个最简单的 chrome 插件，修改网页背景颜色

起因(目的): 阅读电子书的时候， 网页背景太亮了，看久了眼睛难受。最近看的书是: 金瓶梅估计至少需要2个星期才能看完。操作步骤: 新建一个 manifest.json 文件, 填入一些信息。 “manifest_version”: 3, # 2 已经被废弃了。新建图片文件夹&#x…

阅读更多...

推荐文章

最新文章