提升 RAG 效果的实践

news2024/11/25 0:33:26

提升 RAG 效果的实践

  • 0. 引言
  • 1. 测试数据
  • 2. cohere/embed-multilingual-v3.0 的几组测试结果
    • 2-1. 第1组测试
    • 2-2. 第2组测试
  • 3. BAAI/bge-m3 的几组测试结果
    • 3-1. 第1组测试

0. 引言

AI 大语言模型的主要应用方式之一就是 RAG,接下来计划陆续分享工作中提升 RAG 效果的一些实践。

首先分享一些测试结果,这些测试结果可以帮助我们去做一些技术上的选型和模型上的选型。

  1. 此博文会持续更新,如果你觉得这个文章对你有帮助,欢迎点赞和收藏。
  2. 工作上我主要支持的区域是日本,所以博文中会或多或少包括一些日语。

1. 测试数据

测试数据使用的是公开的 AWS 词汇表,我测试的是日语的 AWS 用語集。

2. cohere/embed-multilingual-v3.0 的几组测试结果

2-1. 第1组测试

前提条件:

  • テスト・データ:AWS 用語集
  • チャンク・サイズ(Chunk Size):1000
  • チャンク・オーバーラップ(Chunk Overlap):200
  • Embedding 模型:cohere/embed-multilingual-v3.0
  • Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
  • LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro

第1个问题的答案截图:

第1个问题:Kendraとは?
结果评论:Cohere Command-r回答正确、Claude Opus回答正确、Claude Sonnet 回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第2个问题的答案截图:

第2个问题:着信トラフィックを分散させるには?
结果评论:Cohere Command-r 回答正确 。Claude Opus回答正确。Claude Sonnet回答正确,但是啰嗦 。Google Gemini Pro回答正确。

在这里插入图片描述

第3个问题的答案截图:

第3个问题:ディストリビューションとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第4个问题的答案截图:

第4个问题:動画をエンコードするに
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro只回答了服务名称。

在这里插入图片描述

第5个问题的答案截图:

第4个问题:Security Groupとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第6个问题的答案截图:

第4个问题:深層学習推論のコスト削減率は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确,但是太简洁了。

在这里插入图片描述

第7个问题的答案截图:

第4个问题:リージョンに存在するアベイラビリティゾーンの数は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。

在这里插入图片描述

第8个问题的答案截图:

第4个问题:アペリケーション
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"アプリケーション" 。Claude Opus推测应该是"アプリケーション",而且给出了"アプリケーション"相关的内容。Claude Sonnet推测应该是"アプリケーション"。Google Gemini Pro回答不出来。

在这里插入图片描述

2-2. 第2组测试

前提条件:

  • テスト・データ:AWS Glossary
  • チャンク・サイズ(Chunk Size):1000
  • チャンク・オーバーラップ(Chunk Overlap):200
  • Embedding 模型:cohere/embed-multilingual-v3.0
  • Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
  • LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro

第1个问题的答案截图:

第1个问题:What is Kendra?
结果评论:Cohere Command-r回答正确、Claude Opus回答正确、Claude Sonnet 回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第2个问题的答案截图:

第2个问题:How to distribute incoming traffic?
结果评论:Cohere Command-r 回答不正确 。Claude Opus回答不正确。Claude Sonnet回答不正确 。Google Gemini Pro回答不出来。这个问题期待答案中包含"ELB Elastic Load Balancing"

在这里插入图片描述

第3个问题的答案截图:

第3个问题:What is distribution?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第4个问题的答案截图:

第4个问题:How do I encode a video?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确,就是太啰嗦了。Google Gemini Pro回答不出来。

在这里插入图片描述

第5个问题的答案截图:

第4个问题:What is security groups?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第6个问题的答案截图:

第4个问题:What is the cost reduction rate for deep learning inference?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确,但是太简洁了。

在这里插入图片描述

第7个问题的答案截图:

第4个问题:How many availability zones exist in the region?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。

在这里插入图片描述

第8个问题的答案截图:

第4个问题:applcation
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"applcation" 。Claude Opus推测应该是"application"。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。

在这里插入图片描述

3. BAAI/bge-m3 的几组测试结果

3-1. 第1组测试

前提条件:

  • テスト・データ:AWS 用語集
  • チャンク・サイズ(Chunk Size):4000
  • チャンク・オーバーラップ(Chunk Overlap):400
  • Embedding 模型:BAAI/bge-m3
  • Rerank 模型:BAAI/bge-reranker-v2-minicpm-layerwise-28
  • LLM 模型:Cohere Command-r、Claude Opus、Claude Sonnet、Google Gemini Pro

第1个问题的答案截图:

第1个问题:Kendraとは?
结果评论:Cohere Command-r、Claude Opus、Claude Sonnet 回答的很完美。Google Gemini Pro的回答也不错,可以接受。
在这里插入图片描述

第2个问题的答案截图:

第2个问题:着信トラフィックを分散させるには?
结果评论:Cohere Command-r 回答的有些简洁,不够完整 。Claude Opus回答的很完美。Claude Sonnet回答了主要内容,但是特别啰嗦 。Google Gemini Pro回答的不怎么样。

在这里插入图片描述

第3个问题的答案截图:

第3个问题:ディストリビューションとは?
结果评论:Cohere Command-r回答不正确 。Claude Opus回答的很完美。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。

Claude Opus 回答:

ディストリビューションとは、コンテンツ配信ネットワーク (CDN) の一部であり、データセンターの世界的なネットワークを使用して、ユーザーに対する静的および動的ウェブコンテンツ (.html、.css、.js、メディアファイル、イメージファイルなど) の配信を高速化するウェブサービスです。

在这里插入图片描述
第4个问题的答案截图:

第4个问题:動画をエンコードするに
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro只回答了服务名称。

在这里插入图片描述

第5个问题的答案截图:

第4个问题:Security Groupとは?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答正确。

在这里插入图片描述

第6个问题的答案截图:

第4个问题:深層学習推論のコスト削減率は?
结果评论:Cohere Command-r回答不出来 。Claude Opus回答不出来。Claude Sonnet回答不出来。Google Gemini Pro回答不出来。

在这里插入图片描述

第7个问题的答案截图:

第4个问题:リージョンに存在するアベイラビリティゾーンの数は?
结果评论:Cohere Command-r回答正确 。Claude Opus回答正确。Claude Sonnet回答正确。Google Gemini Pro回答不出来。

在这里插入图片描述

第8个问题的答案截图:

第4个问题:アペリケーション
结果评论:这里测试的是对错误拼写的处理能力。Cohere Command-r识别出来应该是"アプリケーション" 。Claude Opus推测应该是"アプリケーション",而且给出了"アプリケーション"相关的内容。Claude Sonnet推测应该是"アプリケーション",但是回答太啰嗦了。Google Gemini Pro回复了"アプリケーション請求書",但是这种回复业务上也无法直接使用。

在这里插入图片描述

未完待续!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1559368.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3封装Element表格

配置表头配置多选配置序号自定义操作列按钮 封装表格 Table.vue <template><el-table:data"tableData"width"100%":maxHeight"maxHeight"v-bind"$attrs"selection-change"handleSelectChange"row-click"hand…

考研数学|听完一遍汤家凤基础,1800都没思路,怎么办?

看了我这篇回答&#xff0c;保证你可以顺利的做1800题&#xff01; 如果你听了汤家凤老师的课&#xff0c;但是做题没思路&#xff0c;请不要担心&#xff0c;也不要急着换老师&#xff0c;你很有可能是方法错了。 请你反思一下&#xff1a; 1、你是不是听完课立刻就去做题。…

linux系统基础命令

1、Linux中文件的权限包括哪些&#xff1f;某个文件的权限列为644代表该文件属主、属组和其它用户分别有什么权限&#xff1f; 1&#xff09;Linux中文件的权限包括哪些&#xff1f; 在Linux系统中&#xff0c;文件的权限包括读取&#xff08;r&#xff09;、写入&#xff08;w…

ARP类型

地址解析协议ARP即可实现将IP地址解析为MAC地址 动态ARP 动态ARP表项由ARP协议通过ARP报文自动生成和维护&#xff0c;可以被老化&#xff0c;可以被新的ARP报文更新&#xff0c;也可以被静态ARP表项覆盖。 动态ARP适用于拓扑结构复杂、通信实时性要求高的网络。 静态ARP …

C刊级 | Matlab实现DBO-BiTCN-BiGRU-Attention蜣螂算法优化双向时间卷积双向门控循环单元融合注意力机制多变量回归预测

C刊级 | Matlab实现DBO-BiTCN-BiGRU-Attention蜣螂算法优化双向时间卷积双向门控循环单元融合注意力机制多变量回归预测 目录 C刊级 | Matlab实现DBO-BiTCN-BiGRU-Attention蜣螂算法优化双向时间卷积双向门控循环单元融合注意力机制多变量回归预测效果一览基本介绍模型描述程序…

(React组件基础)前端八股文Day6

一 类组件与函数组件有什么异同 在React中&#xff0c;类组件和函数组件是创建组件的两种主要方式。随着React的发展&#xff0c;尤其是自Hooks在React 16.8中引入以来&#xff0c;函数组件的功能变得更加强大&#xff0c;使得它们能够更加方便地与类组件相竞争。下面是类组件…

雷卯有1.8V的ESD供您选择

一&#xff0e;雷卯有1.8V的ESD供您选择&#xff0c;如下是型号&#xff0c;体积小。 二. 为什么要用低压1.8V 做静电保护呢 省电&#xff0c;省电&#xff01; 1.8V的电压&#xff0c;内阻也小的话&#xff0c;那就是非常省电的电路。现在很多产品号称10年不用换电池。电池技…

基于Springboot旅游网站管理系统设计和实现

基于Springboot旅游网站管理系统设计和实现 博主介绍&#xff1a;多年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言 文末获取源码联系…

内网渗透-(黄金票据和白银票据)详解(一)

目录 一、Kerberos协议 二、下面我们来具体分析Kerberos认证流程的每个步骤&#xff1a; 1、KRB_AS-REQ请求包分析 PA-ENC-TIMESTAMP PA_PAC_REQUEST 2、 KRB_AS_REP回复包分析&#xff1a; TGT认购权证 Logon Session Key ticket 3、然后继续来讲相关的TGS的认证过程…

在react项目用echarts绘制中国地图

文章目录 一、引入echarts二、下载地图json数据三、编写react组件四、组件使用 一、引入echarts 安装&#xff1a;npm i echarts --save 二、下载地图json数据 由于echarts内部不再支持地图数据&#xff0c;所以要绘制地图需要自己去下载数据。建议使用阿里云的。 地址&…

mysql 用户管理-权限管理

学习了用户管理&#xff0c;再学习下权限管理。 3&#xff0c;权限管理 权限管理主要是对登录到MySQL的用户进行权限验证。所有用户的权限都存储在MySQL的权限表中&#xff0c;不合理的权限规划会给MySQL服务器带来安全隐患。数据库管理员要对所有用户的权限进行合理规…

14 - grace数据处理 - 泄露误差改正 - 空域滤波法(Mascon法)

@[TOC](grace数据处理 - 泄露误差改正 - 空域滤波法(Mascon法)) 空域法的基本思想是假设地面某区域的质量变化是由一系列位置已知、质量未知的质量块(小范围区域)引起的,那么将GRACE反演的结果归算到n个质量块上的过程就是泄露信号恢复的过程。个人理解是这样的:假定已知研…

EfficientNetV2:谷歌又来了,最小的模型,最高的准确率,最快的训练速度 | ICML 2021

论文基于training-aware NAS和模型缩放得到EfficientNetV2系列&#xff0c;性能远优于目前的模型。另外&#xff0c;为了进一步提升训练速度&#xff0c;论文提出progressive learning训练方法&#xff0c;在训练过程中同时增加输入图片尺寸和正则化强度。从实验结果来看&#…

西南交大swjtu算法实验3.3|穷举法

1.实验目的 通过具体例子学习排列这种典型的穷举算法的求解过程以及程序框架&#xff0c;分析其算法的求解过程&#xff0c;以及如何设计穷举法解决实际问题。通过本实验&#xff0c;理解穷举法的特点以及实际应用中的局限性。 2.实验任务 有n (n>1&#xff09;个任务需要…

Java- maven下载jar包,提示找不到,Could not find artifact

1、执行下面命令行 mvn install:install-file -Dfile/home/quangang/桌面/isv-sdk-2.0.jar -DgroupIdcom.jd -DartifactIdisv-sdk -Dversion2.0 -Dpackangjar 2、然后这里要加上jar包

初识C++ · 入门(2)

目录 1 引用 1.1引用的概念 1.2 引用的特性 2 传值&#xff0c;传引用的效率 3 引用和指针的区别 4 内联函数 4.1 内联函数的定义 4. 2 内联函数的特性 5 关键字auto 5.1关于命名的思考 5.2 关于auto的发展 5.3 auto使用规则 6 范围for的使用 7 空指针 1 引用 …

leetcode刷题---链表

目录 1.删除链表的倒数第N个节点两两交换链表中的节点反转链表2 1.删除链表的倒数第N个节点 根据题目描述&#xff0c;第一个思路是存到数组中对数组进行操作&#xff0c;想到数组我们就可以想到下标和倒数第N个的关系&#xff0c;所以我们可以不额外开空间&#xff0c;可以直接…

阿里云2核4G5M云服务器ECS u1实例性能测评

阿里云服务器ECS u1实例&#xff0c;2核4G&#xff0c;5M固定带宽&#xff0c;80G ESSD Entry盘优惠价格199元一年&#xff0c;性能很不错&#xff0c;CPU采用Intel Xeon Platinum可扩展处理器&#xff0c;购买限制条件为企业客户专享&#xff0c;实名认证信息是企业用户即可&a…

Python问题列表

文章目录 1、使用pip安装的模块都存放到哪里了&#xff1f;2、安装fitz包报错&#xff0c;如何解决&#xff1f;3、python代码运行时&#xff0c;控制台输出乱码如何解决。4、vscode中第三方库不自动补齐 1、使用pip安装的模块都存放到哪里了&#xff1f; 答&#xff1a; pip是…

数据库安全(redis、couchdb、h2database)CVE复现

redis服务默认端口&#xff1a;6379&#xff1b;我们可以通过端口扫描来判断是否存在该服务。 Redis 是一套开源的使用ANSI C 编写、支持网络、可基于内存亦可持久化的日志型、键值存储数据库&#xff0c;并提供多种语言的API。 Redis 如果在没有开启认证的情况下&#xff0c;…