【GoMate框架案例】讯飞大模型RAG智能问答挑战赛top10 Baseline

news2024/9/22 21:25:18

【RAG框架】GoMate:RAG Framework within Reliable input,Trusted output

【项目链接】:https://github.com/gomate-community/GoMate

一、赛题背景

RAG(检索增强生成)是一种结合了检索模型和生成模型的技术,它通过检索大量外部知识来辅助文本生成,从而提高大型语言模型(LLMs)的准确度和可靠性。

RAG特别适合于需要不断更新知识的知识密集型场景或特定领域应用,它通过引入外部信息源,有效缓解了大语言模型在领域知识缺乏、信息准确性问题以及生成虚假内容等方面的挑战。本次挑战赛旨在探索RAG技术的极限,鼓励开发者、研究人员和爱好者利用RAG技术解决实际问题,推动人工智能领域的进步。

二、赛题任务

赛题需要参赛选手设计并实现一个RAG模型,该模型能够从给定的问题出发,检索知识库中的相关信息。利用检索到的信息,结合问题本身,生成准确、全面、权威的回答。

三、评审规则

1.数据说明

数据集还可能包括一些未标注的文本,需要参赛者使用RAG技术中的检索增强方法来找到相关信息,并生成答案。这要求参赛者不仅要有强大的检索能力,还要能够生成准确、连贯且符合上下文的文本。

测试集为模拟生成的用户提问,需要参赛选手结合提问和语料完成回答。需注意,在问题中存在部分问题无法回答,需要选手设计合适的策略进行拒绝回答的逻辑。

• corpus.txt.zip:语料库,每行为一篇新闻

• test_question.csv:测试提问

  1. 评审规则

对于测试提问的回答,采用字符重合比例进行评价,分数最高为1。

四、数据分析

  • 检索语料

  • 文本长度

五、RAG基线实现

import pickle

import pandas as pd
from tqdm import tqdm

from gomate.modules.document.chunk import TextChunker
from gomate.modules.document.txt_parser import TextParser
from gomate.modules.document.utils import PROJECT_BASE
from gomate.modules.generator.llm import GLM4Chat
from gomate.modules.reranker.bge_reranker import BgeRerankerConfig, BgeReranker
from gomate.modules.retrieval.bm25s_retriever import BM25RetrieverConfig
from gomate.modules.retrieval.dense_retriever import DenseRetrieverConfig
from gomate.modules.retrieval.hybrid_retriever import HybridRetriever, HybridRetrieverConfig


def generate_chunks():
    tp = TextParser()
    tc = TextChunker()
    paragraphs = tp.parse(r'H:/2024-Xfyun-RAG/data/corpus.txt', encoding="utf-8")
    print(len(paragraphs))
    chunks = []
    for content in tqdm(paragraphs):
        chunk = tc.chunk_sentences([content], chunk_size=1024)
        chunks.append(chunk)

    with open(f'{PROJECT_BASE}/output/chunks.pkl', 'wb') as f:
        pickle.dump(chunks, f)


if __name__ == '__main__':

    # test_path="H:/2024-Xfyun-RAG/data/test_question.csv"
    # embedding_model_path="H:/pretrained_models/mteb/bge-m3"
    # llm_model_path="H:/pretrained_models/llm/Qwen2-1.5B-Instruct"

    test_path = "/data/users/searchgpt/yq/GoMate_dev/data/competitions/xunfei/test_question.csv"
    embedding_model_path = "/data/users/searchgpt/pretrained_models/bge-large-zh-v1.5"
    llm_model_path = "/data/users/searchgpt/pretrained_models/glm-4-9b-chat"
    # ====================文件解析+切片=========================
    generate_chunks()
    with open(f'{PROJECT_BASE}/output/chunks.pkl', 'rb') as f:
        chunks = pickle.load(f)
    corpus = []
    for chunk in chunks:
        corpus.extend(chunk)

    # ====================检索器配置=========================
    # BM25 and Dense Retriever configurations
    bm25_config = BM25RetrieverConfig(
        method='lucene',
        index_path='indexs/description_bm25.index',
        k1=1.6,
        b=0.7
    )
    bm25_config.validate()
    print(bm25_config.log_config())
    dense_config = DenseRetrieverConfig(
        model_name_or_path=embedding_model_path,
        dim=1024,
        index_path='indexs/dense_cache'
    )
    config_info = dense_config.log_config()
    print(config_info)
    # Hybrid Retriever configuration
    # 由于分数框架不在同一维度,建议可以合并
    hybrid_config = HybridRetrieverConfig(
        bm25_config=bm25_config,
        dense_config=dense_config,
        bm25_weight=0.7,  # bm25检索结果权重
        dense_weight=0.3  # dense检索结果权重
    )
    hybrid_retriever = HybridRetriever(config=hybrid_config)
    # 构建索引
    # hybrid_retriever.build_from_texts(corpus)
    # 保存索引
    # hybrid_retriever.save_index()
    # 加载索引
    hybrid_retriever.load_index()

    # ====================检索测试=========================
    query = "新冠肺炎疫情"
    results = hybrid_retriever.retrieve(query, top_k=5)
    # Output results
    for result in results:
        print(f"Text: {result['text']}, Score: {result['score']}")

    # ====================排序配置=========================
    reranker_config = BgeRerankerConfig(
        model_name_or_path="/data/users/searchgpt/pretrained_models/bge-reranker-large"
    )
    bge_reranker = BgeReranker(reranker_config)

    # ====================生成器配置=========================
    # qwen_chat = QwenChat(llm_model_path)
    glm4_chat = GLM4Chat(llm_model_path)

    # ====================检索问答=========================
    test = pd.read_csv(test_path)
    answers = []
    for question in tqdm(test['question'], total=len(test)):
        search_docs = hybrid_retriever.retrieve(question)
        search_docs = bge_reranker.rerank(
            query=question,
            documents=[doc['text'] for idx, doc in enumerate(search_docs)]
        )
        # print(search_docs)
        content = '/n'.join([f'信息[{idx}]:' + doc['text'] for idx, doc in enumerate(search_docs)])
        answer = glm4_chat.chat(prompt=question, content=content)
        answers.append(answer[0])
        print(question)
        print(answer[0])
        print("************************************/n")
    test['answer'] = answers

    test[['answer']].to_csv(f'{PROJECT_BASE}/output/gomate_baseline.csv', index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2122429.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电竞社交平台

#计算机项目设计#vue项目实战 #java项目 #计算机项目 #电竞 #支付宝沙箱支付 #邮件发送 电竞社交平台 技术栈 开发工具:IDEA , VsCod 程序框架:SpringBoot、Mybatis、Vue 运行环境:Windows 数 据 库:MySQL 8.0.32 支付宝沙箱and邮…

2024最新FL Studio24.1.1.4285破解版中文安装包百度云网盘下载地址

大家好,今天我要给大家介绍一款音乐制作神器——FL Studio 24.1.1.4285中文版。这款软件可是音乐制作界的翘楚,无论是专业人士还是音乐爱好者,都会为它的强大功能和易用性所折服。 我们来看看FL Studio的特点。 这是一款全能型的音乐工作站&…

你的个人敏感信息是怎么泄露的?

你肯定经历过各种骚扰电话,房产中介、信用卡中心、贷款等等,在你不胜其烦挂断这些电话的同时,你有没有想过一个问题:这些骚扰电话都是怎么来的 ? 举个例子,著名的万豪酒店,在 2018 年发生了一次…

Leetcode 只出现一次的元素

题目要求我们找到数组中只出现了一次的元素,而其他元素都出现了两次。 解题思路: 我们可以使用位运算中的异或操作(XOR)。异或操作有以下两个特性: 相同的两个数字异或结果为0,例如:a ^ a 0…

使用Flask框架构建RESTful API:从基础到实践

随着移动设备和Web应用的普及,API(应用程序接口)的重要性日益凸显。RESTful API因其简洁的设计和广泛的支持成为构建现代Web服务的标准。Flask是一个轻量级且灵活的Python Web框架,非常适合用来快速搭建RESTful API。本文将详细介…

亿发:信息化智能化需求大幅提升,企业信息化建设又迈出关键一步

在全球数字经济蓬勃发展的背景下,企业信息化建设正成为推动生产力提升、增强市场竞争力的关键引擎。随着企业对信息化和智能化的需求大幅提升,越来越多的企业加速了数字化转型的步伐,通过信息技术优化业务流程、提高运营效率、增强客户体验。…

官网下载easyx压缩包,如何在devc++配置easyx

视频教程 官网下载easyx压缩包,如何在devc配置easyx EasyX Graphics Library for C 安装指南 1. 访问官网 官网 2. 下载 EasyX 在官网上找到下载区域,点击下载按钮以获取 EasyX 安装包。 3. 访问更多下载选项 点击页面上的“more”链接&#xff0…

伟易特发布全新一代便携式反无人机装备

伟易特电子便携式反无人机系统突破技术创新,在大量实战应用中获得广泛好评,获得广大用户认可发布全新一代便携式反无人机装备

路径规划——D*算法

路径规划——D*算法 D Star算法是一种用于动态环境下的算法,它可以在环境变化时快速更新路径。 算法原理 D Star算法是一种反向增量式搜索算法,反向即算法从目标点开始向起点逐步搜索;增量式搜索,即算法在搜索过程中会计算每一…

锋哥写一套前后端分离Python权限系统 基于Django5+DRF+Vue3.2+Element Plus+Jwt 视频教程 ,帅呆了~~

大家好,我是java1234_小锋老师,最近写了一套【前后端分离Python权限系统 基于Django5DRFVue3.2Element PlusJwt 】视频教程,持续更新中,计划月底更新完,感谢支持。 视频在线地址: 打造前后端分离Python权…

Java超详细知识点——I/O流(字节流和字符流)

File类: Java API:java.io.File 类 是用来操作文件或文件夹的,无法用来读写 1.首先创建一下file的对象: 里面可以写相对路径或者绝对路径 File file new File("CCC.java"); 也可以使用其他构造方法 //String path …

【计算机网络】电路交换、报文交换和分组交换——三种交换方式性能分析以及计算机网络的分类

【计算机网络】电路交换、电报交换、分组交换 目录 【计算机网络】电路交换、电报交换、分组交换1. 电路交换2. 电报交换3. 分组交换4. 基于分组交换~“虚电路交换”技术 【计算机网络】电路交换、报文交换和分组交换——三种交换方式性能分析电路交换性能分析报文交换性能分析…

在AD域中恢复被删除的账户(LDP.EXE)

在域账户被不小心删除后,客户端使用域账号登陆会失败,账号不存在; 为了客户端登陆回原来账户文件下面,重新创建一个相同账户,域中此新账号的ID是新的,客户端登陆也会按新用户生成用户文件;同样复…

只用一个 HTML 元素可以写出多少形状?——动画篇

为期一个多月,我们针对只用一个 div 元素一共可以写出多少种形状的话题,通过六个篇章(分了八篇文章)进行了详细的展开。 其中,前三个篇章,我们主要围绕欧几里得几何中的基本形状做的展开,其中蕴…

基于Matlab和OpenCV的双目测距(标定和代码教程)

基于Matlab和OpenCV的双目测距研究 *摘要*:双目测距的原理是利用左右两个摄像机拍摄同一物体形成的视差来确定物体距摄像机的距离。这其中需要通过标定得出的参数包括内参(焦距fc, 主点Principal point, 径向畸变Radial Distortion, 切向畸变Tangential…

828华为云征文 | 使用Flexus云服务器X实例部署Kubernetes图形化管理平台

828华为云征文 | 使用Flexus云服务器X实例部署Kubernetes图形化管理平台 1. 基础部署环境说明2. 部署Kubernetes环境3. 部署Kubernetes Dashboard4. 创建登录账号token5. 访问Kubernetes Dashboard 1. 基础部署环境说明 Kubernetes作为当今最流行的容器编排平台,随着…

【Kubernetes】常见面试题汇总(七)

目录 20.简述 Kubernetes 创建一个 Pod 的主要流程? 21.简述 Kubernetes 中 Pod 的重启策略? 20.简述 Kubernetes 创建一个 Pod 的主要流程? Kubernetes 中创建一个 Pod 涉及多个组件之间联动,主要流程如下: &#…

如何让Google收录我的网站?

其实仅仅只是收录,只要在GSC提交网址,等个两三天,一般就能收录,但收录是否会掉,这篇内容收录了是否有展现,排名,就是另外一个课题了,如果不收录,除了说明你的网站有问题&…

人工智能赋能千行百业

人工智能将赋能千行百业 人工智能(AI)作为当今科技领域的核心驱动力之一,正以前所未有的速度和广度赋能千行百业,深刻改变着我们的生产、生活方式以及社会经济的运行模式。以下是人工智能在多个行业中的赋能作用的几个关键方面&am…

QT多个界面

主函数 #include "widget.h" #include "second.h" #include <QApplication>int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;Second s;QObject::connect(&w,&Widget::my_signals,&s,&Second::my_slots);w.…