AI大模型探索之路-应用篇11:AI大模型应用智能评估(Ragas)

news2025/2/25 20:59:20

目录

前言

一、为什么要做智能评估?

二、Ragas是什么?

三、Ragas使用场景

四、Ragas评估指标

五、Ragas代码实践

总结


前言

随着人工智能技术的飞速发展,AI大模型(LLM)已经成为了推动技术创新和应用的关键因素。这些大模型在语言理解、图像识别、自然语言生成等领域展现出了惊人的能力。然而,随着模型规模的增大,它们对计算资源的消耗、环境适应性、模型稳定性、安全性和可解释性等方面也提出了新的挑战。因此,对AI大模型进行智能评估变得至关重要,以确保它们在实际应用中的稳定性、可靠性和有效性。本文将详细介绍Ragas框架,一个专为AI大模型设计的智能评估工具。



一、为什么要做智能评估?

AI大模型的复杂性和规模使得传统的评估方法不再适用。这些模型通常包含数亿甚至数万亿个参数,这使得它们能够在各种复杂的任务中取得出色的表现。然而,这也带来了以下问题:
1. 计算资源消耗:大模型的训练和推理过程需要大量的计算资源,这可能导致昂贵的成本和环境影响。
2. 环境适应性:模型在不同环境和数据分布下的表现可能会有所不同,这可能影响其适用性。
3. 模型稳定性:面对异常输入或长时间运行,模型的稳定性成为关注的重点。
4. 安全性和隐私:模型可能会泄露训练数据中的敏感信息,或者生成不当内容。
5. 可解释性:由于模型的复杂性,解释模型的决策过程对于某些应用来说是难以接受的。

因此,对AI大模型进行全面的智能评估是确保其在实际应用中稳定性、可靠性和有效性的关键步骤。

二、Ragas是什么?

Ragas(Retrieval-Augmented Generation, RAG)框架是一个综合性的智能评估工具,它专为AI大模型设计,用于评估模型的性能、适用性、稳定性、安全性和可解释性等多个维度。Ragas的主要目标是为开发者、研究人员和决策者提供一个全面的评估工具,以帮助他们了解模型的优势和潜在的风险。


Ragas的功能特点包括:
1. 模块化设计:采用模块化设计,用户可根据具体的评估需求灵活地选择和组合不同的评估模块。
2. 自动化流程:提供自动化的评估流程,减少了人工干预的需求,提高了评估的效率和一致性。
3. 多维度评估:支持从多个维度对AI模型进行评估,包括性能、适用性、稳定性和可解释性等。
4. 用户界面:提供有直观的用户界面,使得用户设置评估参数、启动评估过程并查看评估结果。
5. 基准测试:Ragas可以与预定义的基准模型进行比较,评估AI模型的性能。
6. 适用性分析:Ragas能够分析模型在不同数据集上的适用性,识别模型的泛化能力。
7. 压力测试:Ragas可以模拟高负载情况下的模型表现,评估其稳定性。
8. 安全审计:Ragas检测模型是否存在潜在的安全风险,如数据泄露风险。
9. 可解释性分析:Ragas提供模型决策的解释,帮助用户理解模型的行为。

三、Ragas使用场景

Ragas适用于多种AI大模型的应用场景,包括但不限于:
1. 自然语言处理:Ragas可以用于评估文本分类、机器翻译、情感分析等任务的模型。
2. 图像识别:Ragas可以用于评估图像分类、目标检测、风格迁移等任务的模型。
3. 语音处理:Ragas可以用于评估语音识别、语音合成等任务的模型。

使用Ragas的场景通常是在模型开发和部署的关键环节,例如:
1. 模型选择:在选择合适的模型时,可以使用Ragas来评估不同模型的性能和适用性。
2. 模型优化:在模型开发过程中,可以使用Ragas来监控模型的表现,并根据评估结果进行优化。
3. 风险管理:在模型部署前,可以使用Ragas来评估模型的安全性和稳定性,以减少潜在的风险。

四、Ragas评估指标

Ragas提供了专门针对不同类型的embeddings的评估方法,例如对主流的OpenAI embeddings和BGE (Big Generative Models) embeddings等进行评估。此外,Ragas还提出了五种评估指标,包括忠实度、答案相关性、上下文精度、上下文召回率和上下文相关性,这些指标旨在量化评估检索增强生成(Retrieval-Augmented Generation, RAG)流程的性能。因此它特别适用于评估RAG应用。通过测量查询、检索到的上下文以及语言模型生成的回答之间的相关性来评估RAG的有效性。这种评估方法不需要访问人工注释的数据集或参考答案,使得评估过程更为简便和高效。
Ragas的五大评估指标
1)忠实度(Faithfulness):
数据范围:(0, 1)
判断标准:越高越好。
指标含义:忠实度衡量生成的答案与给定上下文的事实一致性。如果答案中的所有基本事实都可以从上下文中推断出来,则认为答案是忠实的。这意味着答案在内容上没有与上下文相矛盾的地方。
问题参考:Q: 请描述一种健康饮食的建议。
正面样例:A: 健康饮食建议包括多吃水果、蔬菜、全谷物,减少糖分和加工食品的摄入。
反面样例:A: 健康饮食建议包括吃快餐和糖果,完全避免蔬菜和水果。

2)答案相关性(Answer Relevancy):
数据范围:(0, 1)
判断标准:越高越好。
指标含义:答案相关性评估生成的答案与问题的相关性。一个高相关性的答案意味着它直接且准确地回答了问题。
问题参考:Q: 谁是《哈姆雷特》的作者?
正面样例:A: 威廉·莎士比亚是《哈姆雷特》的作者。
反面样例:A: 《哈姆雷特》是一部科幻小说。

3)上下文精度(Context Precision):
数据范围:(0, 1)
判断标准:越高越好。
指标含义:上下文精度评估检索到的上下文与问题和答案的相关程度。高上下文精度意味着检索到的上下文信息与问题紧密相关,对于生成答案有帮助。
问题参考:Q: 根据以下上下文,皮特下一步应该做什么?他正在厨房里准备晚餐,炉子上有一锅炖菜。
正面样例:A: 皮特下一步应该检查炖菜是否煮熟。
反面样例:A: 皮特下一步应该去洗车。

4)上下文召回率(Context Recall)
数据范围:(0, 1)
判断标准:越高越好
指标含义:上下文召回率评估在生成答案时使用的上下文信息是否全面。高上下文召回率表明RAG系统能够检索出与问题相关的大部分上下文信息。
问题参考:Q: 昨天你提到了哪些电影?
正面样例:A: 昨天我提到了《教父》、《泰坦尼克号》和《阿凡达》。
反面样例:A: 昨天我提到了《教父》。

5)上下文相关性(Context Relevance)
数据范围:(0, 1)
判断标准:越高越好。
指标含义:上下文相关性衡量输入查询、检索上下文和LLM生成的响应之间的相关性。这个指标有助于评估RAG系统的整体性能,即各个组件如何协同工作以产生准确的答案。
问题参考:Q: 你昨天提到的电影中,哪一部赢得了奥斯卡最佳影片奖?
正面样例:A: 《教父》赢得了奥斯卡最佳影片奖。
反面样例:A: 《阿凡达》赢得了奥斯卡最佳动画长片奖。

通过这些指标,Ragas框架能够为RAG系统提供一个全面的评估,帮助开发者和研究人员理解系统的表现,并指导他们进行进一步的优化和改进。这些指标的设计旨在不需要访问人工注释的数据集或参考答案,使得评估过程更为简便和高效。
注意:在某些特殊情况下,这些指标之间的权衡可能会导致不同的结论。例如,如果一个模型在提高上下文精确度(Context Precision)的同时可能就会降低了上下文召回率(Context Recall),因此实际应用中,需要根据具体情况来判断哪个指标更关键。

五、Ragas代码实践

1)安装依赖
pip install ragas==0.0.22
注意:安装0.0.22版本,不要安装最新的ragas,ragas的新版本和Langchain暂不兼容

2)导入依赖、定义模型

from langchain.vectorstores import FAISS
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.chains import RetrievalQA
import  os
import openai
import  time

openai.api_key = os.getenv("OPENAI_API_KEY")

#定义模型
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

3)准备本地文档资料,用作测试样本

#准备本地文档资料,即测试样本
doc_list = """
1. 美国总统是谁?
   拜登
2. 印度人吃饭的工具是什么?
   右手
3. CBA是什么?
   CBA是指中国男子篮球职业联赛(China Basketball Association),这是中国最高等级的篮球联赛
4. 佛教起源哪里?
   古印度
5. 美国的职业篮球赛叫什么?
   NBA,全称为National Basketball Association,中文名为美国职业篮球联赛,是北美地区的最高等级职业篮球赛事
"""

4)将文档分割成小块,存储到向量数据库

#文档拆分分块
text_spliter = CharacterTextSplitter(separator="\n",
                                     chunk_size=500,
                                     chunk_overlap=50,
                                     length_function=len)
chunks = text_spliter.split_text(doc_list)

5)将文档的块数据embedding到向量数据库

#文档embedding到向量数据库
embedding_model = OpenAIEmbeddings()
vectorstore = FAISS.from_texts(texts=chunks,
                                  embedding=embedding_model)

6)构建chain链

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
    return_source_documents=True,
)

7)测试样例准备

## 定义要测试的样本问题,可以定义多个,这里方便看测试效果,暂只定义1个
eval_questions = [
    "美国总统是谁?"
]

eval_answers = [
    "拜登"
]

examples = [
    {"query": q, "ground_truths": [eval_answers[i]]}
    for i, q in enumerate(eval_questions)
]
## 看一下从知识库里搜索出来的答案
result = qa_chain({"query": eval_questions[0]})
print(result)
{'query': '美国总统是谁?', 'result': '美国总统是拜登。', 'source_documents': [Document(page_content='1. 美国总统是谁?\n   拜登\n2. 印度人吃饭的工具是什么?\n   右手\n3. CBA是什么?\n   CBA是指中国男子篮球职业联赛(China Basketball Association),这是中国最高等级的篮球联赛\n4. 佛教起源哪里?\n   古印度\n5. 美国的职业篮球赛叫什么?\n   NBA,全称为National Basketball Association,中文名为美国职业篮球联赛,是北美地区的最高等级职业篮球赛事\n6. 什么是LangChain?\nLangChain是一个开源框架,允许从事人工智能的开发者将例如GPT-4的大语言模型与外部计算和数据来源结合起来。该框架目前以Python或JavaScript包的形式提供。\n7. 什么是大模型?\n大模型(Large Language Models)是一种人工智能模型,被训练成理解和生成人类语言。\n大模型通常是指具有数百万到数十亿参数的神经网络模型,需要大量的计算资源和存储空间来训练和存储,并且往往需要进行分布式计算和特殊的硬件加速技术。\n8. 什么是AIGC?'), Document(page_content='8. 什么是AIGC?\nAIGC,即AI-Generated Content,是一种利用人工智能技术自动生成的内容。它涵盖了多种内容形式,包括但不限于图片、视频、音乐和文字等。')]}

 8)创建评估测试链,评估结果对比

##评估测试
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
    context_recall,
    context_relevancy,
)

# 1.创建"忠诚度"评估chains链
faithfulness_chain = RagasEvaluatorChain(metric=faithfulness)
# 2.创建“答案相关性”评估链
answer_rel_chain = RagasEvaluatorChain(metric=answer_relevancy)
# 3.创建“上下文精准度”评估链
context_pre_chain = RagasEvaluatorChain(metric=context_precision)
# 4.创建“上下文召回率”评估链
context_recall_chain = RagasEvaluatorChain(metric=context_recall)
# 5.创建“上下文相关性”评估链
context_relevancy_chain = RagasEvaluatorChain(metric=context_relevancy)

##预测值
predict = qa_chain.batch(examples)
##预测值与真实值对比
result1 = faithfulness_chain.evaluate(examples,predict)
print(result1)
time.sleep(30)

result2 = answer_rel_chain.evaluate(examples,predict)
print(result2)
time.sleep(30)

result3 = context_pre_chain.evaluate(examples,predict)
print(result3)
time.sleep(30)

result4 = context_recall_chain.evaluate(examples,predict)
print(result4)
time.sleep(30)

result5 = context_relevancy_chain.evaluate(examples,predict)
print(result5)

总结

总之,AI大模型的智能评估是一个复杂而重要的任务。Ragas框架作为一个综合性的评估工具,为用户提供了从多个维度全面评估AI模型的能力。通过使用Ragas,用户可以更好地了解模型的优势和潜在风险,从而做出更明智的决策和优化方向。随着AI技术的不断发展,智能评估工具和方法也将不断进步,以满足不断增长的AI应用需求。

探索未知,分享所知;点击关注,码路同行,寻道人生!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1602013.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【个人博客搭建】(6)搭建swagger文档

1、前言: 其实在创建webapi时我们就已经选择了swagger了。 也就是代码 app.UseSwagger(); app.UseSwaggerUI(); 但是我们可以对其进行拓展,补充信息。 像常需要的action接口中文信息,Controller控制器中文信息等... 进入正题。 2、添加…

009、Python+fastapi,第一个后台管理项目走向第9步:ubutun 20.04下安装vscode+git环境配置

一、说明 git是一定要配置的,由于是白嫖的无影云电脑,东西得保存在网上,就继续白嫖gitee吧,显然国内github是不太合适的了 二、安装git 直接安装sudo apt install -y git git --version git version 2.25.1 三、配置git 在git上…

走近网络安全公司:F5探索应用安全至简之道

伴随企业加速数字化转型工作、扩展到新的基础设施环境并采用微服务架构,企业正在拥抱混合和多云基础设施所带来的灵活性。现在跨越四种环境部署应用的企业,其平均需要管理和保护的应用数据路径比应用仅限本地部署时多10倍,复杂性呈指数级增加…

Matlab r2023b Simulink 给子系统添加封面

写这篇记录的原因是,r2023b版本里改动了自定义封面的界面,而我是一个新手小白,零基础,探索一天之后发现实现方法。最终效果如图: 步骤1:打开软件,点击Simulink,再打开含有子系统的工…

【贪心 堆 】3081. 替换字符串中的问号使分数最小

算法可以发掘本质,如: 一,若干师傅和徒弟互有好感,有好感的师徒可以结对学习。师傅和徒弟都只能参加一个对子。如何让对子最多。 二,有无限多1X2和2X1的骨牌,某个棋盘若干格子坏了,如何在没有坏…

一夜爆红的4款国产软件,却一度被大众误以为是外国人开发

在现今高度信息化的时代,计算机已经深深地渗透到了我们生活的每一个角落。 从日常的办公学习到娱乐休闲,几乎都离不开计算机技术的支持。而在这背后,软件作为计算机的灵魂,其发展历史可谓波澜壮阔。 中国软件产业经过多年的积累和…

基于Copula函数的风光功率联合场景生成_任意修改生成的场景数目(附带Matlab代码)

基于Copula函数的风光功率联合场景生成 削减为6个场景 部分展示削减为5个场景 部分展示 风光等可再生能源出力的不确定性和相关性给系统的设计带来了极大的复杂性,若忽略这些因素,势必会在系统规划阶段引入次优决策风险。因此,在确定系统最佳…

JavaScript权威指南(第7版) 笔记 - 第 7 章 数组

能用代码说清楚的,绝不多废话!!!!!! Linux创始人Linus的名言:Talk is cheap,show me the code ! ,博主技术博文会精心给出能说明问题的范例代码!…

【Linux】Linux信号

目录 信号的概念 生活中的信号 Linux中的信号 kill命令 kill 命令的使用 常见的信号 命令行代码示例 注意事项 信号的处理方式 产生信号 信号的捕捉 信号捕捉示意图 内核如何实现信号捕捉 信号的捕捉与处理 小结 阻塞信号 信号在内核中的表示图 信号集操作函数…

基于大数据的全国热门景点数据可视化分析系统

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 本文将介绍如何使用Python中的Pandas库进行数据挖掘,并结合Flask Web框架实现一个旅游景点数据分析系统。该系统将包括以下功能模块:热门景点概况、景点星级与评分分析、景…

AI光芯登上Science,开启算力新纪元

智能光芯片“太极”:清华大学的科技壮举,开启算力新纪元 在科技的浩瀚星海中,每一次创新都是对未知世界的探索和征服。近日,清华大学电子工程系与自动化系的联合团队,凭借其深厚的科研实力和创新精神,研发出…

[openGL] 高级光照-Gamma矫正

目录 一 Gamma是什么? 二 感知光度和物理光度 2.1 与Gamma的关系 2.3 存在问题和弊端? 三 Gamma矫正(逆Gamma) 3.1 Gamma矫正的两种方法 3.2 sRGB空间 3.3 重复校正 3.3.1 在着色器中处理重复校正 3.3.2 在加载纹理时就重复校正 3.3.3 校正前后效果 本章节Qt源码点…

基于python的二手房数据分析建模及可视化研究,爬取链家二手房数据,可视化分析,房价预测模型

介绍 主要涉及通过爬取济南市链家二手房数据,然后对数据进行处理,包括缺省值处理,高德地图获取二手房地址所属市区,经纬度等数据处理。然后通过python的flask框架编写后端接口,把数据响应给前端。然后前端通过AJAX请求…

AI决策与专家决策,您更喜欢哪种决策方式?

HI,我是AI智能小助手CoCo。 CoCode开发云智能助手CoCo “大家好,我是CoCode开发云的AI智能小助手CoCo,现在为大家播放关于CoCode开发云AI大家庭的最新消息: 欢迎AI家庭新成员:AI自动决策”。 AI自动决策发布 CoCode开…

信息系统安全,陈萍,王金双习题

第一章 填空题 机密性、完整性、可用性设备安全、数据安全、内容安全、行为安全通信保密、信息安全、信息安全保障保护、检测、响应、恢复健康、法律法规网络和通信协议的脆弱性、信息系统的缺陷、黑客的恶意攻击稳定性、可靠性、可用性硬件和软件的底层整体性、分层性、最小…

Zabbix监控Windows

1.在虚拟机中安装zabbix 安装系统一直托不进虚拟机中;因为没安装Tools组件 点击虚拟机,选择安装VMware Tools 2.配置zabbix

SpringBoot之JWT令牌校验

SpringBoot之JWT令牌校验 本文根据黑马b站springboot3vue3课程 JWT (JSON Web Token)是一种开放标准(RFC 7519),用于在不同实体之间安全地传输信息。它由三个部分组成:头部(Header)…

dnspy逆向和de4dot脱壳

拿到一个软件,使用dnspy查看,发现反汇编后关键部分的函数名和代码有很多乱码: 这样的函数非常多,要想进一步调试和逆向,就只能在dnspy中看反汇编代码了,而无法看到c#代码,当时的整个逆向过程只剩…

程序,进程,进程管理的相关命令

程序 程序是执行特定任务的代码 1.是一组计算机能识别和执行的指令,运行于电子计算机上,满足人们某种需求的信息化工具 2.用于描述进程要完成的功能,是控制进程执行的指令集 进程的状态 为了对进程进行管理,操作系统首先定义…

【GDB调试技巧】提高gdb的调试效率

目录 🌞gdb的启动 🌞gdb技巧 🌼1. gdb小技巧汇总 🌼2. 打印输出指定地址的值 🌼3. 查看当前执行到哪行代码代码内容 3.1 方式一:info line 结合 list 。 3.2 方式二:f 3.3 方式三&#…