一种将RAG、KG、VS、TF结合增强领域LLM性能的框架

news2024/10/10 18:20:18

SMART-SLIC框架:旨在将RAG结合向量存储(Vector Stores)、知识图谱(Knowledge Graphs)和张量分解(Tensor Factorization)来增强特定领域的大型语言模型(LLMs)的性能。

SMART-SLIC系统框架

在这里插入图片描述

SMART-SLIC框架的关键组成部分和操作流程:包括构建特定领域的数据集、知识图谱本体论、向量存储以及检索增强生成(RAG)过程:

A. 特定领域的数据集:

  • 项目从由主题专家(SMEs)选定的核心文档开始,这些文档代表了想要构建数据集的特定领域。
  • 利用SCOPUS、Semantic Scholar和OSTI等授权API,通过引用和参考文献网络扩展数据集。
  • 为了保持核心数据集的中心质量和主题一致性,采用了几种修剪策略来删除与核心文档无关的文档。

B. 降维:

  • 通过非负张量分解从数据集中提取潜在结构,使用T-ELF工具进行文档聚类,并自动确定最佳聚类数量。

C. 知识图谱本体论:

  • 将T-ELF提取的特征和文档元数据映射成一系列头、实体和尾关系,形成方向三元组,然后注入Neo4j知识图谱。
  • 知识图谱包含了文档元数据以及从文档中提取的潜在特征。

D. 向量存储组装:

  • 将文档向量化后存入Milvus向量数据库,以支持RAG过程。
  • 文档的全文被分割成较小的段落,并且每个段落都被赋予一个整数ID,以指示其在原始文档中的位置。

E. 检索增强生成RAG:

  • SMART-SLIC RAG实现:

SMART-SLIC框架中的RAG实现依赖于知识图谱(KG)和向量存储(VS)来提供结构化和非结构化的领域特定信息。

当用户提出问题时,LLM首先将查询转化为向量嵌入,然后与现有文本进行比较以找到最相似的文本。

检索到的信息被添加到原始查询中,LLM利用这些上下文信息生成相关答案。

最后,LLM以自然语言构建最终答案,向用户解释答案。

RAG流程图

图片

  • 问题路由流程:

SMART-SLIC采用问题路由流程来确定用户查询的类型,并根据查询类型选择相应的处理工具和流程。

问题分为“通用查询”和“特定文档查询”。通用查询调用ReAct Agent处理流程。

特定文档查询则调用检索查询或合成查询。

理解用户的问题对于将信息路由到适当的工具集和后续流程至关重要。

用户查询路由概览

在这里插入图片描述

  • ReAct Agent处理流程:

ReAct Agent处理流程包括ReAct Agent、工具执行器和结束节点。

ReAct Agent负责收集输入、做出可操作的决策并解释结果。

工具执行器接收来自代理的工具名称和输入参数,调用相应的功能并返回输出。

结束节点标志着Reason-Act循环的完成,将最终输出返回给用户。

ReAct Agent的节点和工具

图片

SMART-SLIC框架在实际应用中的表现,并提供了评估结果:

A. 数据集:

  • 初始选择了30篇由主题专家(SME)挑选的、专注于大规模恶意软件分析和异常检测领域的文档作为核心文档。
  • 通过引用和参考文献网络对数据集进行了两次扩展,最终得到8790篇科学出版物构成的数据集。

B. 潜在特征提取:

  • 使用T-ELF对数据集进行张量分解,确定了25个主题聚类作为所有评估k值中的最佳划分。
  • 分解过程使用了高性能计算资源,整个过程大约耗时2小时。

在这里插入图片描述

C. 向量存储:

  • 将8790篇文档向量化后存入Milvus向量数据库。
  • 其中22%的文档有全文文本,这些也被向量化并存入Milvus。

D. 知识图谱:

  • 从T-ELF输出的25个聚类中,格式化数据为1,457,534个三元组,并注入知识图谱。
  • 知识图谱中包含了321,122个节点和1,136,412条边关系。

知识图谱Schema

图片

关键词“网络犯罪”的图形搜索。返回单个关键词(绿色)以及相关联的文档(浅蓝色)。文档还链接了附属机构(黄色)和机构所在的国家(红色)。

在这里插入图片描述

E. 问答验证:

  • 使用文档特定问题和主题特定问题对系统进行了零样本条件下的问答测试。
  • 比较了使用GPT-4-instruct模型在有无RAG框架的情况下的回答性能。
  • 结果显示,使用RAG时,GPT-4-instruct模型回答问题的准确率达到97%,而没有使用RAG时,模型有40%的问题未回答,回答的问题准确率仅为20%。

F. 复杂问题解答:

  • 还测试了更复杂的问题,这些问题需要通过各种检索方法进行彻底搜索。
  • SME提出了几个问题,使用SMART-SLIC RAG流程得到的回答与SME选择的DOI一致,证明了代理在检索相关来源方面的准确性。
  • 没有使用RAG时,LLM的回答不准确,存在编造答案的情况,且未提供DOI引用,降低了信息的可信度。

*两种问题类型,文档和主题,展示了使用SMART-SLIC RAG和不使用RAG时,LLM的尝试百分比和正确百分比。*

图片

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2195371.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

codetop标签动态规划大全C++讲解(二)!!动态规划刷穿地心!!学吐了家人们o(╥﹏╥)o

一篇只有十题左右,写少一点好复习 1.目标和2.分割等和子集3.完全平方数4.比特位计数5.石子游戏6.预测赢家7.不同的二叉搜索树8.解码方法9.鸡蛋掉落10.正则表达式匹配11.通配符匹配12.交错字符串 1.目标和 给你一个非负整数数组 nums 和一个整数 target 。 向数组中…

01-python+selenium自动化测试-基础学习

前言 基于python3和selenium3做自动化测试,俗话说:工欲善其事必先利其器;没有金刚钻就不揽那瓷器活,磨刀不误砍柴工,因此你必须会搭建基本的开发环境,掌握python基本的语法和一个IDE来进行开发&#xff0c…

短剧系统源码短剧平台开发(H5+抖小+微小)部署介绍流程

有想法加入国内短剧赛道的请停下脚步,耐心看完此篇文章,相信一定会对您有所帮助的,下面将排序划分每一个步骤,短剧源码、申请资料、服务器选择、部署上架到正常运行等几个方面,整理了一些资料,来为大家举例…

中广核CGN25届校招网申SHL测评题库、面试流程、招聘对象,内附人才测评认知能力真题

​中国广核集团校园招聘在线测评攻略🚀 🎓 校园招聘对象 2024届、2025届海内外全日制应届毕业生,大专、本科、硕士、博士,广核集团等你来! 📈 招聘流程 投递简历 简历筛选 在线测评(重点来啦…

C++ 算法学习——1.6 前缀和与二维前缀和算法

前缀和算法(Prefix Sum Algorithm): 概念:前缀和算法通过在遍历数组时计算前缀和(从数组的第一个元素开始累加到当前元素的和),可以在O(1)时间内得到任意区间的子数组和,而不需要重复…

告别音乐小白!字节跳动AI音乐创作工具,让你一键变作曲家!

还在羡慕别人能创作动听的音乐?五音不全的你,也梦想着谱写属于自己的乐章?现在,机会来了!字节跳动推出了一款AI音乐创作工具——抖音推出的海绵音乐,它能让你轻松一键创作音乐,即使是“音乐小白…

海外科技新闻媒体与商业媒体:垂直网站的魅力与软文分发

海外科技新闻媒体与商业媒体:垂直网站的魅力与软文分发 在信息爆炸的时代,如何有效地传递品牌信息并提高知名度成为了许多企业的重要课题。在这个过程中,海外科技新闻媒体与商业媒体的垂直网站扮演了重要角色,而软文分发则因其独特…

笔试题总结

1.对于线性表的描述:存储空间不一定是连续,且各元素的存储顺序是任意的 2.虚函数的定义:函数的返回值参数不定, 声明: 类型,返回这类型 名字(); 例如声明一个虚函数&a…

计算机毕业设计 基于Python的豆果美食推荐系统的设计与实现 Python+Django+Vue 前后端分离 附源码 讲解 文档

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

JavaScript(JS)基础(一)

1、JavaScript(JS)简介 JavaScript 是一门跨平台、面向对象的脚本语言,它能使网页可交互(例如拥有复杂的动画,可点击的按钮,通俗的菜单等)。另外还有高级的服务端 Javascript 版本,例…

1.Python 引入(字面量、注释、变量、数据类型、数据类型转换、标识符、运算符、字符串扩展)

一、字面量 1、基本介绍 在代码中,被写直接下来的、不需要通过变量存储的值,称之为字面量 2、常用值类型 类型说明数字(Number)整数(int),例如:10、-10浮点数(float&…

Linux 检查一个文件是静态链接还是动态链接的方法

一、file 指令示例 在 Linux 系统中&#xff0c;可以使用 file 命令 来查看一个可执行文件是静态链接的还是动态链接的。 使用方式 file executable_file创建 hello_test.c 文件&#xff0c;测试代码如下&#xff1a; #include <stdio.h> int main(void){ printf(&q…

xss-labs靶场第一关测试报告

目录 一、测试环境 1、系统环境 2、使用工具/软件 二、测试目的 三、操作过程 1、注入点寻找 2、使用hackbar进行payload测试 3、绕过结果 四、源代码分析 五、结论 一、测试环境 1、系统环境 渗透机&#xff1a;本机(127.0.0.1) 靶 机&#xff1a;本机(127.0.0.…

2-115 基于matlab的瞬态提取变换(TET)时频分析

基于matlab的瞬态提取变换&#xff08;TET&#xff09;时频分析&#xff0c;瞬态提取变换是一种比较新的TFA方法。该方法的分辨率较高&#xff0c;能够较好地提取出故障的瞬态特征&#xff0c;用于故障诊断领域。通过对原始振动信号设置不同信噪比噪声&#xff0c;对该方法的抗…

国庆作业

day1 1.开发环境 Linux系统GCCFDBmakefilesqlite3 2.功能描述 项目功能: 服务器&#xff1a;处理客户端的请求&#xff0c;并将数据存入数据库中&#xff0c;客户端请求的数据从数据库进行获取&#xff0c;服务器转发给客户端。 用户客户端&#xff1a;实现账号的注册、登…

draw.io 设置默认字体及添加常用字体

需求描述 draw.io 是一个比较好的开源免费画图软件。但是其添加容器或者文本框时默认的字体是 Helvetica&#xff0c;一般的期刊、会议论文或者学位论文要求的英文字体是 Times New Roman&#xff0c;中文字体是 宋体&#xff0c;所以一般需要在文本字体选项里的下拉列表选择 …

2024 全新洞察:性格色彩报告 API 接口登场

近年来&#xff0c;人工智能技术的快速发展与应用&#xff0c;为我们的生活带来了诸多便利。其中&#xff0c;性格色彩报告 API 接口的登场&#xff0c;无疑是为我们了解自身性格特点提供了一种全新的方式。 性格色彩报告 API 接口&#xff0c;是一项基于性格色彩题库答案的技…

鸿蒙next开启地图服务

一般手机软件有的都会有开启地图功能&#xff0c;这里说一下怎么开启地图服务 1、 首先你需要配置一些东西&#xff0c;在华为的agc平台上&#xff0c;下边链接就是详细的教程 https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/map-config-agc-V5 我说一下你…

基于LORA的一主多从监测系统_框架搭建

第一节、框架搭建 打开CubeMAX&#xff0c;选择好芯片&#xff0c;进行基础配置 第一步、先配置时钟源 第二步、配置SYS选项 配置debug口以及计数器源&#xff0c;我这里选择TIM1 第三步、选择I2C接口 配置如下即可&#xff0c;默认配置不用改 第四步、串口选择 我们这里使…

2024年超火的AI绘画项目,多重变现方法,日赚1000+

一&#xff0e;项目介绍 绘画是一个很大的领域&#xff0c;今天讲是壁纸头像类的细分赛道&#xff0c;它可以说是一个经久不衰的项目。今年最火的项目肯定是AI&#xff0c;这个项目的核心是将AI生成的头像或壁纸上传到抖音或其他平台上进行变现。这个项目的变现渠道非常多&…