RAFT RAG GraphRAG

news2024/11/14 21:59:04

解读人类语言真实意图是一门不完美的学问。相关搜索是一个认知迷宫,即使是最先进的 AI 也无法(完全)解决!

图片

# RAG Retrieval-Augmented Generation

图片

# Retrieval Augmented FineTuning(RAFT)

RAFT的核心思想是结合监督式微调(Supervised Fine-Tuning, SFT)和检索增强型生成(Retrieval-Augmented Generation, RAG)来适应特定领域的知识。

图片

PS: 关联和非关联文档, + COT chain of thought 

# GraphRAG 

GraphRAG is a structured, hierarchical approach to Retrieval Augmented Generation (RAG), as opposed to naive semantic-search approaches using plain text snippets. The GraphRAG process involves extracting a knowledge graph out of raw text, building a community hierarchy, generating summaries for these communities, and then leveraging these structures when perform RAG-based tasks.

图片

PS: 召回方式的改变.

# Open Search(ES)

现在企业级搜索主流的解决方案ES(或分出来的open search), 最近都积极融入了 LLM + Vector DB 等解决方案,从成本和风险角度, 吸引力更大!

  1. 意图识别

  2. 实体识别

  3. 召回

  4. 粗排,精排

  5. Query 改写, 常用词,同义词...

  • Search for exact values

  • Search for exact values or ranges of numbers, dates, IPs, or strings.

  • Full-text search

  • Use full text queries to query unstructured textual data and find documents that best match query terms.

  • Vector search

  • Store vectors in vector DB and use approximate nearest neighbor (ANN) or k-nearest neighbor (kNN) search to find vectors that are similar, supporting use cases like semantic search.

搜索相关性所使用的算法

搜索相关性由评估、处理、检索和排名信息的复杂算法提供支持。搜索相关性算法用于解读关键词意图的语义,评估来源的权威性,以及解码参与度、地理位置个人偏好等信号。

常见的搜索相关算法包括:

  1. TF-IDF(词频-逆文档频率)用于评估关键词的重要性,并对在目标文档中经常出现但不在其他文档中出现的字词给予奖励。

  2. RankBrain 是 Google 开发的一种 AI 算法,它使用机器学习来解读和处理查询,以便更好地理解用户意图,因为用户意图通常会有细微差别或者模棱两可。

  3. 向量空间模型的工作原理是将文档和查询表示为维度空间中的向量以便进行比较和排名。

  4. 潜在语义分析使用统计方法处理相关字词和短语,以此来识别字词之间的潜在关系。

  5. 自然语言处理 (NLP) 是一种机器学习方法,有助于搜索引擎更好地理解搜索中使用的人类语言的上下文和语义。(NLU)

搜索相关性的关键因素

  1. 文本分析和关键词相关性:语言措辞、同义词、词语变体、拼写错误、地区性拼写变体和语音拼写

  2. 内容质量: 权威,新鲜度

  3. 词加权: 关键词 weight

  4. 用户意图: 语义上下文

  5. 个性化和本地化:用户特定的因素,地理位置、语言、设备类型,搜索历史

  6. 用户参与度指标:点击率

消除低质量的搜索结果是一个令人沮丧的过程,而且解决方案并不总是透明的。在解释具有多种含义的查询时,总会存在固有的歧义。在没有太多其他依据的情况下解读人类语言真实意图是一门不完美的学问。相关搜索是一个认知迷宫,即使是最先进的 AI 也无法(完全)解决

语义搜索用于解释用户查询的含义,它使用上下文来响应用户的意图,而不是逐字搜索。向量搜索通常用于语义搜索,通过利用近似最近邻 (ANN) 算法来查找相似数据,从而生成相关性更高的结果。混合搜索同时使用支持向量的搜索方法和关键词搜索方法。

混合解决方案--甚至包括转人工,可能才是最后的正解

 ApiHug 准则:

  1. 📐 设计先行:  Design First

  2. 📑 协议驱动:Specification Driven

  3. 🗺️ 单一信任源: Single Source of Truth

  4. ❤️ 开发同理心: Development Empathy

ApiHug:

  1. 无服务: 一切尽在本地, 或者您的内部 Repository

  2. 无强依赖: 遵循行业最佳、最成熟实践、可插拔 

  3. 无隐藏:一切尽公开透明

📐设计先行

通过统一的API 设计元语(DSL, domain specific language), 让API 设计更语言化(Describe);实现高度的一致化,和高复用。

📑协议驱动

OAS (OpenAPI specification), 是 ApiHug世界的 "金科玉律", 严格保证定义 ↔ 实现之间同构(isomorphism)态射。

🗺️单一信任源

实现 API 从:蓝图→施工→测试→落地,不走样, 不变形,不改味。极致沟通效率和极低信任成本。

❤️ 开发同理心

置身于多种角色,感同身受,在快和慢,现在和将来,个体和团队上综合平衡,极具同理心是ApiHug 人文基础,她不仅仅是一段代码,一个工具,一种方式。

We Build What We Love & Love What We Built

https://apihug.com/docs/start/what-is-apihug

快速开启 - ApiHug如何在15分钟内,使用 ApiHug 启动一个API开发项目.icon-default.png?t=N7T8https://apihug.com/zhCN-docs/start

# 参考

  1. https://cloud.tencent.com/developer/article/2407760

  2. https://blog.51cto.com/u_15610758/10417184

  3. https://gorilla.cs.berkeley.edu/

  4. https://gorilla.cs.berkeley.edu/blogs/9_raft.html

  5. https://techcommunity.microsoft.com/t5/ai-ai-platform-blog/raft-a-new-way-to-teach-llms-to-be-better-at-rag/ba-p/4084674

  6. https://www.elastic.co/cn/what-is/search-relevance

  7. https://microsoft.github.io/graphrag/

  8. https://www.nebula-graph.io/posts/graph-RAG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1920672.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云WAF | 云waf保护你的网络安全

随着时代的发展,云计算与网络安全成为当今社会的热点问题。由于网络环境的日益复杂,网络安全问题日益突出,网络安全问题日益突出。近年来,各类网络安全工具与技术层出不穷,以保障用户信息及企业财产安全。云服务防火墙…

机器学习——决策树(笔记)

目录 一、认识决策树 1. 介绍 2. 决策树生成过程 二、sklearn中的决策树 1. tree.DecisionTreeClassifier(分类树) (1)模型基本参数 (2)模型属性 (3)接口 2. tree.Decision…

289个地级市-资源型城市划分数据

资源型城市:经济地理的独特现象与可持续发展的挑战 资源型城市是指那些以丰富的自然资源为基础,对国家经济和工业化进程有着重要影响的城市。这些城市在国家现代化建设中扮演着关键角色,其发展状况直接关系到区域经济的繁荣与社会的稳定。 资…

Go-知识测试-模糊测试

Go-知识测试-模糊测试 1. 定义2. 例子3. 数据结构4. tesing.F.Add5. 模糊测试的执行6. testing.InternalFuzzTarget7. testing.runFuzzing8. testing.fRunner9. FuzzXyz10. RunFuzzWorker11. CoordinateFuzzing12. 总结 建议先看:https://blog.csdn.net/a1879272183…

GitHub连接超时问题 Recv failure: Connection was reset

用手机热点WIF拉取git项目的时候,遇到Recv failure: Connection was reset问题。 解决办法 一、手动开启本地代理 二、在终端(cmd)输入命令 git config --global http.proxy http://127.0.0.1:7890 git config --global https.proxy https:…

QT实现自定义带有提示信息的透明环形进度条

1. 概述 做界面开发的童鞋可能都会遇到这样的需求,就是有一些界面点击了之后比较耗时的操作,需要界面给出一个环形进度条的进度反馈信息. 如何来实现这样的需求呢,话不多说,上效果 透明进度条 2. 代码实现 waitfeedbackprogressba…

2006-2021年 291个地级市资源错配指数、劳动和资本相对扭曲指数do文件和结果

资源错配指数:衡量生产要素配置效率的关键指标 资源错配指数(Misallocation Index)是一个衡量资源配置效率的指标,它反映了生产要素是否得到了合理配置,以及是否达到了生产效率的最优状态。一个较高的资源错配指数意味…

three-tile: 一个开源的轻量级三维瓦片库

three-tile 介绍 three-tile 是一个开源的轻量级三维瓦片库,它基于threejs使用typescript开发,提供一个三维地形模型,能轻松给你的应用增加三维瓦片地图。 https://blog.csdn.net/HZGJF/article/details/140280844 源码:https:/…

malloc与free函数的用法(精简全面 · 一看即懂)

前言:Hello大家好😘,我是心跳sy,今天为大家带来malloc函数与free函数的用法,我们一起来看看吧! 目录 一、malloc函数 💫 1、⭐️malloc函数对应的头文件⭐️ 2、⭐️malloc函数的作用⭐️ 3…

高职计算机网络实训室

一、高职计算机网络实训室建设的背景 如今,数字化发展已成为国家发展的战略方向,是推动社会进步和经济发展的重要动力。在这一时代背景下,计算机网络技术作为数字化发展的基础设施,其地位和作用愈发凸显。因此,高职院…

Windows中nvm的安装配置和卸载

文章目录 Windows中安装配置,和卸载nvm一、卸载node二、安装vnm三、配置环境(配置路径和下载源)四、使用nvm安装node五、nvm常见的命令六、nvm的卸载 Windows中安装配置,和卸载nvm 一、卸载node 如果没有node可以直接了跳过该步…

<数据集>Udacity交通目标识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:13239张(实际有15000张,但其中1761张无标签的图片被我去除掉) 标注数量(xml文件个数):13239 标注数量(txt文件个数):13239 标注类别数:11 标注…

全开源TikTok跨境商城源码/TikTok内嵌商城+搭建教程/前端uniapp+后端

多语言跨境电商外贸商城 TikTok内嵌商城,商家入驻一键铺货一键提货 全开源完美运营 海外版抖音TikTok商城系统源码,TikToK内嵌商城,跨境商城系统源码 接在tiktok里面的商城。tiktok内嵌,也可单独分开出来当独立站运营 二十一种…

Tomcat下载安装配置教程(零基础超详细)

「作者简介」:冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础著作 《网络安全自学教程》,适合基础薄弱的同学系统化的学习网络安全,用最短的时间掌握最核心的技术。 Tomcat 1、下载…

Docker 镜像构建报 exec xxx.sh: no such file or directory

问题记录 场景: 处于对nacos docker 部署最新版本的探究,但是nacos/nacos-server镜像拉取不到最新版本,官网也是给出自己构建镜像的方案。 具体步骤很简单,先clone项目,然后签出你要的nacos版本,通过docke…

Java——IO流(二)-(7/7):补充知识:IO框架(什么是框架、什么是IO框架、Commons-io)

目录 什么是框架 什么是IO框架 Commons-io 常用方法 框架下载 框架导入 实例演示 什么是框架 解决某类问题,编写的一套类、接口等,可以理解成一个半成品,大多框架都是第三方研发的。好处:在框架的基础上开发,可…

edge 学习工具包 math solver

简介 推荐微软推出的学习工具中的两项工具:数学求解器和 pdf 阅读器。 打开 edge 学习工具包的方法 :右上角三点-更多工具-学习工具包。 math solver 除了基础的计算求解外,还用图标展示公式,清晰直观。 地址:求解…

Vue 中的 scoped 和 /deep/ 深度选择器

Vue在组件里写 css 给 <style> 标签加上 scoped &#xff0c;比如&#xff1a; <style lang"less" scoped> &#xff0c;这样的 css 就是局部的&#xff0c;不会影响其他组件。 假设引入了一个子组件&#xff0c;并希望在组件中修改子组件的样式&#x…

多波束常用设备的坐标系统

CARIS处理多波束的时候&#xff0c;一般首先要建立船型文件&#xff0c;采集的设备或软件不同&#xff0c;其船型文件也不同&#xff0c;其中最关键就是采集设备和软件的坐标系统。 为了使用方便&#xff0c;不用费力地去查对应的使用手册&#xff0c;现将常用多波束设备和软件…

VMware vSAN 8.0U3 - 存储虚拟化软件

VMware vSAN 8.0U3 - 存储虚拟化软件 vSAN 8 with Express Storage Architecture 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-vsan/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;sysin.org VMware vSAN 存储虚拟化软…