COT思维链,TOT思维树,GOT思维图,这些都是什么?

news2024/11/17 15:45:08

1. 导入

hallucinations

请添加图片描述

1. 什么是幻觉?

大模型出现幻觉,简而言之就是“胡说八道”。
用《A Survey on Hallucination in Large Language Models》文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。
研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。

请添加图片描述

2. 处理幻觉

在生产中,我们不喜欢hallucinations,我们需要准确的、正确的回答。

在实际生产落地中,我们会循序渐进的采用如下策略来提高准确性,降低幻觉:

策略难度数据要求准确性提升
Prompt engineering26%
Self-reflection26-40%
Few-shot learning (with RAG)少量50%
Instruction Fine-tuning中等40-60%

我们看下Prompt engineering中有哪些方法可以提高准确性。

COT: Chain of Thought

COT通过提供一系列推理步骤来帮助模型更好地解决问题。CoT的核心思想是引导模型逐步展示其思考过程,从而提高模型在复杂任务上的表现,如数学推理、逻辑推理等。CoT可以是Few-shot CoT,其中包含几个逐步推理的示例,也可以是Zero-shot CoT,只包含引导模型进行逐步推理的文本指令。

请添加图片描述

Auto COT

let’s think not just step by step, but also one by one

可以通过利用带有“let’s think step by step”提示的 LLM 来逐一生成演示的推理链,即:let’s think not just step by step, but also one by one,从而消除Few-shot CoT的手动工作。

请添加图片描述

Auto-CoT 主要由两个阶段组成:

  • 阶段1:问题聚类:将给定问题划分为几个聚类;
  • 阶段2:演示抽样:从每组数组中选择一个具有代表性的问题,并使用带有简单启发式的 Zero-Shot-CoT 生成其推理链.

Self-Consistency: 自我一致性

人类的一个显著特点是人们的思维方式不同。在需要深思熟虑的任务中,可能有几种方法可以解决问题。自我一致性可以通过从语言模型的解码器中采样,在语言模型中模拟这样的过程。

请添加图片描述

例如,如上图所示,一个模型可以对一个数学问题生成几个合理的答案,这些答案都得出相同的正确答案(输出 1 和 3)。由于语言模型不是完美的推理器,该模型也可能产生错误的推理路径或在推理步骤之一中犯错(例如,在输出 2 中),但这样的解决方案不太可能得出相同的答案。也就是说,我们假设正确的推理过程,即使它们是多种多样的,其最终答案往往比不正确的过程具有更大的一致性。

自我一致指的是大模型的输出自我一致,即多次采样得到的输出结果一致。

TOT: Tree of Thoughts

请添加图片描述

ToT 维护着一棵思维树,思维由连贯的语言序列表示,这个序列就是解决问题的中间步骤。使用这种方法,LM 能够自己对严谨推理过程的中间思维进行评估。LM 将生成及评估思维的能力与搜索算法(如广度优先搜索和深度优先搜索)相结合,在系统性探索思维的时候可以向前验证和回溯。

请添加图片描述

上图展示了一个简单的例子。

给定输入,LM 会抽样 5 个不同的方案,然后投票 5 次来决定哪个方案最好。然后使用多数选择,通过相同的抽样投票程序编写输出段落。

GOT: Graph of Thoughts

GoT 的核心思想和主要优势在于能够将 LLM 生成的信息建模为任意图,其中信息单元(“LLM Thoughts”)是顶点,而边对应于这些顶点之间的依赖关系。这种方法可以将任意的 LLM Thoughts组合成协同结果,提炼整个思想网络的精髓,或使用反馈循环增强思想。

请添加图片描述

总结

我认为COT能够以比较低的代价解决一些幻觉问题。但是TOT和GOT太fancy了,个人认为不太适合实际应用。与其这么复杂的prompt engineering,还不如换一个好的模型。

请添加图片描述

参考

[1] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

[2] Automatic Chain of Thought Prompting in Large Language Models

[3] Self-Consistency Improves Chain of Thought Reasoning in Language Models

[4] Tree of Thoughts: Deliberate Problem Solving with Large Language Models

[5] Graph of Thoughts: Solving Elaborate Problems with Large Language Models

[6] 提示工程指南

[7] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

欢迎关注我的GitHub和微信公众号:

GitHub: LLMForEverybody

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2104203.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于精益六西格玛管理方法进行生产线综合改善

生产线精益六西格玛改善是一个系统工程,只有对其进行系统的策划与组织,才能收到良好的改善效果。一般来说,需要成立一个专门的精益六西格玛推进组织,由其完成一系列的组织、准备工作。具体如下: (1&#xf…

AutosarMCAL开发——基于EB FlsLoader驱动

目录 1.FlsLoader原理2.EB配置以及接口应用3.总结 1.FlsLoader原理 FlsLoader模块提供对Dflash bank0以及整个Pflash的操作。Dflash数据存储器Pflash程序储存器,因此在实际运用中 2.EB配置以及接口应用 EB配置步骤 1.取消安全检查,其他所有配置保持默…

《物流工程与管理》是什么级别的期刊?是正规期刊吗?能评职称吗?

​问题解答 问:《物流工程与管理》是不是核心期刊? 答:不是,是知网收录的第一批认定学术期刊。 问:《物流工程与管理》级别? 答:国家级。主管单位: 全国商品养护科技情报中心站 …

mongodb在Java中条件分组聚合查询并且分页(时间戳,按日期分组,年月日...)

废话不多说,先看效果图: SQL查询结果示例: 多种查询结果示例: 原SQL: db.getCollection("hbdd_order").aggregate([{// 把时间戳格式化$addFields: {orderDate: {"$dateToString": {"for…

分类预测|基于蜣螂优化极限梯度提升决策树的数据分类预测Matlab程序DBO-Xgboost 多特征输入单输出 含基础模型

分类预测|基于蜣螂优化极限梯度提升决策树的数据分类预测Matlab程序DBO-Xgboost 多特征输入单输出 含基础模型 文章目录 一、基本原理1. 数据准备2. XGBoost模型建立3. DBO优化XGBoost参数4. 模型训练5. 模型评估6. 结果分析与应用原理总结 二、实验结果三、核心代码四、代码获…

龙兴物联5G物联网主机:开启电力智能化新篇章

在当今时代,电力行业的智能化已成为不可阻挡的趋势。随着社会对电力需求的持续增长以及对供电质量和可靠性要求的不断提高,传统的电力系统管理模式逐渐难以满足需求。 智能化技术的融入为电力系统带来了革命性的变革。通过先进的传感器、通信网络和数据分…

ELK系列之一---探索ELK奇妙世界:初识日志界大名鼎鼎的ES集群!

目录 一、为什么要使用ELK 二、ELK简介 三、Elaticsearch入门 3.1、什么是elaticsearch 3.2、elaticsearch的底层优点 3.2.1、全文检索 3.2.2、倒排索引 3.3、elaticsearch集群原理 一、为什么要使用ELK 一般我们需要进行日志分析场景:直接在日志文件中 gre…

Linux -文件I/O操作

文章目录 C语言文件I/O相关函数操作fopen/fcolsefwritefseekfprintf/fscanffgets/fputs 系统调用相关接口open/closewrite/read C语言文件I/O相关函数操作 fopen/fcolse fopen 函数用于打开一个文件,并根据指定的模式(如只读、只写、读写等&#xff09…

SaaS行业渠道管理的深度探索:两种增长模式哪个更强?

在当今数字化时代,SaaS(Software-as-a-Service)行业正以前所未有的速度重塑企业运营模式。随着市场的日益成熟与竞争的加剧,渠道管理不再仅仅是产品销售的通道,而是成为了SaaS企业构建生态体系、实现业务飞跃的重要策略…

分类预测|基于粒子群优化轻量级梯度提升机算法数据预测Matlab程序PSO-LightGBM 多特征输入多类别输出

分类预测|基于粒子群优化轻量级梯度提升机算法数据预测Matlab程序PSO-LightGBM 多特征输入多类别输出 文章目录 一、基本原理二、实验结果三、核心代码四、代码获取五、总结 分类预测|基于粒子群优化轻量级梯度提升机算法数据预测Matlab程序PSO-LightGBM 多特征输入多类别输出 …

电脑录屏软件哪家强?这6款高效免费工具让你轻松捕捉电脑屏幕

在数字化浪潮的推动下,电脑录屏软件的选择变得琳琅满目,本文旨在帮助您挑选出最适合您需求的录屏工具。 电脑录屏软件在我们的日常工作、学习乃至娱乐活动中扮演着越来越重要的角色。无论是为了记录PPT的演示过程、捕捉QQ、微信、腾讯会议等设计软件的对…

C8T6超绝模块--按键检测点亮LED

C8T6超绝模块–按键检测点亮LED 大纲 按键原理初始化LED初始化按键编写main 具体案例 按键原理 (这里针对的是我的板子的原理图,具体的查看自己的板子)注意看,这里按键一端接到的是地,当我们没按下按键时,其默认是低电压&…

linux环境下升级nodejs版本

文章目录 简介清除缓存信息确保已安装Node.js和npm安装n模块使用n来升级Node.js查看可用的Node.js版本升级Node.js到最新版本注意事项版本兼容性考虑 简介 在Linux环境下,使用npm的n模块来升级Node.js版本是一种非常流行且便捷的方法。n是一个Node.js版本管理工具&…

【OpenCV】通过迭代器获取图像的像素

文章目录 1. 前置知识2. 通过迭代器获取图像的像素 1. 前置知识 🐧 什么叫做像素? 最小的 图像单元,每个像素可以看成图像中的一个点,它具有颜色、亮度等属性。 cv::Mat是OpenCV中用来处理图像数据的主要数据结构,他实…

tomato靶场通关攻略

1.御剑2014找到IP地址 2.dirb扫描目录 3.再次详细扫描目录 4.访问找到的目录文件 进入antibots中 5.搜寻一会再info.php里面发现有东西 6.这个地方貌似可以进行利用 7.查看源代码发现包含include文件上传漏洞 8.网址后面跟?image../../../../../../../etc/passwd 9.既然可以查…

ceph-iscsi 手动安装过程中的一些问题记录以及解决办法

ceph-iscsi 手动安装教程 安装教程,建议直接看官方文档,猛戳传送门。官方教程是英文版的(不知道有没有中文版),都是一些基础英语,问题不大,实在不行找个翻译软件帮帮忙,哈哈哈。 多…

黄力医生揭秘血栓‘成长’之路,七类人群需高度警惕!

血栓,这个潜伏在血液中的“隐形杀手”,悄无声息地阻塞着生命的通道。它如同道路上的障碍,一旦形成,便可能随着血液流向身体各处,引发脑梗、心梗甚至肺栓塞等严重后果。然而,大多数血栓在形成初期并无明显症…

CodeMeter赋能工业应用程序市场,实现安全与灵活的应用管理

面临挑战 在快速发展的工业自动化领域,软件保护和许可成为各行业决策者日常面临的关键问题。无论是自制还是购买,都需应对复杂的集成任务和多样化的用户需求。对于软件开发者来说,将先进的保护和许可技术(如CodeMeter)…

ISO 26262中的失效率计算:SN 29500-11 Expected values for contactors

目录 引言 1 基准条件下的失效率 2 失效率转换 2.1 失效率预测模型 2.2 开关速率应力系数 2.3 电压应力系数 2.3.1 电压应力系数计算模型 2.3.2 电压应力系数计算 2.4 电流应力系数 2.4.1 电流应力系数计算模型 2.4.2 电流应力系数计算 2.5 温度应力系数 2.6 环境…

Web前端 lucky-canvas【大转盘 九宫格 老虎机】抽奖插件(适用JS/TS、Vue、React、微信小程序、Uniapp和Taro)

Web前端 lucky-canvas 抽奖插件(JS/TS、Vue、React、微信小程序、Uniapp和Taro) 基于 JS Canvas 实现的【大转盘 & 九宫格 & 老虎机】抽奖,致力于为 WEB 前端提供一个功能强大且专业可靠的营销组件,只需要通过简单配置即…