chain of thought (思维链, cot)

news2024/11/25 2:34:12

定义

思维链 (Chain-of-thought,CoT) 的概念是在 Google 的论文 "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" 中被首次提出。思维链(CoT)是一种改进的提示策略,用于提高 LLM 在复杂推理任务中的性能,如算术推理、常识推理和符号推理

如上图,左边是传统的输入输出,右边是基于CoT思想的输入及输出。高亮部分及CoT, 说白了就是一个推理过程。

few-shot CoT

Few-shot CoT 是 ICL (in-context-learning)的一种特殊情况,它通过融合 CoT 推理步骤,将每个演示〈input,output〉扩充为〈input,CoT,output〉

类似上图所示右边的例子

zero-shot CoT

与 Few-shot CoT 不同,Zero-shot CoT 在 prompt 中不包括人工标注的任务演示。相反,它直接生成推理步骤,然后使用生成的 CoT 来导出答案。其中 LLM 首先由 “Let's think step by step” 提示生成推理步骤,然后由 “Therefore, the answer is” 提示得出最终答案。

举例:

假设我们有如下一个原始问题:

罗杰有5个网球。他又买了2罐网球。每个罐子有3个网球。他现在有多少个网球?

步骤一:构建prompt如下,让模型输出推理过程

问:罗杰有5个网球。他又买了2罐网球。每个罐子有3个网球。他现在有多少个网球?
答:让我们一步一步的思考。

模型输出结果:

首先,罗杰原本有 5 个网球。
然后,他买了 2 罐网球,每罐有 3 个网球,所以总共买了 2 * 3 = 6 个网球。
因此,罗杰现在有的网球数量为:
5(原来的网球) + 6(新买的网球) = 11 个网球。

步骤二:我们已经拿到了模型的推理过程了(即CoT),现在我们把CoT拼接起来,构造一个新的prompt给模型输出最终答案,prompt 如下:

问:罗杰有5个网球。他又买了2罐网球。每个罐子有3个网球。他现在有多少个网球?
答:让我们一步一步的思考。
首先,罗杰原本有 5 个网球。
然后,他买了 2 罐网球,每罐有 3 个网球,所以总共买了 2 * 3 = 6 个网球。
因此,罗杰现在有的网球数量为:
5(原来的网球) + 6(新买的网球) = 11 个网球。
所以最后的答案是:

模型输出:

罗杰现在有 11 个网球。

结论

  • CoT 对小模型作用不大,模型参数至少达到 10B 才有效果,达到 100B 效果才明显。并且,从小模型的输出可以看出,它们大部分是输出了流畅但不合逻辑的 CoT,因此得到错误的结果。

  • CoT 对复杂的问题的性能增益更大,例如 GSM8K(更难,因为基线最低)上 GPT-3 和 PaLM 的性能增加了一倍多。而对于 MAWPS-SingleOp(更简单的任务),性能改进非常小甚至是负面的。

  • 加上 CoT 的 PaLM 540B 超过了任务特定的用监督学习训练的模型的最优结果。不加 CoT 的话 GSM8K 和 MAWPS 任务上 LLM 的结果比不过最优的监督学习模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/949657.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

c++ 面试题(2)--STL ,新特性

目录 1 STL 1 请说说 STL 的基本组成部分 2 请说说 STL 中常见的容器,并介绍一下实现原理 3 说说 STL 中 map hashtable deque list 的实现原理 4 请你来介绍一下 STL 的空间配置器(allocator) 6 迭代器用过吗?什么时候会失…

医院常见的HIS、CIS、LIS、EMR、PACS、RIS医疗信息化中的介绍

医院常见的HIS、CIS、LIS、EMR、PACS、RIS分别是: HIS(Hospital Information System):医院信息系统,是医院管理信息化的核心系统,包括病人管理、医生管理、药品管理、医疗设备管理、财务管理等多个方面&am…

拿来即用修改密码功能

<template><div><!-- 重置密码 --><el-dialogtitle"修改密码"v-model"state.resetPwdDialogVisible":showClose"state.firstLogin ! 1"width"550px"close"onCancel":close-on-click-modal"false&…

环球新材国际公布2023年中期业绩:上半年业绩符合预期 公司经营稳健可持续

8月25日&#xff0c;环球新材国际&#xff08;6616.HK&#xff09;公布2023年中期业绩&#xff0c;上半年公司营收4.64亿元&#xff0c;毛利润为2.25亿元。毛利率为48.4%&#xff0c;较2022年同期略降2.8个百分点。净利润为9470万元&#xff0c;较2022年同期下降14.5%&#xff…

工业状态监测如何选择合适的无线技术?

工业领域的状态监测在提高生产效率和产品质量方面起着关键作用。过去依赖于预防性维护和例行检查的方式已经不再能满足日益复杂的生产需求&#xff0c;随着工业物联网&#xff08;IIoT&#xff09;的兴起&#xff0c;设备状态监测逐渐成为一种关键策略&#xff0c;催生了预测性…

机器学习---决策树的划分依据(熵、信息增益、信息增益率、基尼值和基尼指数)

1. 熵 物理学上&#xff0c;熵 Entropy 是“混乱”程度的量度。 系统越有序&#xff0c;熵值越低&#xff1b;系统越混乱或者分散&#xff0c;熵值越⾼。 1948年⾹农提出了信息熵&#xff08;Entropy&#xff09;的概念。 从信息的完整性上进⾏的描述&#xff1a;当系统的有序…

纵行科技与山鹰绿能达成合作,提供物联网资产管理数据服务

近日&#xff0c;纵行科技与山鹰绿能宣布双方达成深度合作关系&#xff0c;纵行科技将为山鹰绿能提供专业的物联网技术服务&#xff0c;使用物联网技术帮助山鹰绿能对循环包装载具等资产进行在线管理和数字化运营。 据悉&#xff0c;山鹰绿能是一家由山鹰国际控股的全资子公司…

Meta发布AIGC生成式人工智能模型来生成音乐与音效——AudioCraft

近年来,包括语言模型在内的生成式人工智能模型取得了巨大进步,特别是ChatGPT的发布,让大家看到了大语言模型的魅力。无论是计算机视觉,还是nlp领域的文本描述生成各种图像和视频,到执行机器翻译,文本生成等等大模型上,其都取得了令人意想不到的发展。但音乐与音频上似乎…

LLM推理部署(一):LLM七种推理服务框架总结

自从ChatGPT发布以来&#xff0c;国内外的开源大模型如雨后春笋般成长&#xff0c;但是对于很多企业和个人从头训练预训练模型不太现实&#xff0c;即使微调开源大模型也捉襟见肘&#xff0c;那么直接部署这些开源大模型服务于企业业务将会有很大的前景&#xff0c;本文将介绍七…

多张图片转为pdf怎么弄?

多张图片转为pdf怎么弄&#xff1f;在网络传输过程中&#xff0c;为了避免图片格式文件出现差错&#xff0c;并确保图片的清晰度和色彩不因不同设备而有所改变&#xff0c;常见的做法是将图片转换为PDF格式。然而&#xff0c;当涉及到多张图片时&#xff0c;逐一转换将会变得相…

如何使用Puppeteer进行新闻网站数据抓取和聚合

导语 Puppeteer是一个基于Node.js的库&#xff0c;它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer&#xff0c;我们可以实现各种自动化任务&#xff0c;如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚…

SpringBoot的自动装配源码分析

文章目录 一&#xff1a;什么是自动装配二、springboot的启动流程1.调用SpringApplication&#xff08;&#xff09;的构造方法2.执行核心run方法&#xff08;&#xff09;3.执行核心prepareContext&#xff08;&#xff09;4.执行核心refreshContext&#xff08;&#xff09;5…

信创软件测试质量的四个特性是什么?

对于信创软件而言&#xff0c;需结合其自身的特点、用户单位的实际使用需求&#xff0c;选择合适的质量特性范围&#xff0c;制定恰当的测试方案&#xff0c;以最大效率发现适配问题、尽快地完成适配质量的提升。那么&#xff0c;信创软件测试质量的四个特性是什么?下面&#…

【状压+概率DP】CF678 E

Problem - E - Codeforces 题意&#xff1a; 思路&#xff1a; 首先&#xff0c;n < 18&#xff0c;应当想到状压 很明显&#xff0c;这里可以使用状压DP 设 dp[s][i] 表示&#xff0c;现在选的方案为 s &#xff0c;且我是 i 的最终胜利的概率是多少 重要的是转移 这是…

1688API技术解析,实现获得店铺的所有商品

获得店铺的所有商品可以通过1688的开放API实现。以下是对1688API的技术解析&#xff1a; 1. 注册成为开发者&#xff1a;首先&#xff0c;你需要在1688开放平台上注册成为开发者&#xff0c;并创建一个应用来获取API授权。 2. 获取授权访问令牌&#xff1a;通过使用OAuth 2.0…

Centos7 + Apache Ranger 2.4.0 部署

一、Ranger简介 Apache Ranger提供一个集中式安全管理框架, 并解决授权和审计。它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。 1、组件列表 # Service Name Liste…

nil、空接口和空结构体联系与区别

nil&#xff1a; nil是空&#xff0c;并不一定是空指针&#xff0c;nil是一个变量&#xff0c;类型是Type 可能是一下6中类型&#xff0c;以下6种类型的初始值 空结构体

简易虚拟培训系统-UI控件的应用4

目录 Slider组件的常用参数 示例-使用Slider控制主轴 示例-Slider控制溜板箱的移动 本文以操作面板为例&#xff0c;介绍使用Slider控件控制开关和速度。 Slider组件的常用参数 Slider组件下面包含了3个子节点&#xff0c;都是Image组件&#xff0c;负责Slider的背景、填充区…

linux————ELK(日志收集系统集群)

一、概述 一、为什么要使用ELK 日志对于分析系统、应用的状态十分重要&#xff0c;但一般日志的量会比较大&#xff0c;并且比较分散。 如果管理的服务器或者程序比较少的情况我们还可以逐一登录到各个服务器去查看、分析。但如果服务器或者程序的数量比较多了之后这种方法就显…