提示词工程入门-使用文心一言4.0-通义千问-GPT4-Claude3通用提示技巧测试

news2024/11/24 17:16:32

提示词工程基础🚀

       在了解完了大语模型的基本知识,例如API的使用多轮对话,流式输出,微调,知识向量库等知识之后,接下来需要进一步补足的一个大块就是提示词工程,学习和了解提示词工程除了基本的提示词类型之外,不同的大模型对于提示词工程润色之后的提示词的反应如何,也是比较值得关注的一点,因此本文使用文心一言4.0,通义千问,ChatGPT4, Claude3,四种模型来实验一下各类的提示词


文章目录

  • 提示词工程基础🚀
  • 1.什么是提示词工程
  • 2.提示词要素
  • 3.提示词的通用技巧
    • 3.1 在提示词中明确指令
      • 3.1.1 输入基础和改进之后的提示词模型的输出
      • 3.1.2 结果对比分析
    • 3.2 具体描述输出所要的格式
      • 3.2.1 输入基础和改进之后的提示词模型的输出
      • 3.2.2 结果对比分析
    • 3.3精确描述想要的内容不要概括
      • 3.3.1 输入基础和改进之后的提示词模型的输出
      • 3.3.2 结果对比分析
    • 3.4 以鼓励的方式向大模型提问
      • 3.4.1 输入基础和改进之后的提示词模型的输出
      • 3.4.2 结果对比分析
  • 4.整体结果分析
  • 结束


https://www.promptingguide.ai/zh
在这里插入图片描述
       首先分享一个网站这是我在谷歌上搜索到的,一个非常好的提示词学习网站,不但由简单到难的总结了提示词工程中的各种概念要素和提示词的各类技术,后面还包括了一些工具,笔记,还有一些提示词领域的优秀的论文,并不断的对论文进行更新,根据这个网站的逻辑,这篇文章首先测试一下其中的通用提示词技巧,最如果有什么错误或者不完善的非常欢迎沟通交流。

1.什么是提示词工程


这里先引用上面的提示词指南中对提示词工程的介绍:

提示工程(Prompt Engineering)是一门较新的学科,关注提示词开发和优化,帮助用户将大语言模型(Large Language Model, LLM)用于各场景和研究领域。 掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。

我个人的感觉的话就是针对不同类型的问题然后找出一些通用的提示结构从而让回答的正确率和质量更高。

2.提示词要素


这里我认为提示词指南网站里的解释非常好,我就直接给粘过来,然后补充点自己的理解。
在这里插入图片描述
提示词的四要素:

指令:想要模型执行的特定任务或指令。

上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。

输入数据:用户输入的内容或问题。

输出指示:指定输出的类型或格式。

一般来说我们在使用大模型的时候,都是直接输入指令和数据,但是如果能有效的提供上下文和输出格式,则一般而言回答的质量会更高。

3.提示词的通用技巧


3.1 在提示词中明确指令

在这里插入图片描述
明确指令的过程中的要点如下:

  • 使用例如“写入”、“分类”、“总结”、“翻译”、“排序”等明确的提示词
  • 将“###指令###”放在开头

接下来我们分别测试三种

将“hello!”翻译成西班牙语
将以下文本翻译成西班牙语:
文本:“hello!”
### 指令 ###
将以下文本翻译成西班牙语:
文本:“hello!”

为了避免多轮对话的记忆,因此每次实验都新开一个会话


3.1.1 输入基础和改进之后的提示词模型的输出

文心一言

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


ChatGPT4

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.1.2 结果对比分析


       下面是我自我感受的一个测试结果,纯个人感受,文心一言的基础效果给差是因为,只有文心一言的基础结果输出时候,翻译出的西班牙语少了开头的一个符号(但我不知道重要不重要不太懂西班牙语),剩下的情况翻译的情况都基本是正确的,虽然额外的表示方式或是信息不同。

模型名称基础效果使用提示技巧效果特点相关任务推荐建议
文心一言4.0良好不是很推荐
通义千问良好良好只输出结果需要精简回答时推荐
GPT4良好良好结果前会铺垫一句描述对话场景推荐
Claude3良好良好会自动切换回答语言需自动切换语言时推荐

3.2 具体描述输出所要的格式

在这里插入图片描述
接下来测试两种文本:

提取以下文本中的地名。
输入:“虽然这些发展对研究人员来说是令人鼓舞的,但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说:“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它,我们实际上需要了解机制。”
提取以下文本中的地名。
所需格式:
地点:<逗号分隔的公司名称列表>
输入:“虽然这些发展对研究人员来说是令人鼓舞的,但仍有许多谜团。里斯本未知的香帕利莫德中心的神经免疫学家 Henrique Veiga-Fernandes 说:“我们经常在大脑和我们在周围看到的效果之间有一个黑匣子。”“如果我们想在治疗背景下使用它,我们实际上需要了解机制。”

3.2.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述


GPT4

在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述

3.2.2 结果对比分析

       在通用提示词中明确指令前文测试结果,这里两个地名都识别出来了我认为是正确,然后识别出来一个的我就给了差。然后较好是有时候正确有时候错误我就给了较好。

模型名称基础效果使用提示技巧效果特点相关任务推荐建议
文心一言4.0不是很推荐
通义千问良好较好不改进提示词前正确,改进有时正确有时错误推荐不改进提示词使用
GPT4不是很推荐
Claude3良好不改进之前错误,改进之后正确推荐改进提示词之后使用

3.3精确描述想要的内容不要概括

在这里插入图片描述

向高中学生解释提示工程的概念。
使用 2-3 句话向高中学生解释提示工程的概念。

3.3.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述

在这里插入图片描述


通义千问

在这里插入图片描述

在这里插入图片描述


ChatGPT4

在这里插入图片描述

在这里插入图片描述


Claude3

在这里插入图片描述

在这里插入图片描述

3.3.2 结果对比分析

然后由于这是一个开放性问题没有正确答案,大家总结的也都不错但是有个明显的区别。

  • 国内的两个模型文心一言和通义千文把提示工程认为是一种提示作用的行为然后讲述出来
  • 国外的两个模型把提示工程认为提示工程是大模型中的提示词工程而进行输出描述。

我个人认为在这方面国外的两个模型的表现要更好或者更符合当前科技背景一些。


3.4 以鼓励的方式向大模型提问

在这里插入图片描述
测试的两个文本如下

以下是向客户推荐电影的代理程序。不要询问兴趣。不要询问个人信息。

客户:请根据我的兴趣推荐电影。
代理:
以下是向客户推荐电影的代理程序。代理负责从全球热门电影中推荐电影。它应该避免询问用户的偏好并避免询问个人信息。如果代理没有电影推荐,它应该回答“抱歉,今天找不到电影推荐。”
顾客:请根据我的兴趣推荐一部电影。
客服:

3.4.1 输入基础和改进之后的提示词模型的输出


文心一言

在这里插入图片描述
在这里插入图片描述


通义千问

在这里插入图片描述
在这里插入图片描述


ChatGPT4-以鼓励的方式向大模型提问

在这里插入图片描述
在这里插入图片描述


Claude3

在这里插入图片描述
在这里插入图片描述

3.4.2 结果对比分析

这里除了GPT4,其他模型都没有完成拒绝推荐的指令,因此GPT在理解复杂指令方面还是表现出了领先的优势。

4.整体结果分析


  • 随着大模型的发展,提示词工程的通用技巧之后的模型绝大多数情况下都好于改善了之前,但也有更差的情况,个人认为随着大模型的发展,提示词工程的作用在不断的降低。如果把上述四种提示词基础功能分别对应四种任务的话我粗略的给每个模型排个名仅供参考
模型名称明确指令任务中实体识别任务精确内容任务附加条件任务综合排名(求和)
文心一言4.043324
通义千问11323
GPT413111
Claude312121
  • GPT在中文实体识别任务中不如通义千问和Claude3其他任务中全处在最优水平,而且在理解复杂逻辑方面遥遥领先
  • Claude各方面能力相当均衡没有明显的短板
  • 国产模型在整体能力上距离世界领先水平还有一段空间,加油我们自己大模型一定会越来越好。

结束


这个对比就到这,毕竟花了好多钱开了这这些大模型,争取把能测试都测试一遍,后面从零样本提示开始做实验,进一步看一下各个模型在面对复杂情况下表现和提示词能起到的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1632837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【逆向百例】百度翻译js逆向

关注它&#xff0c;不迷路。 本文章中所有内容仅供学习交流&#xff0c;不可用于任何商业用途和非法用途&#xff0c;否则后果自负&#xff01; 前言 目标 分析某度翻译接口&#xff0c;使用python获取翻译结果&#xff0c;并用pyinstaller打包成单文件可执行程序。 工具 ch…

云端飞翔,一触即达 —— 100G网卡,连接未来

关于100G网卡&#xff0c;这是一种高速网络接口控制器&#xff0c;主要用于数据中心和高性能计算环境&#xff0c;以支持更快的数据传输速率。100G网卡可以提供每秒100吉比特的传输速率&#xff0c;适用于需要处理大量数据和高速网络通信的场合。 在选择100G网卡时&#xff0c;…

排序算法(2)快排

交换排序 思想&#xff1a;所谓交换&#xff0c;就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置&#xff0c;交换排序的特点是&#xff1a;将键值较大的记录向序列的尾部移动&#xff0c;键值较小的记录向序列的前部移动。 一、冒泡排序 public static…

【C++】stack queue的介绍使用以及模拟实现

目录 01.容器适配器 02.栈&#xff08;stack&#xff09; 1.stack的介绍 2.stack的使用 3.stack的模拟实现 03.队列&#xff08;queue&#xff09; 1.queue的介绍&#xff1a; 2.queue的使用 3.queue的模拟实现 04.双端队列&#xff08;deque&#xff09; 1.介绍 2.…

LeetCode1017题:负二进制转换(原创)

【题目描述】 给你一个整数 n &#xff0c;以二进制字符串的形式返回该整数的 负二进制&#xff08;base -2&#xff09;表示。注意&#xff0c;除非字符串就是 "0"&#xff0c;否则返回的字符串中不能含有前导零。 示例 1&#xff1a; 输入&#xff1a;n 2 输出&…

深度学习-N维数组和访问元素

目录 N维数组访问元素 N维数组 N维数组是机器学习和神经网络的主要数据结构 访问元素 最后一个子区域中的::是跳的意思&#xff0c;这个区域说明的是从第一个元素&#xff08;即第一行第一列那个&#xff09;对行开始跳3下循环下去直到行结束、对列开始跳2下循环下去直到列…

springboot拦载器

1、拦载器 package com.Interceptor;import com.alibaba.fastjson.JSON; import com.alibaba.fastjson.JSONObject; import org.springframework.web.servlet.HandlerInterceptor; import org.springframework.web.servlet.ModelAndView;import javax.security.auth.login.Log…

如何快速申请SSL证书实现HTTPS访问?

申请SSL证书最简单的方法通常涉及以下几个步骤&#xff0c;尽量简化了操作流程和所需专业知识&#xff1a; 步骤一&#xff1a;选择适合的SSL证书类型 根据您的网站需求&#xff0c;选择最基础的域名验证型&#xff08;DV SSL&#xff09;证书&#xff0c;它通常只需验证域名所…

技术融合与创新大象机器人水星Mercury X1人形机器人案例研究!

引言 在科技迅速发展的当下&#xff0c;人形机器人正变得日益重要&#xff0c;其应用范围从工业自动化到服务业不断扩展。本文将通过Mercury X1大象人形机器人的案例&#xff0c;探讨如何利用尖端技术如大型语言模型&#xff08;LLM&#xff09;、同时定位与映射&#xff08;SL…

雅思(IELTS)优秀小作文分享

IELTS优秀小作文分享 柱状图 本篇范文个人评分是8分或者8.5分&#xff0c;属于能找到的最优质的范文了 题目如下: The two sets of bar charts illustrate the amount of time that teenagers (boys, girls, and all) in the UK spend chatting online and playing game c…

2024 java使用Graceful Response,告别自己去封装响应,可以接收数据异常,快看我这一篇,足够你用!

参考官网手册地址&#xff1a;快速入门 | Docs 一、导入依赖&#xff08;根据springboot查看对应依赖版本&#xff09; <!-- Graceful --><dependency><groupId>com.feiniaojin</groupId><artifactId>graceful-response</artifactId&g…

GaussDB数据库事务管理

一、引言 事务管理是数据库系统中至关重要的一部分&#xff0c;它确保了数据库的一致性和可靠性。在GaussDB数据库中&#xff0c;事务管理不仅遵循传统的ACID特性&#xff0c;还提供了一些高级功能。本文将深入探讨GaussDB数据库事务管理的各个方面。 二、事务的基本概念 2.1…

CSS Position定位(详解网页中的定位属性)

目录 一、Position介绍 1.概念 2.特点 3.作用 4.应用 二、Position用法 1.position属性 2.static定位 3.fixed定位 4.relative定位 5.absolute定位 6.sticky定位 7.重叠的元素 三、CSS定位属性 四、总结 一、Position介绍 1.概念 文档流&#xff08;Document Fl…

C++ 之 string类的模拟实现

这学习我有三不学 昨天不学&#xff0c;因为昨天是个过去 明天不学&#xff0c;因为明天还是个未知数 今天不学&#xff0c;因为我们要活在当下&#xff0c;我就是玩嘿嘿~ –❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀–❀-正文开始-❀–❀–…

springboot笔记一:idea社区版本创建springboot项目的方式

社区idea 手动maven 创建springboot项目 创建之后修改pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:sc…

Microsoft Edge浏览器:高效、简洁、个性化的网页浏览体验

Microsoft Edge是微软公司推出的一款网络浏览器&#xff0c;它是基于Chromium开源项目开发的&#xff0c;因此与Google Chrome有很多相似之处。以下是一些使用Microsoft Edge的心得体会&#xff1a; 1. 界面简洁&#xff1a;Microsoft Edge的界面设计非常简洁&#xff0c;用户…

R语言--图形绘制

一&#xff0c;绘制简单图形 c1<- c(10,20,30,40,50) c2<-c(2,7,15,40,50) plot(c1,c2,typeb) 具体参数请参考R语言中的绘图技巧1&#xff1a;plot()函数参数汇总_r语言plot参数设置-CSDN博客 c1<- c(10,20,30,40,50) c2<-c(2,7,15,40,50) plot(c1,c2,typeb,col#…

【北京迅为】《iTOP龙芯2K1000开发指南》-第四部分 ubuntu开发环境搭建

龙芯2K1000处理器集成2个64位GS264处理器核&#xff0c;主频1GHz&#xff0c;以及各种系统IO接口&#xff0c;集高性能与高配置于一身。支持4G模块、GPS模块、千兆以太网、16GB固态硬盘、双路UART、四路USB、WIFI蓝牙二合一模块、MiniPCIE等接口、双路CAN总线、RS485总线&#…

信息化还是数字化?

从 PC 互联网到移动互联网&#xff0c;再到物联网和最近流行的人工智能&#xff0c;科技的进步正在不断地改变着我们的生活和工作方式。这个过程实际上也是信息化和数字化的演进过程&#xff0c;许多人会问那信息化和数字化有啥区别&#xff1f;作为企业&#xff0c;如何在浪潮…

机器人操作系统ROS2学习—编译工作空间colcon build报错问题

在ROS2中&#xff0c;工作空间创建完成后&#xff0c;会经常需要编译工作空间。在工作空间dev_ws 下打开一个终端&#xff0c;通过指令Colcon build来编译工作空间。 1、这个过程有可能会出现如下错误: "colconbuild:Duplicate package names not supported" 根据…