ChatGPT API接口使用+fine tune微调+prompt介绍

news2024/11/25 13:31:17

目录

  • 1 接口调用
    • 1.1 生成key
    • 1.2 接口功能
      • 1.2.1 图片生成 (image generation)
      • 1.2.2 对话(chat)
      • 1.2.3 中文纠错 (Chinese Spelling Correct)
      • 1.2.4 关键词提取 (keyword extract)
      • 1.2.5 抽取文本向量 (Embedding)
      • 1.2.6 微调 (fine tune)
  • 2 如何写好prompt
    • 2.1分类任务
    • 2.2 归纳总结
    • 3.3 翻译
    • 2.4 API接口多样性控制
  • 3 实用资料

1 接口调用

我们可以用OpenAI 提供的API接口实现很多NLP的任务,还可以支持生成图像,提取embedding以及finetune的功能。接下来我们来看下具体怎么调用接口。

1.1 生成key

首先需要从网址:https://platform.openai.com/account/api-keys,生成我们的API key
在这里插入图片描述
获得key后我们就可以调用API接口了。目前OpenAI 的 API 服务提供了一个免费的 API 计算单元 (ACU) 的额度,该额度可以用于测试和试用 OpenAI 提供的服务。免费的额度用完后,需要购买额外的 ACU 才能继续使用 OpenAI 的 API 服务。我们可以从Usage和Billing:https://platform.openai.com/account/usage 里去查看我们的免费额度以及进行额度充值:
在这里插入图片描述

1.2 接口功能

首先我们需要安装openai

pip install openai

安装好openai以及获得API key后,我们就可以调用接口了,首先我们来看下openai能够提供的模型有什么:

import openai
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"

models = openai.Model.list()

for model in models['data']:
    print(model['id'])

我们可以看出,目前提供的模型有如下:
在这里插入图片描述
接下来大概介绍一下我们应该怎样去调用接口,获取我们想要的结果。

1.2.1 图片生成 (image generation)

import openai
import json

# 设置API密钥
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"

def image_genaration(prompt):
    response = openai.Image.create(
    prompt=prompt,
    n=1,
    size="1024x1024"
    )
    image_url = response['data'][0]['url']
    return image_url

if __name__=='__main__':
    prompt='a delicious dessert'
    result = image_genaration(prompt)
    print(result)

prompt=‘a delicious dessert’, 其中返回url地址,我们将地址复制到浏览器中,打开看到如下图:
在这里插入图片描述
prompt=‘母亲在厨房忙碌着’,OpenAI返回的效果图如下:
在这里插入图片描述
人物画像细节生成还不够逼真。来试一试中国的古诗词效果,
prompt=‘踏花归去马蹄香’

马蹄上应该画出一些蝴蝶🦋来表达马蹄的花香味啊,不太满意~😞

1.2.2 对话(chat)

api接口调用代码如下所示:

import openai
import json

# 设置API密钥
openai.api_key = "sk-Wljk3BVhN0VieGCwAzEXT3BlbkFJ*******"
def chat(prompt):

    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    prompt='人口最多的国家'
    result = chat(prompt)
    print(result)

结果如下:
在这里插入图片描述

1.2.3 中文纠错 (Chinese Spelling Correct)

我们可以通过合理的写prompt,基于问答形式,让gpt-3.5做NLP任务。比如对中文纠错,我们可以这样写prompt,让chagpt能够做纠错NLP任务。如下所示:

def correct():
    prompt="改正错词输出正确句子:\n\n我在京东电商平台买了苹果耳几和华为体脂称"  #建议prompt: 改正错词输出正确句子:\n\n input_sentence
    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    result = correct()
    print(result)

结果如下:
在这里插入图片描述

1.2.4 关键词提取 (keyword extract)

def keyword():
    prompt="对下面内容识别2个关键词,每个词字数不超过3个字:\n\n齐选汽车挂件车内挂饰车载后视镜吊坠高档实心黄铜玉石出入平安保男女 红流苏-玉髓平安扣"  #建议prompt: 对下面内容识别n个关键词,每个词字数不超过m个字:\n\n input data
    response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "user", "content":prompt}
    ]
)
    answer = response.choices[0].message.content
    return answer

if __name__=='__main__':
    result = keyword()
    print(result)

在这里插入图片描述
对于不同的prompt,输出的结果差异也较大。所以对于具体的任务场景,我们需要尝试不同的prompt, 根据结果的反馈,不断的调整和优化prompt,从而得到更加准确的结果

1.2.5 抽取文本向量 (Embedding)

def embedding():
    content = '苹果手机'
    response = openai.Embedding.create(
    model="text-embedding-ada-002",
    input=content
)
    answer = response.data[0].embedding
    return answer

if __name__=='__main__':
    result = embedding()
    print(len(result))
    print(result)

得到结果如下:
在这里插入图片描述
是一个1536维度的向量,我们可以基于文本的向量去做很多任务,比如计算两个向量的余弦值,计算相似性分值等。

1.2.6 微调 (fine tune)

openAI提供了接口可以用我们自己的数据进行fine tune,得到适应我们自己业务场景的新模型。假如我们需要训练一个适应我们自己领域知识的聊天机器人,我们可以按照下面流程来做fine tune。

  • 数据准备

我们可以先把数据转成csv格式,需提供prompt列和对应的completion列,其中prompt相当于问题,completion就是对应的答案,如下是我们要用来fine tune模型的result.csv训练样本内容显示:
在这里插入图片描述
然后我们可以用openAI提供的数据处理工具对数据转成json格式的文件

openai tools fine_tunes.prepare_data -f result.csv

执行完后,我们会得到一个对应的json文件:result_prepared.jsonl

  • 模型微调训练
    接下来我们就可以用已有的模型 (ada, babbage, curie, davinci) 进行fine tune,官方给出的具体可以用来做微调的模型主要如下:
    在这里插入图片描述
    首先需要指定我们自己的API key:
export OPENAI_API_KEY="sk-Wljk3BVhN0VieGCwAzEX*********"

然后开始训练:

openai api fine_tunes.create -t result_prepared.jsonl -m ada

在这里用我们自己的数据result_prepared.jsonl,基于base model: ada模型提交fine tune任务。提交后会返回给我们一个JOB ID,通过这个job id我们可以跟进模型在远程服务器训练情况:

 openai api fine_tunes.follow -i ft-sWKDNnTmUyOGEdpvbAOvEaZt

我们可以看到结果如下:
在这里插入图片描述
可以看到我们的模型训练好了模型名称叫做:ada:ft-personal-2023-03-27-03-24-09,然后我们就可以试用我们训练好的模型看效果了,测试如下:

openai api completions.create -m ada:ft-personal-2023-03-27-03-24-09 -p <YOUR_PROMPT>

其中<YOUR_PROMPT>写入我们要测试的问题就好。

现在我们可以去远程服务器上查看下我们fine tune好的模型是否已经有了:

models = openai.Model.list()

发现有了刚刚fine tune的模型:
在这里插入图片描述
对于分类,实体识别等任务,OPNAI官网也提供了如何做处理数据,让模型做fine tune,详情可以参考官网https://platform.openai.com/docs/introduction/overview

2 如何写好prompt

prompt如何表达,对于chatgpt返回的答案会差异很大,通过prompt正确的表达问题,chatgpt才会返回更合适的结果。通过自己这些天的尝试以及官网给的提示,感受就是在写prompt时候,可以通过说明,例子,限制条件,修饰词等具体表达问题,这样chatgpt会给出更加精准的答案。接下来,我们对几种常见的任务,prompt应用如何写。

2.1分类任务

我们可以对prompt这么构造:
判断content属于A,B,C,D哪一种分类
content: detail
分类:

对应的查询结果如下:
在这里插入图片描述

2.2 归纳总结

提供了非常强大能力,能够基于学到的广泛知识,给出问题解决方案,合理的建议,实施步骤,商业计划,人物描写等等。所以我们可以合理写prompt,更有意思的答案。
在这里插入图片描述

哈哈,看起来不够大胆,于是进一步发问
在这里插入图片描述
给出的这些答案果然更加激动人心。

3.3 翻译

我们可以将一种语言翻译成我们大多数其他语言。对于翻译任务,我们只需要写prompt表达我们的意愿就是:
将下面内容翻译成英语,日语,德语
content

在这里插入图片描述

2.4 API接口多样性控制

在调用API接口的时候,我们可以通过设置两个参数=='temperature’和’top_p’来控制生成文本的多样性和可控度==。当temperature较高时,生成的文本会更加随机和多样化,而当temperature较低时,生成的文本会更加保守和可控。top_p参数用于控制生成文本的可控度,它会限制模型生成文本时可以选择的token的数量。具体来说,当top_p越低时,模型只考虑概率分布中累计概率最高的一部分token,而忽略其他低概率的token。这样一来,生成的文本就更加可控,因为只有那些最可能的token才会被考虑。而当top_p越高的时候,生成的文本可能会更加灵活和多样,因为模型会考虑更多的低概率token。每次调用的时候,我们可以设置这两个参数:
在这里插入图片描述

3 实用资料

大模型训练平台:https://github.com/hpcaitech/ColossalAI
相关资料:中文精选资源清单

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/424267.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

工业智能网关应用场景:高层楼宇智慧消防解决方案

随着城市化建设的飞速发展&#xff0c;人员聚集与土地资源稀缺的矛盾越来越明显。为了让有限的空间满足更多人的居住需求&#xff0c;高层楼宇越来越多&#xff0c;对于安全消防形成更大的挑战。 基于物联网和云计算平台的智慧消防在消防管理、火灾报警和实时监管方面发挥越来…

java内部类入门(接口)

我有一个玩具狗&#xff0c;有一个接口用于启动它&#xff0c;按照传统方法就是写一个类并实现该接口&#xff0c;且该类只使用一次&#xff08;在启动时使用&#xff0c;后面再不使用&#xff09; 但是如果我有一堆玩具&#xff0c;我每个玩具都要去写一个类来实现start这个接…

GPT-3.5还没研究明白,GPT-4又来了,chatGPT会进化成什么样?

基于GPT-3.5的chatGPT热度才稍稍减退没多久&#xff0c;GPT-4又来了&#xff0c;文新一言的发布会也槽点满满&#xff0c;差距似乎越来越大了。 chatGPT到底厉害在哪&#xff1f;为什么突然就爆火了呢&#xff1f; 它的爆火&#xff0c;一方面&#xff0c;和它的出现形态有关…

代码随想录第18天 | 530.二叉搜索树的最小绝对差 501.二叉搜索树中的众数 236. 二叉树的最近公共祖先

530.二叉搜索树的最小绝对差 var getMinimumDifference function (root) {//中序遍历法&#xff1a;左中右let res []if (!root) return res;const st [root] //栈&#xff0c;pop(),push()while (st.length) {let x st.pop()if (!x) {res.push(st.pop().val)continue}if (…

Linux环境下搭建composer私服及memory_limit问题

Composer是 PHP项目中用来管理依赖&#xff08;dependency&#xff09;关系的工具&#xff0c;允许声明项目所依赖的代码库 &#xff0c;然后在项目的某个目录中(默认是vendor目录) 中安装相关的依赖包。 在介绍如何安装私服之前&#xff0c;我们先熟悉下 composer 相关 compo…

对话框与子窗口控件(写给大忙人看的快速复习掌握)

对话框与子窗口控件&#xff08;写给大忙人看的快速复习掌握&#xff09;1、对话框的概念2、控件的概念我更喜欢称控件为预定义的窗口类3、我们一步一步写代码熟悉常用的预定义的窗口类3.1 什么叫模板呢&#xff1f;3.2 什么是资源文件4、消息处理函数&#xff08;有这么几个消…

护眼灯哪些牌子好?2023护眼灯品牌推荐

护眼灯就是保护眼睛的&#xff0c;很多人长时间工作和学习&#xff0c;主要还是光的刺激和错误的坐姿&#xff0c;会引起眼睛的近视&#xff0c;导致视觉疲劳的主要原因就是灯光的频闪&#xff0c;而护眼灯就能很好减少频闪。 特别是青少年们的视力发育为成熟&#xff0c;视力…

使用Sentieon加速甲基化WGBS数据分析

全基因组甲基化测序(WGBS)是一种研究DNA甲基化的方法&#xff0c;以全面了解在基因组水平上的表观遗传变化。在进行WGBS数据分析时&#xff0c;通常需要使用专门的比对工具&#xff0c;因为这些工具需要能够处理亚硫酸盐转化后的数据。 以下是四个不同的WGBS比对分析流程&…

ADIDAS阿里纳斯励志广告语

系列文章目录 精选优美英文短文1——Dear Basketball&#xff08;亲爱的篮球&#xff09;精选优美英文短文2——Here’s to the Crazy Ones&#xff08;致疯狂的人&#xff09;“我祝你不幸并痛苦”——约翰罗伯茨毕业致辞“亲爱的波特兰——CJ麦科勒姆告别信” Hi, I’m Gilb…

七、Django进阶:第三方库Django-extensions的开发使用技巧详解(附源码)

Django-extensions是 Django 的扩展应用&#xff0c;给django开发者提供了许多便捷的扩展工具(extensions)&#xff0c;它提供了许多有用的工具和命令行工具&#xff0c;帮助 Django 开发者更高效地进行开发和调试。它的作用包括&#xff1a; - 提供了更多的Django命令&#x…

循环依赖详解及解决方案

介绍 上图就是循环依赖的三种情况,虽然方式不同,但是循环依赖的本质是一样的,就A的完整创建要依赖与B,B的完整创建要依赖于A,相互依赖导致没办法完整创建造成失败. 循环依赖代码演示 public class Demo {public static void main(String[] args) {new Demo1();} }class Demo1…

电子信息工程有哪些SCI期刊推荐? - 易智编译EaseEditing

以下是电子信息工程领域的一些SCI期刊推荐&#xff1a; IEEE Transactions on Information Theory&#xff1a; 该期刊由IEEE出版&#xff0c;专注于信息理论领域的研究&#xff0c;包括编码理论、信道编码、信息传输、信息论应用等方面的研究。 IEEE Transactions on Signal…

Apache网页与安全优化

系列文章目录 文章目录系列文章目录一、1.构建虚拟web主机2.一、基于域名的虚拟主机二、Apache 日志分割1.三、Apache的网页优化总结一、 1.构建虚拟web主机 虚拟Web主机指的是在同一台服务器中运行多个Web站点&#xff0c;其中每一个站点实际上并不独立占用整个服务器&#…

天选姬 - 桌面宠物

天选姬 - 桌面宠物前言下载使用更新设置右键菜单人机交互系统状态闹钟壁纸前言 桌面宠物顾名思义指在电脑桌面的宠物&#xff0c;可以是各种动物或Q版人物。可以进行交互并拥有各种各样的功能&#xff0c;本文介绍一款适用于各种电脑的桌面宠物&#xff0c;天选姬&#xff0c;…

【Redis-面试题及持久化方案】Redis相关面试题(缓存穿透、缓存击穿、缓存血崩) Redis两种持久化方案详情对比(RDB、AOF)

【Redis-面试题及持久化方案】Redis相关面试题&#xff08;缓存穿透、缓存击穿、缓存血崩&#xff09; & Redis两种持久化方案详情对比&#xff08;RDB、AOF&#xff09;1&#xff09;Redis 面试题1.1.高频面试题&#xff1a;缓存穿透、缓存击穿、缓存血崩1.2.低频面试题&a…

电脑0X000000D1蓝屏错误U盘重新安装系统教学

电脑0X000000D1蓝屏错误U盘重新安装系统教学。最近有用户遇到了电脑桌面变成了0X000000D1错误代码的蓝屏界面了&#xff0c;无法继续操作使用。那么这个问题怎么去进行系统U盘重装呢&#xff1f;来看看以下的详细解决方法吧。 准备工作&#xff1a; 1、U盘一个&#xff08;尽量…

智慧城市我国发展现状怎样?

智慧城市从概念提出到落地实践&#xff0c;历经十多年的建设与发展&#xff0c;我国智慧城市建设数量持续增长。我国智慧城市整体建设和发展情况总结如下。 北京智汇云舟科技有限公司成立于2012年&#xff0c;专注于创新性的“视频孪生(实时实景数字孪生)”技术研发与应用。目前…

江南爱窗帘十大品牌,怎么合理的搭配窗帘配色

窗帘行业圈&#xff1a;窗帘行业内部交流圈&#xff0c;窗帘从业者的交流内部圈。 当阳光照进房间的那一刻&#xff0c; 光线给空间带来了无限的可能。 窗边的帘帐既是美丽的风景 又是可爱的魔术师。 在光影变幻的时空里 让你的生活布满温馨和奇幻。 1.窗帘材质怎么选 窗帘的材…

DataSecurity Plus如何阻止数据泄露

随着互联网的发展&#xff0c;数据泄露事件时有发生&#xff0c;给个人和企业造成了巨大的损失。为了保护数据安全&#xff0c;企业需要采取一系列的安全措施&#xff0c;而其中一项重要的措施就是使用数据安全工具。DataSecurity Plus 是一款功能强大的数据安全工具&#xff0…

苹果AirPods耳机推送新固件更新,TWS耳机与Find My可实现智能防丢

苹果推送 iOS / iPadOS 16.5 Beta 2 更新的同时&#xff0c;原本还为 AirPods 耳机推送了固件更新 5E133。苹果在临时撤回之后&#xff0c;再次向用户推送了本次更新&#xff0c; 苹果官方表示当你的 AirPods 在充电且在 iPhone、iPad 或 Mac 的蓝牙通信范围内时&#xff0c;…