AIGC工具系列之——基于OpenAI的GPT大模型搭建自己的AIGC工具

news2025/1/15 19:49:11

今天我们来讲讲目前非常火的人工智能话题“AIGC”,以及怎么使用目前的AI技术来开发,构建自己的AIGC工具
什么是AIGC?
AIGC它的英文全称为(Artificial Intelligence Generated Content),中文翻译过来就是“人工智能生成内容”,就是利用人工智能技术来创建文本、图像、音乐、视频或者其他的媒体内容的过程。这种技术的应用目前正在迅速扩展,因为它可以大大提高内容创建的效率,同时降低成本、除了降低成本之外。在某些情况下,它提供与人类创作者相媲美,甚至超越的作品。
AIGC的技术背景
AIGC它依赖于各种人工智能模型,特别是深度学习技术,如生成对抗网络(GANs),以及变分自编码器(VAEs)用于图像,以及自然语言处理(NLP)模型,如GPT(Generative Pre-trained Transformer)系列用于文本生成,这些技术通过学习大量数据中的模式,来生成全新的内容。

目前的AIGC代表工具:

文本生成工具
OpenAI的ChatGPT: 基于GPT(生成预训练变换器)模型,能够生成连贯、有逻辑的文本,适用于对话、文本创作等多种场景。
Google Bard: Google推出的对话型AI,旨在提供信息、娱乐以及创作帮助。

图像生成工具
OpenAI的DALL·E: 能够根据文本提示生成高质量、创意丰富的图像。
Midjourney: 是一个独立的研究实验室和社区,专注于使用AI生成图像。
Stable Diffusion: 一个开源的图像生成模型,支持个人和商业用途,能够根据文本提示生成图像。

音乐和声音生成工具
OpenAI的Jukebox: 能够生成音乐,包括旋律、节奏、和声,甚至可以模仿特定艺术家的风格。
Descript’s Overdub: 允许用户根据文本生成声音,可以用于语音编辑和生成。

视频生成工具
Runway: 提供了一个机器学习工具套件,允许用户创建、修改和生成视频内容。
Synthesia: 通过AI为企业和个人提供视频内容创作服务,特别是能够生成虚拟演讲者和自动化视频。

编程和代码生成工具
GitHub Copilot: 由OpenAI训练,能够根据现有代码和注释提示生成编程代码,支持多种编程语言。
深度伪造和合成媒体
Deepfakes: 软件和技术,能够在视频和音频文件中合成人类的面部和声音,通常用于娱乐、教育或创建虚假信息。

了解这些感念和专业技术词汇,以及这些AI工具之后,唯独没有国内的AIGC工具代表作品,果然搞技术的还得是人家外国佬厉害呀!既然没有国产的,那作为一个技术渣渣,那对不起了,我们就基于他们的基础上去搭建一个吧,这里演示怎么基于OpenAI的API接口去搭建一个我们自己的AIGC工具。

搭建框架图

在这里插入图片描述

搭建前的必备材料:

 1. 一台服务器
 2. openai的api key
 3. ssh客户端工具

(1)、教程点击这里,获取服务器地址:
https://bwh88.net/aff.php?aff=74320

(2)ssh客户端finalshell工具下载地址:
Windows X64版,下载地址
http://www.hostbuf.com/downloads/finalshell_windows_x64.exe
macOS Arm版,支持m1,m2,m3 cpu,下载地址
http://www.hostbuf.com/downloads/finalshell_macos_arm64.pkg
macOS X64版,支持旧款intel cpu,下载地址:
http://www.hostbuf.com/downloads/finalshell_macos_x64.pkg
Linux X64版,下载地址:
http://www.hostbuf.com/downloads/finalshell_linux_x64.deb
Linux Arm64版,下载地址:
http://www.hostbuf.com/downloads/finalshell_linux_arm64.deb
Linux LoongArch64龙芯版,下载地址:
http://www.hostbuf.com/downloads/finalshell_linux_loong64.deb
选择对应系统版本的下载安装即可。

(3)openai的api key的获取:
api_key获取步骤如下图:
(1)进入api keysyemian
在这里插入图片描述
(2)创建一个api key,然后复制保存下来
在这里插入图片描述

一、 服务器端安装openai API对接服务程序

  1. 登录服务器平台,进入后台选择stop停止服务器运行。
    在这里插入图片描述

  2. 安装系统,这里选择ubuntu最新版本,点击reload进行安装
    在这里插入图片描述

  3. 安装完成后,系统生成ssh端口号和密码,这里要把ssh端口号和密码记下来,等会儿ssh客户端登录需要用到
    在这里插入图片描述

  4. 打开ssh客户端
    在这里插入图片描述

  5. 创建一个ssh连接
    在这里插入图片描述

  6. 填写服务器IP地址,ssh端口,密码以及用户名,点击确认;
    在这里插入图片描述
    密码和端口号,就是第3部安装系统时生成的密码和ssh端口。IP 地址可以登录后台查看如下:

    如果密码也忘记了,可以点击重新生成,如下图操作:
    在这里插入图片描述
    在这里插入图片描述

  7. 双击新建的会话连接,进入服务器shell终端,如下图:
    在这里插入图片描述
    在这里插入图片描述

  8. 给服务器安装git工具,输入安装命令:apt install git 然后点击回车键运行。
    在这里插入图片描述

  9. 获取服务器端openai的API 对接服务代码。进入到home目录并运行如下指令:

cd /home
git clone https://github.com/wg520235/openai_project.git

在这里插入图片描述
下载完成如下图:
在这里插入图片描述

  1. 然后cd 进入工程目录openai_project,并运行app_install.sh脚本安装服务器程序。命令如下
cd openai_project/
sh app_install.sh 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 gpt-3.5-turbo dall-e-2

在这里插入图片描述
回车运行,安装过程中出现提示信息或者选择,一律按回车健Enter默认即可,大概几分钟之后即可安装完成,安装完成如下图:
在这里插入图片描述

【脚本参数说明】

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 //openai的api key
gpt-3.5-turbo //gpt版本
dall-e-2 //openai的绘画版本

如果你 开通了gpt4,gpt版本可以填写最新的gpt-4,绘画模型版本填写最新的:dall-e-3,如果你没有开通gpt4默认填写gpt-3.5-turbo和dall-e-2即可。
openai的api key获取:

打开AIGC客户端并连接服务器

这个客户端仅仅是本人为了调试功能测试用,其他做得不好的地方大家不要太在意,界面有点丑陋大家可以忽略,主要看功能即可。如各位大佬有兴趣,可以自己开发一个好看的客户端,这个客户端的代码我双手奉上,还望各位能够进一步开发完善,发扬光大,哈哈!
代码下载地址:

git clone https://github.com/wg520235/GPT_CLIENT_BASE_QT.git
  1. 下载GPT客户端工具,下载连接如下:
    git下载地址:
https://github.com/wg520235/openai_project/blob/main/AIOTNIK_GPT_CLIENT.zip

在这里插入图片描述

或者网盘下载:
链接:https://pan.baidu.com/s/1HCdCHuSqhX9dSrRzt8ik4g?pwd=3lm4
提取码:3lm4

2.减压GPT客户端工具,如下:

在这里插入图片描述
3.双击工具运行
在这里插入图片描述
界面如下:
在这里插入图片描述

  1. 点击设置按钮,填写你的服务器IP,点击确认连接成功后页面的功能即可使用。
    在这里插入图片描述
    成功连接你的服务器,点击ok即可像聊天gpt一样调用openai GPT的API 接口进行聊天绘画。
    在这里插入图片描述

AIGC客户端功能展示

2.和chatgpt一样对话聊天,文本写作,写代码等
在这里插入图片描述
在这里插入图片描述

  1. 调用openai的dall-e-3进行绘画,在输入框输入提示词,点击发送即可绘画,例如:

在这里插入图片描述
【注意】绘画的时候切记要先添加提示词”画:“或者"draw:",以区分是调用绘画模型dall-e-2进行AI 绘画。
目前GPT客户端支持图片双击变大效果如下,以及右键文本复制和图片下载保存到本地。
在这里插入图片描述
在这里插入图片描述
3.语音对话功能,调用了openai的asr,tts,以及chat接口实现的语音对话,点击语音对话按钮,然后你对着麦克风说话就行(想说啥说啥,把AI当作跟人说话一样就行),说完点击停止,然后等待AI 的回答即可。
(1)想微信语音一样,按下按钮输入语音
在这里插入图片描述
(2)点击停止按住,结束语音输入。
在这里插入图片描述
稍等片刻AI会返回语音,如果你电脑有扩音器(喇叭)就可以听到,如果没有扩音器,你们的对话也会转为文字显示在对话框上。

3.语音输入,即就是有的时候你不方便打字,你可输入语音,然后ai会以文字的方式回答你,并显示在对话框上。这个功能和语音对话相似,自行体验即可。

4.图片解析,这个就是你点击这个按钮上传一张图片,然后AI会解读你的图片内容,然后将AI 解读的内容返回到对话框,这个功能适用于名画鉴赏的。

在这里插入图片描述
例如我这里选择刚才AI 画的萝莉塔,上传后AI会返回如下解析结果:

  1. 图片播放,这个功能就我自己diy的,因为目前的sora很火,然后openai又还没有发布视频生成的API接口,所以我突发奇想,让AI画几十张连续的画,然后我把这些画放到一个文件夹里,然后以每秒25帧的速度播放这些图片,这不就可以生成视频了吗?但是结果没我想的那么好,最后还是等视频生成的API 接口发布了再做视频生成功能吧!
    在这里插入图片描述
    播放效果:https://live.csdn.net/v/373939

好了!到这里整个AIGC工具的开发,构建和使用就完了。还有很多功能没有做,如果你看到这篇文章,引起了你的兴趣,你可以基于我的工程基础之上去完善。大家一起玩转AI,躁起来.....哈哈哈!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1547845.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

v4l2采集视频

Video4Linux2(v4l2)是用于Linux系统的视频设备驱动框架,它允许用户空间应用程序直接与视频设备(如摄像头、视频采集卡等)进行交互。 linux系统下一切皆文件,对视频设备的操作就像对文件的操作一样&#xff…

C语言------指针(2)

前面已经向大家介绍了指针的一些基本内容,接下来,就在再我来先大家讲解一下指针的其他内容。 1. 数组名的理解 int arr[10] { 1,2,3,4,5,6,7,8,9,10 }; 在学习数组的过程中,我们肯定会写过以上代码,我们知道 int 是该数组的数…

[BT]BUUCTF刷题第8天(3.26)

第8天 Web [CISCN2019 华北赛区 Day2 Web1]Hack World 题目明确提示flag在flag表里的flag列,这里先尝试1 返回:你好,glzjin想要一个女朋友。 再尝试1,返回bool(false) 到这里就感觉是布尔盲注的题目类型了(虽然我没…

GPT提示词分享 —— 代码释义者

提示词👇 我希望你能充当代码解释者,阐明代码的语法和语义。 3.5版本👇 free2gpt 4.0版本👇 gpt4

深入解析快速排序算法

深入解析快速排序算法 一、快速排序算法简介二、快速排序算法过程三、快速排序算法示例四、快速排序算法分析1. 时间复杂度:2. 空间复杂度:3. 稳定性: 五、快速排序算法优化1. 优化基准元素的选择:2. 优化小数组的排序&#xff1a…

[HackMyVM]靶场Crossbow

kali:192.168.56.104 靶机:192.168.56.136 端口扫描 # nmap 192.168.56.136 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-03-26 22:17 CST Nmap scan report for crossbow.hmv (192.168.56.136) Host is up (0.0057s latency). Not shown: 997 closed tcp…

Spring IOC 容器循环依赖解决(三级缓存)

对于循环依赖的解决,首先得了解Spring IOC 容器的创建过程,在加载过程中,Bean 的实例化和初始化是分开的,所以在解决循环依赖的问题时,也是基于Bean 的实例化和初始化分开执行这一特点。 我们将实例化后的Bean 叫 半成…

2024中国闪存市场观察:AI助推闪存全面起势?

过去两年,闪存市场一直处于低迷状态,但去年第四季度闪存颗粒资源的上涨,导致闪存产品价格一路上扬,市场遂发生反转。 2024年,中国闪存市场会彻底走向复苏,还是急转直下?中国AI热潮,…

JavaScript原型、原型对象、原型链系列详解(五)

(五)、JavaScript原型设计模式 什么是JavaScript原型设计模式? 为什么要使用JavaScript原型设计模式? JavaScript原型设计模式的实现方法有哪些? JavaScript原型设计模式的应用场景是什么? 什么是JavaScript原型设计模式&#xff…

Raft 共识算法

什么是木筏? Raft 是一种共识算法,旨在易于理解。它 在容错和性能方面与Paxos相当。不同之处在于 它被分解成相对独立的子问题,而且它干净利落 解决了实际系统所需的所有主要部分。我们希望 Raft 能使 更广泛的受众可以达成共识,并…

【网站项目】303老年人的景区订票系统

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

主流公链 - Cosmos

探索Cosmos区块链:构建互联的区块链网络 1. Cosmos简介 Cosmos是一个开放的区块链互联协议,旨在解决区块链之间的孤立性问题。它的愿景是构建一个可以互相通信和互操作的区块链网络,实现资产和数据的流动性。在Cosmos中,不同的区…

langchain调用语言模型chatglm4从智谱AI

目录 ​0.langchain agent 原理 ReAct 1.langchain agent使用chatgpt调用tools的源代码 2.自定义本地语言模型的代码 3.其他加速方法 背景:如果使用openai的chatgpt4进行语言问答,是需要从国内到国外的一个客户请求-->openai服务器response的一个…

使用Nginx1.25.4版本做负载均衡、搭建Nacos2.3.0服务集群

关于使用版本问题上,其实小白更喜欢使用新的版本,因为新的版本功能更多,肯定优化方面不言而喻,懂得都懂,但是新的版本,肯定使用起来更加的速度,性能,也是不言而喻的啊,那…

力扣--并查集684.冗余连接

思路分析: 首先定义了一个Solution类,包含了私有成员变量fa[1001]和n,以及三个私有成员函数find()、togother()和findRedundantConnection()。 find()函数用于查找节点的根节点(即所在连通分量的代表节点)&#xff0c…

2024最新华为OD机试试题库全 -【二叉树的广度搜索】- C卷

1. 🌈题目详情 1.1 ⚠️题目 有一棵二叉树,每个节点由一个大写字母标识(最多26个节点)。 现有两组字母,分别表示后序遍历(左孩子->右孩子->父节点)和中序遍历(左孩子->父节点->右孩子)的结果,请你输出层序遍历的结果。 1.2 🔣输入要求 每个输入文…

CMC学习系列 (2):EEG-EMG有可能作为运动恢复的生物标志物

CMC学习系列:EEG-EMG有可能作为运动恢复的生物标志物 0. 引言1. 主要贡献2. 方法2.1 显著 bins 数量2.2 偏侧性指数 3. 结果3.1 临床评估3.2 CMC3.3 卒中后CMC随时间变化 4. 讨论和结论5. 总结欢迎来稿 论文地址:https://www.frontiersin.org/journals/neurology/ar…

信号处理--基于混合CNN和transfomer自注意力的多通道脑电信号的情绪分类的简单应用

目录 关于 工具 数据集 数据集简述 方法实现 数据读取 ​编辑数据预处理 传统机器学习模型(逻辑回归,支持向量机,随机森林) 多层感知机模型 CNNtransfomer模型 代码获取 关于 本实验利用结合了卷积神经网络 (CNN) 和 Transformer 组件的混合…

在DasViewer里怎么查看三维模型的坐标系?

量测就可以查看坐标系了,或者查看xml文件中坐标系的代号。量测就可以查看坐标系了,或者查看xml文件中坐标系的代号。 DasViewer是由大势智慧自主研发的免费的实景三维模型浏览器,采用多细节层次模型逐步自适应加载技术,让用户在极低的电脑配置下,也能流畅…

Go语言学习Day3:数据类型、运算符与流程控制

名人说:莫愁千里路,自有到来风。 ——钱珝 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 1、数据类型①布尔类型②整型③浮点型④string⑤类型转换 2、运算符①算术运算符②逻辑运算符③关…