Yolo算法与ChatGPT互通,这功能是真的强大!

news2024/12/24 22:13:40

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

ced2a5cd61f270b819fc548df20c98fb.gif

f550e6b218432f46c3d2999002315d98.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

参考地址:https://github.com/ultralytics/ultralytics

计算机视觉研究院专栏

Column of Computer Vision Institute

现在的ChatGPT都是输入文字、图片或者语音,那如果将检测网络或者更上层一点的东西,把视觉与ChatGPT对接,会不会有不一样的火花?

4ddb03e333a05199c72247dc8559c91e.gif

01

简介

ChatGPT(全名:Chat Generative Pre-trained Transformer),是OpenAI研发的聊天机器人程序,于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

现在的ChatGPT都是输入文字、图片或者语音,那如果将检测网络或者更上层一点的东西,把视觉与ChatGPT对接,会不会有不一样的火花?

0b4589478e6f793cad359b012509c4d9.gif

02

尝试与设计

注册OpenAI账号并创建API密钥:首先需要注册OpenAI账号,并在Dashboard中创建API密钥以便后续使用。

347fda48b07b1e3f7615fe36045bba9a.jpeg

安装OpenAIPythonSDK:

可以通过pipinstallopenai命令来安装OpenAIPythonSDK,这样就可以在Python代码中使用ChatGPT进行对话了。

调用API进行对话:可以使用SDK中提供的completions方法来调用API进行对话,需要传入API密钥和输入文本,API会返回生成的回复文本。

集成到应用中:可以将ChatGPT集成到应用中,例如网站或移动应用程序,使用户可以与ChatGPT进行对话。集成方式有很多种,可以根据具体应用场景选择合适的方式。

需要注意的是,ChatGPT是基于大规模的语言模型训练而成的,对话过程中可能会出现一些不准确或不恰当的回复。因此,在实际应用中需要谨慎评估ChatGPT的表现,并根据实际情况进行调整和优化。

YoloV8搭建

下载库——ultralytics

pip install ultralytics

运行测试

yolo predict model=yolov8n.pt source='https://ultralytics.com/images/bus.jpg'

b430ad409f8629d4ed2e247c3d3131c3.png

接下来就是打通视觉模型和ChatGPT的交流,先看一个例子!首先从网上下载一段视频,然后开始进行Sao操作:

准备好素材就开始表演!

9eb098b3ab88006ac952b4d061a1e015.png

先进入搭建好的系统中,进行启动:

然后就开始进入新的世界了

7f7251f665f967e0e28bee60f5606835.png

然后接入视频并启动Yolov8实时检测:

6dab95f2efc69b3dec3351e8837d1881.png

然后这边我对其说:

Lock the area on the right for real-time detection

4e60de0f859ffccbf67e34db6e2a1b6e.png

此时一直在实时检测中:

51636dd471e840b2fcbd4d363a1ff83a.png

然后输入有一个屏幕被打开,进行了检测可视化展示:

前面感觉检测的效果不是很好,就重新输入一段指令:

Direct detection of fire extinguishing stages

35ed6fc5456eda6fff87b166ec28a797.png

由于整体检测网络没有怎么优化训练,直接检测,效果不理想,但是与ChatGPT的联动还是有效果,这种有没有联想到流浪地球的MOSE。

65ef5e8bb509c62da46d4d0f30e84275.png

这种能力如果全面打开,是不是在现实生活中,实时视频中,和ChatGPT对话,比如看中视频中的一键衣服,是不是GPT就可以自己去网上搜索,给出最优惠价格的链接(GPT帮用户去比价),然后把链接推送给用户。这些都是一种可能,也是GPT真正应该落地的应用。

© THE END 

转载请联系本公众号获得授权

c2774c25299ee04e1c3ac2209876c006.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

fee2bb00b270c0136461bbf349fa2705.png

 往期推荐 

🔗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/902853.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入浅出解析Stable Diffusion XL完整核心基础知识 | 【算法兵器谱】

Rocky Ding 公众号:WeThinkIn 写在前面 【算法兵器谱】栏目专注分享AI行业中的前沿/经典/必备的模型&论文,并对具备划时代意义的模型&论文进行全方位系统的解析,比如Rocky之前出品的爆款文章Make YOLO Great Again系列。也欢迎大家提…

计网第三章(数据链路层)(三)

一、点对点协议PPP 在第一篇里有提到数据链路层的信道分为两种:点对点信道和广播信道。 PPP协议就属于点对点信道上的协议。 如果对前面数据链路层的三个基本问题了解的比较透彻,那么这一块很多东西都很好理解。 从考试的角度来讲,PPP协议…

回归预测 | MATLAB实现BO-SVM贝叶斯优化支持向量机多输入单输出回归预测(多指标,多图)

回归预测 | MATLAB实现BO-SVM贝叶斯优化支持向量机多输入单输出回归预测(多指标,多图) 目录 回归预测 | MATLAB实现BO-SVM贝叶斯优化支持向量机多输入单输出回归预测(多指标,多图)效果一览基本介绍程序设计…

RabbitMq-2安装与配置

Rabbitmq的安装 1.上传资源 注意:rabbitmq的版本必须与erlang编译器的版本适配 2.安装依赖环境 //打开虚拟机 yum install build-essential openssl openssl-devel unixODBC unixODBC-devel make gcc gcc-c kernel-devel m4 ncurses-devel tk tc xz3.安装erlan…

OpenCV笔记之solvePnP函数和calibrateCamera函数对比

OpenCV笔记之solvePnP函数和calibrateCamera函数对比 文章目录 OpenCV笔记之solvePnP函数和calibrateCamera函数对比1.cv::solvePnP2.cv::solvePnP函数的用途和工作原理3.cv::solvePnP背后的数学方程式4.cv::SOLVEPNP_ITERATIVE、cv::SOLVEPNP_EPNP、cv::SOLVEPNP_P3P5.一个固定…

AI项目二:基于mediapipe的虚拟绘画

若该文为原创文章,转载请注明原文出处。 一、项目介绍 随着人工智能时代的到来,许多技术得到了空前的发展,让人们更加认识到了线上虚拟技术的强大。 通过mediapipe识别手的关键点,检测中指,实现隔空画画的操作。 通…

Linux/Ubuntu 的日常升级和安全更新,如何操作?

我安装的是Ubuntu 20.04.6 LTS的Windows上Linux子系统版本,启动完成后显示: Welcome to Ubuntu 20.04.6 LTS (GNU/Linux 5.15.90.4-microsoft-standard-WSL2 x86_64) * Documentation: https://help.ubuntu.com * Management: https://landscape.c…

ros小车实现slam_gmapping建图

ros小车2d建图,如果有雷达,那么使用gmapping方式建图,其实就一个命令,启动建图程序,它默认会启动小车,之后,我们通过手柄或者键盘控制小车就可以有地图产生,然后就需要保存地图&…

【高级IO】- 五种 IO 模型 | 多路转接 - select

IO的基本概念 I/O(Input / output)就是输入和输出,在冯诺依曼体系中,将数据从输入设备拷贝到内存叫做输入,将数据从内存拷贝到输出设备叫做输出。 对文件进行的读写操作本质就是一种IO,文件IO对应的外设就…

【2023最新爬虫】爬取知乎任意问题下的全部回答

老规矩,先上结果: 爬取了前200多页,每页5条数据,共1000多条回答。(程序设置的自动判断结束页,我是手动break的) 共爬到13个字段,包含: 问题id,页码,答主昵称,答主性别,…

【Python】json文件的读取

文章目录 1. json简介2.json的使用规范3.json文件的书写4.json文件的读取 1. json简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,常用于将结构化数据进行传输和存储。它基于JavaScript语法,但可以被多种编程…

玩机搞机----面具模块的组成 制作模块

root面具相信很多玩家都不陌生。早期玩友大都使用第三方卡刷补丁来对系统进行各种修复和添加功能。目前面具补丁代替了这些操作。今天的帖子了解下面具各种模块的组成和几种普遍的代码组成。 Magisk中运行的每个单独的shell脚本都将在内部的BusyBox的shell中执行。对于与第三方…

(排序) 剑指 Offer 21. 调整数组顺序使奇数位于偶数前面 ——【Leetcode每日一题】

❓剑指 Offer 21. 调整数组顺序使奇数位于偶数前面 难度:简单 输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有奇数在数组的前半部分,所有偶数在数组的后半部分。 示例: 输入:nums [1…

绘制原型图的常用工具之墨刀

🥳🥳Welcome Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于OA项目的相关操作吧 目录 🥳🥳Welcome Huihuis Code World ! !🥳🥳 一.墨刀是什么 二.墨刀的作用 三.墨刀界…

opencv-手势识别

# HandTrackingModule.py import cv2 import mediapipe as mpclass HandDetector:"""使用mediapipe库查找手。导出地标像素格式。添加了额外的功能。如查找方式,许多手指向上或两个手指之间的距离。而且提供找到的手的边界框信息。"""…

【MySQL】JSON 格式字段处理

MySQL 5.7 版本后已支持 JSON 格式,这虽是 MySQL 的一小步,但可以说是程序开发的一大步,再也不用将 JSON 内容塞到 VARCHAR 类型字段了,程序设计也会变得更加灵活。网上大多只针对JSONObject 对象类型,本文也将详解 JS…

Linux网络服务之iptables防火墙工具

I P T A B L E S 一、防火墙简介1.1 netfilter1.2 firewalld和iptables 二、iptables工具简述2.1 定义2.2 三种报文流向2.3 iptables的表、链结构(非常重要)2.3.1 "四表" ----- 规则表2.3.2 "五链" ----- 规则链 三、iptables配置3.…

适合低成本兼职的十个职业,做得好可能比上班挣得还多

这个年头干点什么兼职或者副业比较合适的,其实做兼职和副业就那么几条原则:最好是轻资产或者不投入资金,因为这个年代是现金流和储蓄为王,不能乱投资,一旦出了差错,更是雪上加霜。还有就是最好在网络上做兼…

对话音视频牛哥:开发RTSP|RTMP直播播放器难不难?难在哪?

我关注的播放器指标 好多开发者跟我交流音视频相关技术的时候,经常问我的问题是,多久可以开发个商业级别的RTMP或RTSP播放器?你们是怎样做到毫秒级延迟的?为什么一个播放器,会被你们做到那么复杂?带着这些…

一文详解4种聚类算法及可视化(Python)

在这篇文章中,基于20家公司的股票价格时间序列数据。根据股票价格之间的相关性,看一下对这些公司进行聚类的四种不同方式。 苹果(AAPL),亚马逊(AMZN),Facebook(META&…