CV大模型应用:Grounded-Segment-Anything实现目标分割、检测与风格迁移

news2025/1/10 1:34:31

Grounded-Segment-Anything实现目标分割、检测与风格迁移

文章目录

  • Grounded-Segment-Anything实现目标分割、检测与风格迁移
    • 一、Segment-Anything介绍
    • 二、Grounded-Segment-Anything
      • 1、简介
      • 2、测试

一、Segment-Anything介绍

代码链接:https://github.com/facebookresearch/segment-anything

论文地址:https://arxiv.org/abs/2304.02643

官网地址:https://segment-anything.com/

继2023年4月5日meta AI发布了Segment Anything的论文和源码后,在github上已经超过了25.3k个⭐️

image-20230413140004637

号称分割一切的此模型,打破了传统的分割任务思路,将CV界震撼。不少大佬们也是开始了这个分割大模型的研究与应用。Segment Anything只针对分割任务,那么我们的物体检测、识别也可以与其结合使用。

二、Grounded-Segment-Anything

1、简介

代码链接:https://github.com/camenduru/grounded-segment-anything

这个项目背后的核心思想是结合不同模型的优势,以构建一个非常强大的管道来解决复杂的问题。值得一提的是,这是一个组合强专家模型的工作流程,其中所有部分可以单独使用,也可以组合使用,并且可以替换为任何类似但不同的模型

比如用GLIP或其他探测器替换Grounding DINO /用ControlNet替换Stable-Diffusion /与ChatGPT组合。

比如官方提供的给“坤坤”换衣服,真实完美搭配!

interactive-fashion-edit

接下来我将演示如何运行在线的项目。如果想要像在segment Anything官网跑一个demo图片,我们可以进到其colab中来在线运行这个demo

2、测试

首先进入其在线运行地址:https://github.com/camenduru/grounded-segment-anything-colab

打开后,点击colab中的open in colab进入jupyter notebook

image-20230413141315702

首先得确保你有一个能够正常登录的Google账号,在右上角点击展开并登录。已经登录那么可以直接点击连接按钮,并稍等片刻。

image-20230413142232077

连接成功后即可运行代码

image-20230413142342637

等待运行完成后,运行下一个代码块

image-20230413142955055

出现下方链接后点进去即可运行demo(两个都可以)

image-20230413143057063

进入demo之后我们可以传入图片,并输入描述的内容

分割任务例如:a door /a person

描绘任务例如:A man in a jacket

image-20230413143326739

但毕竟是免费的在线运行平台,右侧执行的速度会很慢,取决于分配给你的算力大小。如果需要处理比较复杂的图像或输入的关键词,可能会显示算力不够。

下面是我在上课时随意拍了张照片并传入,运行的一个简单分割demo处理结果(用了5分钟,输入为:a door)

image

可见,结合GPT、Segment Anything与detection

官方使用inpaint绘制运行结果,传入的目标是 one girl

渲染语句是:mermaid with beautiful face(美丽的美人鱼)

就将检测出的一个女孩渲染成了美人鱼。

但我这里没有运行出来绘制的功能,可能是因为目前模型才刚刚试运行两天,不足以免费让我们跑这种费算力的模型,只能说期待后续的优化吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/417674.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Direct3D 12——混合——雾

实现雾化效果的流程如下:如图所示,首先指明雾的颜色、由摄像机到雾气的最近距离以及雾 的分散范围(即从雾到摄像机的最近距离至雾能完全覆盖物体的这段范围),接下来再将网格三角形上点 的颜色置为原色与雾色的加权平均值: foggedC…

Python爬虫之多线程加快爬取速度

之前我们学习了动态翻页我们实现了网页的动态的分页,此时我们可以爬取所有的公开信息了,经过几十个小时的不懈努力,一共获取了 16万 条数据,但是软件的效率实在是有点低了,看了下获取 10 万条数据的时间超过了 56 个小…

【技巧】Word“只读方式”的设置与取消

如果你担心在阅读Word文档的时候,不小心修改并保存了内容,那就给文档设置“只读方式”吧,这样就算不小心做了修改也不能随意保存。 Word文档的“只读方式”有两种模式,对此不清楚的小伙伴,来看看如何设置和取消吧。 模…

第一次作业

作业内容:1,atd和crond的区别 2,指定在2023/08/26 09:00将时间写入testmail.txt文件中 3,指定在每天凌晨4:00将该时间点之前的系统日志信息备份到个目录下(/var/log/messages )&…

华为手表开发:WATCH 3 Pro(17)传感器订阅指南针

华为手表开发:WATCH 3 Pro(17)传感器订阅指南针初环境与设备指南针传感器介绍与说明鸿蒙开发文件夹:文件新增展示的文本标记index.hmlindex.cssindex.js初 希望能写一些简单的教程和案例分享给需要的人 鸿蒙可穿戴开发 环境与设…

二 、Locust自定义用户(场景)

二 、自定义用户(场景) 一个用户类代表了你系统中的一种用户/场景。当你做一个测试运行时,你指定你想模拟的并发用户的数量,Locust将为每个用户创建一个实例。你可以给这些类/实例添加任何你喜欢的属性,但有一些属性对…

蹭ChatGPT热点有风险,昆仑万维蹭热点被发监管函

‍数据智能产业创新服务媒体——聚焦数智 改变商业要说2023年互联网行业最火爆的概念,ChatGPT绝对当仁不让。国外有微软,国内有百度、阿里、商汤、三六零等,各大互联网巨头都对这个概念青睐有加。众多企业纷纷宣布投身赛道,誓要做…

帮助企业应对不确定性,Serverless时代正在来临

近年来层出不穷的“黑天鹅”事件,让越来越多的企业和组织开始高度关注市场的不确定性。为了增强抵御风险的能力,企业纷纷从开拓业务创新、降低生产成本、提高运营效率、提升用户体验及满意度等方面着手,努力提高自身的核心竞争力。在这样的时…

Java集合——List接口学习总结

一、ArrayList实现类 1. 常用方法 增加:add(int index, E element)删除:remove(int index) remove(Object o)修改:set(int index, E element)查看:get(int index)判断:常用遍历方式://List集合 遍历&…

2023MathorCup数模C题思路数据代码论文【全网最全分享】

文章目录赛题思路赛题详情参赛建议(个人见解)选择队友及任务分配问题(重要程度:5星)2023MathorCup数模C题思路数据论文代码【最新】赛题思路 (赛题出来以后第一时间在CSDN分享) 最新进度在文章最下方卡片,…

Atlassian后Server时代 | Server版vs.数据中心版,二者的区别在哪里?

2024年2月,也就是一年不到,Atlassian将终止对Server产品及插件的所有支持。 此公告发布后,许多用户需要了解怎样的前进方向才是最适合企业的。为此,Atlassian提供了本地部署的数据中心(Data Center)版以及云…

浅聊MVCC,希望能对你有帮助

浅聊MVCC,希望能对你有帮助🏍 前言 多版本并发控制是数据库管理系统中的一项重要技术,它可以提高数据库的并发性能和可靠性,支持高并发的读写操作,提高数据的安全性,具有重要的应用价值和意义。笔者写此文…

好用的5款国产低代码平台介绍

一、云程低代码平台 云程低代码平台是一款基于springboot、vue.js技术的企业级低代码开发平台,平台采用模型驱动、高低码融合、开放扩展等设计理念,基于业务建模、流程建模、表单建模、报表建模、大屏建模等可视化建模工具,通过拖拉拽零代码方…

深入理解Linux多线程

致前行的人: 昨日渐多,明日愈少,今日还在,不要为成功而努力,要为做一个有价值的人而努力。人生道路上充满了坎坷,谁也不可能一帆风顺。只有在最困难的时刻,才能体会到无助的含义。 目录 1.理解…

ESP32-LORA通信

文章目录好久没更新博客了,今天清明节,写个LORA通信。在此记念在天堂的外婆。祝她安好LORA通信简介一、模块二、使用步骤1.电脑通过USB串口模块联接LORA模块2.ESP32连接LORA通信进行收发通信3.电脑运行调试助手,ESP32运行代码。实现LORA通信测…

3.5 函数的极值与最大值和最小值

学习目标: 我要学习函数的极值、最大值和最小值,我会采取以下几个步骤: 理解基本概念:首先,我会理解函数的极值、最大值和最小值的概念。例如,我会学习函数在特定区间内的最高点和最低点,并且理…

ChatGPT的“N宗罪”?|AI百态(上篇)

序: AI诞生伊始,那是人人欣喜若狂的科技曙光,深埋于哲学、想象和虚构中的古老的梦,终于成真,一个个肉眼可见的智能机器人,在复刻、模仿和服务着他们的造物主——人类。 但科技树的点亮,总会遇到…

解决python中import导入自己的包呈现灰色 无效的问题

打开File–> Setting—> 打开 Console下的Python Console,把选项(Add source roots to PYTHONPAT)点击勾选上。 右键点击需要导入的工作空间文件夹,找到Mark Directory as 选择Source Root。 另外,Python中的…

自然语言处理(六): Deep Learning for NLP: Feedforward Networks

目录 1. Deep Learning 1.2 Feed-forward NN 1.3 Neuron 1.4 Matrix Vector Notation 矩阵向量表示法 1.5 Output Layer 1.6 Learning from Data 1.7 Regularisation 正则化 1.8 Dropout 2. Applications in NLP 2.1 Topic Classification 2.2 Topic Classification…

如何在 Linux 中使用 Chage 命令,修改Linux系统用户密码更改策略

Chage是一个用于修改Linux系统用户密码更改策略的命令行工具。在本文中,我们将介绍如何在Linux系统中使用Chage命令。 检查用户密码过期信息 使用Chage命令可以检查用户密码更改策略和过期信息。要检查特定用户的密码过期信息,可以使用以下命令&#x…