每日学术速递4.15

news2024/11/24 2:58:30

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields

标题:Zip-NeRF:基于网格的抗锯齿神经辐射场

作者:Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee

文章链接:https://arxiv.org/abs/2304.06706

项目代码:https://jonbarron.info/zipnerf/

摘要:

        通过在 NeRF 从空间坐标到颜色和体积密度的学习映射中使用基于网格的表示,可以加速神经辐射场训练。然而,这些基于网格的方法缺乏对比例的明确理解,因此经常引入锯齿,通常以锯齿或场景内容缺失的形式出现。mip-NeRF 360 之前已经解决了抗锯齿问题,其原因是沿圆锥体的子体积而不是沿射线的点,但这种方法本身与当前基于网格的技术不兼容。我们展示了如何使用来自渲染和信号处理的想法来构建一种技术,该技术将 mip-NeRF 360 和基于网格的模型(例如 Instant NGP)相结合,产生的错误率比任何一种现有技术都低 8% - 76%,并且训练速度比 mip-NeRF 360 快 22 倍。

2.Segment Everything Everywhere All at Once

标题:一次分割所有地方的一切

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.06706

项目代码:https://36771ee9c49a4631.gradio.app/

摘要:

        尽管对交互式 AI 系统的需求不断增长,但很少有关于视觉理解中人机交互的综合研究,例如分割。受 LLM 基于提示的通用界面开发的启发,本文介绍了 SEEM,这是一种可提示的交互式模型,用于在图像中一次性分割所有内容。SEEM 有四个要求:i) 多功能性:通过为不同类型的提示引入多功能提示引擎,包括点、框、涂鸦、遮罩、文本和另一幅图像的引用区域;ii) 组合性:通过学习视觉和文本提示的联合视觉语义空间来动态组合查询以进行推理,如图 1 所示;iii) 交互性:通过结合可学习的记忆提示,通过掩码引导的交叉注意力保留对话历史信息;和 iv) 语义意识:通过使用文本编码器对文本查询和掩码标签进行编码以进行开放式词汇分割。

3.What does CLIP know about a red circle? Visual prompt engineering for VLMs

标题:CLIP 对红色圆圈了解多少?VLM 的视觉提示工程

作者:Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi

文章链接:https://arxiv.org/abs/2304.06712

摘要:

        大规模视觉语言模型(例如 CLIP)学习强大的图像文本表示,这些表示已找到许多应用程序,从零镜头分类到文本到图像生成。尽管如此,它们通过提示解决新的判别任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类以外的计算机视觉任务。特别是,我们发现了 CLIP 的新兴能力,通过简单地在对象周围画一个红色圆圈,我们可以将模型的注意力引导到该区域,同时还保持全局信息。我们通过在零样本引用表达式理解中实现最先进的技术和在关键点定位任务中的强大性能来展示这种简单方法的强大功能。最后,我们提请注意大型语言视觉模型的一些潜在伦理问题。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/430054.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

在 Ubuntu 使用SQL Server创建 Go 应用程序

在 Ubuntu 使用SQL Server创建 Go 应用程序一、设置环境1.1、安装 SQL Server1.2、安装 GoLang1.3、安装 ODBC 驱动程序和 SQL 命令行实用工具 SQL 服务器二、使用 SQL 服务器创建 Go 应用程序2.1、创建连接到 SQL Server 并执行查询的 Go 应用2.2、创建一个使用 GORM 连接到 S…

macOS 13.4Beta 2(22F5037d)发布

系统介绍 4 月 12 日消息,苹果今日向 Mac 电脑用户推送了 macOS 13.4 开发者预览版 Beta 2 更新(内部版本号:22F5037d),本次更新距离上次发布隔了 14 天。 macOS Ventura 带来了台前调度、连续互通相机、FaceTime 通…

Python爬虫之Scrapy框架系列(19)——实战下载某度猫咪图片【媒体管道类】

目录:1.引入:1.1 不使用管道,直接存储本地:①创建scrapy项目及爬虫文件②编写爬虫文件:③效果:1.2 使用管道,进行本地存储:①编写爬虫文件:②在items.py文件中创建相应的…

前缀和算法【一维、二维】

算法推导 首先这种算法适合于求从 x 到 y 的和。 一维情况 一维代码十分简单&#xff0c;我们只需要每个都记录前面所有的和即可&#xff0c;注意细节 下标从1开始 for(int i 1 ; i < n ; i ){cin >> temp;a[i] a[i - 1] temp; }这里我们就看两种情况&#xff…

接口优化的常见方案实战总结

一、背景 针对老项目&#xff0c;去年做了许多降本增效的事情&#xff0c;其中发现最多的就是接口耗时过长的问题&#xff0c;就集中搞了一次接口性能优化。本文将给小伙伴们分享一下接口优化的通用方案。 &#xfeff; &#xfeff; &#xfeff;&#xfeff; 二、接口优化…

Maven下载与配置

Maven官网链接&#xff1a; https://maven.apache.org/ 进入后首页展示最新的下载地址 如果要下载历史版本&#xff0c;可以搜索 legacy archives 来快速找到这个地方&#xff0c;点击进入 下载完毕后&#xff0c;解压放到D盘&#xff08;或根据个人喜好存放&#xff09; 首先…

4月22日丨【云数据库技术沙龙】技术进化,让数据更智能

4月22日&#xff0c;云数据库技术沙龙“MySQL x ClickHouse”专场 “MySQL x ClickHouse” 技术沙龙&#xff0c;本次沙龙以“技术进化&#xff0c;让数据更智能”为主题&#xff0c;汇聚字节跳动、阿里云、玖章算术、华为云、腾讯云、百度等众多数据库厂商的技术大咖&#xf…

2023/4/10-2023/4/18周报

1 高德地图 运行抱错 INVALID_USER_SCODE 这里是错误信息对应原因 错误信息列表-参考手册-地图 JS API | 高德地图API 这里是高德地图api设置说明 准备-入门-教程-地图 JS API | 高德地图API 如果你自己能排查出错误 那不用看我的&#xff0c;如果都写的对还是抱错…

list容器

1、list容器简介 链表是以中物理存储单元上的非连续、非顺序的存储结构&#xff0c;数据元素的逻辑顺序都是通过链表中的指针连接次序实现的。链表由一系列的结点&#xff08;链表中每一个元素被称为结点&#xff09;组成&#xff0c;结点可以在运行时动态生成。每一个结点包括…

系统集成项目管理工程师 笔记(第三章:信息系统集成专业技术知识)

文章目录 3.1 信息系统建设 1333.1.1 信息系统的生命周期 1333.1.2 信息系统开发方法 133 3.3 软件工程 1353.3.1 软件需求分析与定义 1353.3.2 软件设计、测试与维护 1353.3.3 软件质量保证及质量评价 1363.3.4 软件配置管理 136&#xff08;六大活动&#xff09;3.3.5 软件过…

瑞芯微RK3568四核核心板芯片简介

引言 RK3568是瑞芯微出品的一款定位中高端的通用型SoC&#xff0c;采用22nm先进制程工艺&#xff0c;集成4核 arm 架构 A55 处理器和 Mali G52 2EE 图形处理器&#xff0c;支持4K解码和1080P编码。RK3568支持 SATA/PCIE/USB3.0 等各类型外围接口&#xff0c;内置独立的NPU&…

亚马逊云科技数字化技术撬动千亿市场,民航客机改装是好生意

很多人对庞大的民航客机的印象还停留在其天文数字般的价格&#xff0c;随着运营时间的推移&#xff0c;将客机转货机的航空维修产业应时而生。民航业客机改货机的市场不断增长&#xff0c;面对飞机客改货过程中的海量图纸与复杂工艺流程&#xff0c;汉端科技在西云数据运营的亚…

darknet_ros+yolo+realsenseD455+Ubuntu18.04+ROS

很想实现ros和yolo的联合使用&#xff0c;所以找到了darknet_ros这个包&#xff0c;我感觉难点不在于工程&#xff0c;而在于yolo的环境配置。本文将从环境入手逐步实现功能。 1.设备 相机&#xff1a;realsenseD455 笔记本&#xff1a;T440P 显卡&#xff1a;GT-730M 算力&am…

03-漏洞发现API接口服务等

漏洞发现-API接口服务之漏洞探针类型利用修复 一、思维导图 二、测试思路 1、信息收集之信息利用 第一步&#xff1a;首先识别网站是否有cdn&#xff0c;waf等产品&#xff0c;有则需要绕过。 第二步&#xff1a;扫描收集到的网站的端口信息&#xff0c;真实ip地址。ip绑定…

再学一下Feign的原理

简介 Feign是Spring Cloud Netflix组件中的一个轻量级Restful的HTTP服务客户端&#xff0c;它简化了服务间调用的方式。 Feign是一个声明式的web service客户端.它的出现使开发web service客户端变得更简单.使用Feign只需要创建一个接口加上对应的注解, 比如FeignClient注解。…

Vue实现自动化平台(二)--实现登录页面首页

上一章&#xff0c;vue项目的创建&#xff1a; Vue脚手架Vue CLI 使用_做测试的喵酱的博客-CSDN博客 github地址&#xff1a;https://github.com/18713341733/vuemiaotest 这个目前只是用来练手的&#xff0c;项目还没成型。等以后我写完了&#xff0c;再更新一下项目链接。…

python基于机器学习的姓名预测性别网页app开发

前言 做这个项目的起因是之前csdn给我推荐了一个问答&#xff1a;基于机器学习的姓名预测性别的手机app开发。我点进去发现已经有人回答了&#xff0c;链接点进去一看&#xff0c;好家伙&#xff0c;这不是查表算概率吗&#xff0c;和机器学习有半毛钱关系。而且我觉得用姓名预…

《Kubernetes部署篇:Ubuntu20.04基于containerd部署kubernetes1.24.12单master集群》

一、架构图 如下图所示&#xff1a; 二、环境信息 主机名K8S版本系统版本内核版本IP地址备注k8s-master-621.24.12Ubuntu 20.04.5 LTS5.15.0-69-generic192.168.1.62master节点k8s-worker-631.24.12Ubuntu 20.04.5 LTS5.15.0-69-generic192.168.1.63worker节点k8s-worker-641…

Fast DDS 介绍

前面已经简要介绍过DDS协议规范了&#xff0c;接下来我们来看一个它的C实现----Fast DDS。 eProsima Fast-DDS是eprosima对于DDS的C实现&#xff0c;这是一个免费开源软件&#xff0c;遵循Apache License 2.0。eProsima Fast DDS在性能&#xff0c;功能和对最新版本RTPS标准&a…

Day17-对象

文章目录一 函数作业讲解二 函数版图书管理系统三 对象一 引入思考二 对象的创建和使用案例1案例2案例3案例4案例5-描述手机案例6-描述一组手机案例7-把对象作为函数的参数一 函数作业讲解 <script>//1编写函数&#xff0c;计算圆的面积和周长&#xff0c;在函数外由用户…