每日学术速递5.16

news2024/12/23 23:55:56

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Locally Attentional SDF Diffusion for Controllable 3D Shape Generation

标题:用于可控 3D 形状生成的局部注意 SDF 扩散

作者:Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum

文章链接:https://arxiv.org/abs/2305.04461

项目代码:https://zhengxinyang.github.io/projects/LAS-Diffusion.html

摘要:

        虽然最近 3D 生成神经网络的快速发展大大提高了 3D 形状的生成,但普通用户仍然不方便创建 3D 形状和控制生成形状的局部几何形状。为了应对这些挑战,我们提出了一个基于扩散的 3D 生成框架——局部注意力 SDF 扩散,通过 2D 草图图像输入来模拟合理的 3D 形状。我们的方法建立在两阶段扩散模型之上。第一阶段称为占用扩散,旨在生成一个低分辨率的占用场来近似形状壳。第二阶段,称为 SDF 扩散,在第一阶段确定的占用体素内合成高分辨率符号距离场,以提取精细几何形状。我们的模型由一种用于图像条件形状生成的新型视图感知局部注意机制提供支持,该机制利用 2D 图像块特征来指导 3D 体素特征学习,极大地提高了局部可控性和模型的通用性。通过在草图条件和类别条件 3D 形状生成任务中进行大量实验,我们验证并展示了我们的方法提供合理且多样化的 3D 形状的能力,以及其优于现有工作的可控性和普遍性。我们的代码和经过训练的模型可在此 https URL 上获得

2.EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

标题:EfficientViT:具有级联组注意力的高效内存视觉转换器

作者:Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan

文章链接:https://arxiv.org/abs/2305.07027

项目代码:https://github.com/microsoft/Cream/tree/main/EfficientViT

摘要:

        视觉转换器因其高模型能力而取得了巨大的成功。然而,它们卓越的性能伴随着沉重的计算成本,这使得它们不适合实时应用。在本文中,我们提出了一个名为 EfficientViT 的高速视觉转换器系列。我们发现现有 Transformer 模型的速度通常受内存低效操作的限制,尤其是 MHSA 中的张量重塑和逐元素函数。因此,我们设计了一种具有三明治布局的新构建块,即在高效 FFN 层之间使用单个内存绑定 MHSA,从而提高内存效率,同时增强通道通信。此外,我们发现注意力图在头部之间具有高度相似性,从而导致计算冗余。为了解决这个问题,我们提出了一个级联的组注意力模块,为注意力头提供不同的完整特征分割,这不仅节省了计算成本,而且提高了注意力的多样性。综合实验表明 EfficientViT 优于现有的高效模型,在速度和准确性之间取得了良好的平衡。例如,我们的 EfficientViT-M5 在精度上比 MobileNetV3-Large 高出 1.9%,同时在 Nvidia V100 GPU 和英特尔至强 CPU 上的吞吐量分别高出 40.4% 和 45.2%。与最近的高效模型 MobileViT-XXS 相比,EfficientViT-M2 的精度提高了 1.8%,同时在 GPU/CPU 上的运行速度提高了 5.8 倍/3.7 倍,转换为 ONNX 格式时速度提高了 7.4 倍。此 https URL 上提供了代码和模型。

3.The emergence of clusters in self-attention dynamics

标题:自注意力动力学中集群的出现

作者:Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet

文章链接:https://arxiv.org/abs/2304.05977

摘要:

        将变形金刚视为相互作用的粒子系统,当权重不依赖于时间时,我们描述了学习表示的几何形状。我们表明,随着时间趋于无穷大,代表标记的粒子倾向于聚集到特定的限制对象。出现的限制对象的类型取决于值矩阵的范围。此外,在一维情况下,我们证明自注意力矩阵收敛到低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人所做的经验观察。在 Transformers 处理时出现在一系列标记中。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531493.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全能视频转换:Tipard Video Converter Ultimate Mac

Tipard Video Converter Ultimate 是一款 Mac 平台上的视频转换工具,它可以帮助用户将各种视频文件转换为不同的格式,以适应不同的设备和播放器。使用 Tipard Video Converter Ultimate,用户可以轻松地将视频转换为 MP4、AVI、WMV、FLV、MKV、…

美股股指期货在哪看?如何选择美股股指期货平台?

美股股指期货的交易方式与股票交易的方式类似。投资者可以通过经纪人或美股股指期货平台进行交易,也可以到股票交易所进行交易。需要注意的是,并非所有的美股股指期货平台都值得信赖。投资者在交易前需要筛选出靠谱的美股股指期货平台。 美股股指期货平台…

12金币问题的解决

title: 12金币 date: 2023-05-16 11:42:26 tags: 数据结构与算法 git地址:https://github.com/944613709/HIT-Data-Structures-and-Algorithms 12金币 **问题:**给出12个硬币,其中一个是假硬币,用一个天平来确定三种重量的假币&a…

AVUE样式、刷新、字典等操作

1、操作栏、表格样式的控制 2、下拉框字典的设置 3、日期格式的设置 const dateFormat function(row, value) { if (!value) return ; let format YYYY-mm-dd; let date new Date(value); const dataItem { Y: date.getFullYear().toString(), m: (date.ge…

Pycharm找不到python版本怎么办?解决方法:ModuleNotFoundError: No module named ‘torch‘

目录 1、conda我的使用版本是2023,04最新的 2、如果使用conda自定义的python的版本的话,那么着实有问题 我发现了我不管使用什么办法,切换到conda里面安装的虚拟机吧,就是找不到! 如果直接吧conda作为加载器搞进去呢&#xff0c…

【ChatGPT】ChatGPT国内镜像网站整理

目录 一、什么是ChatGPT镜像?1、二狗问答(AI对话)2、AiDuTu3、WOChat4、ChatGPT(个人感觉最好用) 二、我们可以利用ChatGPT干什么?1、自动化制作PPT2、打造智能问答助手3、提高个人对话的效率4、开发智能客服机器人 一、什么是ChatGPT镜像? …

Vmware配置centos7(简单上手)

Linux操作系统 vmware安装centos71.安装下载VM(本次使用VMware Workstation Pro 16)2.安装下载镜像(本次使用CentOS7-x86_64)(1)进入VMware,创建虚拟机(2)设置虚拟机&…

秒杀抢购系统架构分析与实战

1 秒杀业务分析 正常电子商务流程 (1)查询商品;(2)创建订单;(3)扣减库存;(4)更新订单;(5)付款;&a…

【结构生物学】基于AI辅助的结构蛋白质组学研究细胞内的蛋白质复合体

用交联质谱和共分离质谱识别PPI,并用AlphaFold-Multimer预测蛋白相互作用复合体的结构 期刊介绍 这篇文章是2023年2月23日发表在《molecular systems biology》上的一篇结构生物学文章,这个期刊的影响因子为7.1。 作者介绍 左下图为1985年的弗雷德里克…

CRM软件选型时必备十大功能

很多处在CRM系统选型过程中的企业都要从产品功能出发判断CRM的价值,能否解决业务痛点。但不是每一家企业的采购都知道CRM系统包括哪些功能,今天小编就来带大家了解CRM客户管理软件的十大必备功能,在选型中做到心里有数。 一、销售管理 销…

聚观早报 |苹果头显得到Oculus创始人认可;AI加持Bing市场份额反降

今日要闻:苹果头显得到Oculus创始人认可;AI加持下Bing市场份额不增反降;AI歌手翻唱大火可能涉及多项侵权;小米辟谣武汉总部35岁以上员工只保留10%;特斯拉2023年度股东大会下周召开 苹果头显得到Oculus创始人认可 5 月…

【AGC】接入分发和运营分析相关问题

【关键字】 AGC、分发分析、运营分析 【问题描述】 开发者反馈在应用中接入AGC分发分析、运营分析、事件分析时遇到了一些问题。具体如下所述: 1、事件分析里面的埋点事件参数和参数值是否有数量限制。 2、埋点统计是否是收费项目,是的话是否有免费额…

腾讯VS百度:在AI上下大赌注

来源:猛兽财经 作者:猛兽财经 腾讯控股(00700)最近已经把基础模型和生成式人工智能应用方面的行业突破视为其业务的新增长机会了,并且正在大力投资人工智能,从而增强其现有产品的竞争力和拓展新的机会,比如腾讯已经把…

一步到位:三行CSS代码轻松实现全网站暗黑模式

本文首发于微信公众号:大迁世界, 我的微信:qq449245884,我会第一时间和你分享前端行业趋势,学习途径等等。 更多开源作品请看 GitHub https://github.com/qq449245884/xiaozhi ,包含一线大厂面试完整考点、资料以及我的…

LeetCode_多源 BFS_中等_994.腐烂的橘子

目录 1.题目2.思路3.代码实现(Java) 1.题目 在给定的 m x n 网格 grid 中,每个单元格可以有以下三个值之一: 值 0 代表空单元格;值 1 代表新鲜橘子;值 2 代表腐烂的橘子。 每分钟,腐烂的橘子周…

给定二叉树的先序遍历有多少种可能的二叉树

title: 给定二叉树的先序遍历有多少种可能的二叉树 date: 2023-05-16 11:42:26 tags: 数据结构与算法 给定二叉树的先序遍历有多少种可能的二叉树 **问题:**给定二叉树的先序遍历有多少种可能的二叉树 git地址:https://github.com/944613709/HIT-Data-St…

使用python进行图片的文字识别

使用python进行图片的文字识别 文章目录 使用python进行图片的文字识别安装 Tesseract OCR安装过程配置系统的环境变量 安装python的第三方库Pytesseract库Pillow库 运行个demo 安装 Tesseract OCR Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Chara…

港联证券|新能源大金融双主线发力 沪指探低回升收复3300点

周一,A股三大指数呈现宽幅震荡走势。沉寂许久的新能源板块早盘复苏,保险、券商与部分“中字头”股票午后发力,多主线并进带动市场普涨。截至收盘,上证综指报3310.74点,涨1.17%;深证成指报11178.62点&#x…

【网络】数据通信的桥梁

最近很长一段时间没有更新博客了,不是因为说要放弃了,中间断断续续的在写,但是都是草稿,没发出来,感觉写的不太好,对这些内容也没什么热情,今天重拾键盘,写一篇基础的文章&#xff0…

英雄马系列赛|众翼电气·2023铜鼓半马圆满落幕,每一步都是风景

长寿铜鼓 康养胜地!5月14日,众翼电气2023铜鼓半程马拉松暨英雄马系列赛(铜鼓站)在山清水秀的宜春铜鼓鸣枪起跑,2500多名参赛跑友奔跑在绿意盎然的人间桃花源,感受了长寿铜鼓的卓越风姿。本赛事由中共铜鼓县…