TMM 22 | 像拆玩具一样的点云预训练

TMM 22 | 像拆玩具一样的点云预训练

news2026/2/9 1:15:24

文章题目：Self-supervised Point Cloud Representation Learning via Separating Mixed Shapes

作者：Chao Sun, Zhedong Zheng, Xiaohan Wang, Mingliang Xu and Yi Yang

论文链接：https://www.zdzheng.xyz/files/TMM_3D_Pre_Training.pdf

代码链接：GitHub - cyysc1998/3D-Pretraining: Self-supervised Point Cloud Representation Learning via Separating Mixed Shapes

摘要：

大规模点云的手动注释需要花费大量时间，并且在恶劣的现实世界场景中通常不可用。受视觉和语言任务中预训练和微调范式取得巨大成功的启发，我们认为预训练也是获得 3D 点云下游任务的可扩展模型的一种潜在解决方案。因此，在本文中，我们探索了一种新的自监督学习方法，称为混合和分离 (MD)，用于 3D 点云表示学习。顾名思义，我们混合两个输入形状并要求模型学习将输入与混合形状分开。我们利用这个重建任务作为自我监督学习的借口优化目标。有两个主要优点：

1）与流行的图像数据集（例如 ImageNet）相比，点云数据集实际上很小。混合过程可以提供更大的在线训练样本池。

2）另一方面，解耦过程（Disentangle）促使模型挖掘几何先验知识，例如关键点。

为了验证所提出借口任务的有效性，我们构建了一个基线网络，该网络由一个编码器和一个解码器组成。在预训练期间，我们混合两个原始形状并从编码器获得几何感知嵌入，然后应用实例自适应解码器从嵌入中恢复原始形状。尽管简单，但预训练编码器可以捕获看不见的点云的关键点，并在下游任务上超越从头开始训练的编码器。所提出的方法在点云分类和分割任务方面提高了 ModelNet-40 和 ShapeNet-Part 数据集的经验性能。我们进一步进行消融研究以探索每个组件的效果，并通过利用不同的主干来验证我们提出的策略的泛化。

Motivation：

我们的出发点其实很简单，如下图红色箭头所指的混合点云，我们很容易就能看出他是由飞机（Plane）和椅子（Chair）混合而成。甚至我们可以看出哪些点是来自于飞机，哪些点来自于椅子。

What:

基于这种观察，我们很自然的提出一个拆玩具的任务，网络需要能区分一个混合的点云中那些点是来自点云A，哪些是来自点云B。因为我们人也可以做到。

在这个区分的过程中，网络需要理解一些（1）高层的语义，AB分别是什么，来帮助区分；（2）寻找到一些keypoints，来区分两个原始点云。

How:

其实encoder很容易理解，用一个传统的PointNet 或者 DGCNN都行。

Decoder的话，设计类似于拼乐高的过程，我们可以看一个成品图（condition），就能拼出一个3D模型。

所以我们提出给一个 2D projection给 Decoder 作为condition，让他知道如果遇到A的投影，就decode A的点云（红色虚线）；如果遇到B的投影，就重构 B的点云（蓝色虚线），如下图。

投影的话可以选择 XY平面，YZ平面或者 XZ平面如下图，同时我们还会擦除一些信息，提升难度。

Ok 所以具体最后的模型如下图。预训练的时候我们需要decoder，训练完 finetune下游任务，我们只要保留encoder就行。

我们的方法可以做点云分类，也可以做点云分割。

在Loss，方面我们用传统的点云重构loss，Chamfer loss就行。

实验：

定量实验：

基于我们的模型做了一些finetune，可以在下游任务上得到较好的提升。

特别是下游标注数据量比较少的时候，预训练带来的好处越明显。

2.定性实验

训练后我们确实观察到网络可以轻松分离两个点云，如下图。

我们还尝试可视化，encoder 特征中激活值最大的前25%的点（红色）。可见网络抓到一些边缘的点（对结构理解最有帮助的点）。

感谢您看完，欢迎点赞分享收藏，以及关注我们的一些其他工作。

郑哲东：ACM MM23 Workshop｜多媒体+无人机 - 知乎

郑哲东：TOMM | 用CNN分100,000类图像 - 知乎

郑哲东： TOMM | 用CNN分100,000类图像 - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/471122.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

openGauss DBMind自治运维系统的安装和部署

openGauss DBMind自治运维系统的安装和部署

目录 1、安装准备 1.1 环境信息 1.2 安装包 1.3 数据库用户 2、安装DBMind 3、部署DBMind 3.1 自动部署--推荐手动配置--推荐交互式配置 3.2 手动部署规划配置 4、启动DBMind DBMind作为openGauss数据库的一部分，为openGauss数据库提供了自动驾驶能力…

阅读更多...

react由用index作为key进行增删查改引发的问题

react由用index作为key进行增删查改引发的问题

现象描述：添加小王在第一个元素，在li元素可以看出来，但是在后面的输入框小张的位置占用了。因为添加小王在第一个元素，它的key是0，旧的dom的key0是小张。所以校长被顶上去了。看到这个现象特意去学了react虚拟dom的dif…

阅读更多...

Ceph入门到精通-红帽 Ceph 存储 RGW 部署策略和规模调整指南

Ceph入门到精通-红帽 Ceph 存储 RGW 部署策略和规模调整指南

从红帽 Ceph 存储 3.0 开始，红帽增加了对容器化存储守护进程 （CSD），允许软件定义的存储组件（Ceph MON、OSD、MGR、RGW 等）在容器内运行。CSD 避免了存储服务专用节点的需要，从而通过共置存储容…

阅读更多...

Anaconda安装nbextensions

Anaconda安装nbextensions

nbextensions 是 Jupyter 非常好的插件，它是将一系列 js 脚本嵌入到 Jupyter 中，增强 Jupyter 的交互式体验，可以让你的 Jupyter 变得非常强大。 Unofficial Jupyter Notebook Extensions 安装nbextensions 以管理员身份运行Anaconda Promp…

阅读更多...

【Git 入门教程】第四节、Git冲突：如何解决版本控制的矛盾

【Git 入门教程】第四节、Git冲突：如何解决版本控制的矛盾

Git是目前最流行的版本控制系统之一，它为团队协作开发提供了方便和高效的方式。然而，在多人同时修改同一个文件时，可能会出现代码冲突（conflict），导致代码无法正确合并。那么，如何解决Git冲突呢…

阅读更多...

Imagination时昕：异构人工智能IP如何赋能数字化转型

Imagination时昕：异构人工智能IP如何赋能数字化转型

4月26-28日，民生证券人工智能高峰论坛在北京举办，Imagination中国区战略市场及生态副总时昕博士受邀出席，并分享了“异构人工智能IP赋能数字化转型”的主题演讲。全社会数字化转型大势所趋毫无疑问，AI 已经渗透经济生产各个方面…

阅读更多...

电赛校赛总结----一维板球系统【代码开源】

电赛校赛总结----一维板球系统【代码开源】

2022/4/21 搭建了整体的机械结构，最后因为经费问题，选择了用去年风力摆的架子去搭摄像头【openmv】，看当年的国赛题，选择的是ov7670，但我们讨论后觉得还是openmv的识别比较好,,下面的小球选用的是外径为3.2cm的水管&a…

阅读更多...

设计模式——七大原则

设计模式——七大原则

目录一、通过经典面试题掌握重点二、设计模式的目的和核心原则三、设计模式七大原则 3.1 单一职责原则（Single Responsibility Principle） 3.2 接口隔离原则（Interface Segregation Principle） 3.3 依赖倒转原则&#xf…

阅读更多...

Mysql表索引(普通索引)

Mysql表索引(普通索引)

文章目录一、创建表时定义索引二、已存在的表上创建索引 1.指向create语句2.指向alter table 语句三、查看索引执行情况总结前言所谓普通索引，就是在创建索引时，不附加任何限制条件（唯一、非空等限制）。该类型的索引可以创建…

阅读更多...

C plus plus ——【面向对象编程】

C plus plus ——【面向对象编程】

系列文章目录 C plus plus 面向对象编程文章目录系列文章目录前言一、编程语言概述1.1低级语言概述1.2高级语言概述1.3面向过程、面向对象概述二、面向过程编程的特性三、面向对象编程的特性四、类和对象4.1 类的概述4.2 类的声明与定义4.3 类的实现4.4 对象的生命五、构造…

阅读更多...

数字化转型导师坚鹏：BLM企业数字化转型战略

数字化转型导师坚鹏：BLM企业数字化转型战略

BLM企业数字化转型战略 ——以BLM模型为核心，实现知行果合一课程背景： 很多企业存在以下问题： 不知道企业如何制定数字化转型战略？ 不清楚其它企业数字化转型战略是如何制定的？ 不知道其它企业数字化转型战略…

阅读更多...

Spring-boot集成swagger以及MapStruct简单使用

Spring-boot集成swagger以及MapStruct简单使用

1）添加依赖，我使用3.0.0版本时会出现swagger-ui页面404的问题，所以改成2.9.2，使用默认版本swagger-model会出现判空异常。 <dependency><groupId>io.springfox</groupId><arti…

阅读更多...

python+nodejs+php+springboot+vue 社区小区报修 -社区信息管理

python+nodejs+php+springboot+vue 社区小区报修 -社区信息管理

客户可以对社区信息进行添加，修改，删除以及查询操作。界面如下图所示: 四、客户模块的实现 4.1车位租买支付客户可以对车位信息进行租买后可以在个人后台进行支付操作。界面如下图所示: 4.2前台车位信息客户登录之后，可以查看前台车位…

阅读更多...

传输层 — UDP协议

传输层 — UDP协议

目录一、传输层 1.1 端口号 1.2 关于端口的常见问题 1.3 netstat && pidof 二、UDP协议 2.1 UDP协议格式 2.2 UDP协议特点 2.3 UDP缓冲区 2.4 基于UDP的应用层协议一、传输层在进行网络传输时，应用层需先将数据交给传输层，由传输层…

阅读更多...

基于matlab仿真混合波束成形在多用户MIMO-OFDM系统中的使用

基于matlab仿真混合波束成形在多用户MIMO-OFDM系统中的使用

一、前言本例说明了如何在大规模 MIMO 通信系统的发射端采用混合波束成形， 同时使用多用户和单用户系统的技术。该示例采用全通道探测来确定发射机的通道状态信息。它将所需的预编码划分为数字基带和模拟RF组件，对多用户和单用户…

阅读更多...

智能的PHP开发工具PhpStorm v2023.1全新发布——集成3v4l.org

智能的PHP开发工具PhpStorm v2023.1全新发布——集成3v4l.org

PhpStorm是一个轻量级且便捷的PHP IDE，其旨在提高用户效率，可深刻理解用户的编码，提供智能代码补全，快速导航以及即时错误检查。可随时帮助用户对其编码进行调整，运行单元测试或者提供可视化debug功能。 PhpStorm v20…

阅读更多...

商城订单模块实战 - 数据库设计、ABA问题处理、读写分离分库分表

商城订单模块实战 - 数据库设计、ABA问题处理、读写分离分库分表

引言订单系统可以说是整个电商系统中最重要的一个子系统，因此订单数据可以算作电商企业最重要的数据资产。这篇文章我们来看看在我们的商城系统中订单服务是如何实现的，特别是在设计和实现一个订单系统的过程中有哪些问题是需要特别考虑的。业务分析…

阅读更多...

逾 200 家港企参与！ GoGBA大湾区发展日（广州）圆满举行

逾 200 家港企参与！ GoGBA大湾区发展日（广州）圆满举行

2023年4月26日 – 由香港特别行政区政府政制及内地事务局粤港澳大湾区发展办公室、香港特别行政区政府驻粤经济贸易办事处（驻粤办）、香港贸易发展局（香港贸发局）广州办事处，以及香港贸发局GoGBA商贸支援合办的GoGBA大湾…

阅读更多...

BSN-DDC基础网络详解（十）：官方DDC应用SDK

BSN-DDC基础网络详解（十）：官方DDC应用SDK

官方 SDK 是 BSN 联盟为平台方推出的可快速接入 DDC 网络的工具包，目前 DID 和各个开放联盟链的官方 DDC SDK 都使用 Java 语言开发，其它主流语言的 SDK 根据市场反馈我们将陆续增加。如果算力中心方和平台方的业务系统的开发语言与 SDK 不匹配&#xff…

阅读更多...

基于DSP+FPGA+ADS1282支持31Bit高精度数据采集方案（一）

基于DSP+FPGA+ADS1282支持31Bit高精度数据采集方案（一）

3.1 系统需求分析 3.1.1 系统功能设计要求本硬件处理平台的主要任务有三类，一是数据采集，包括采集惯性测量元件的输出信号，接收外部系统校正信息，如 GPS 信息等；二是数据处理与计算，包括惯性测量…

阅读更多...

推荐文章

最新文章