具身导航中的视觉语言注意力蒸馏！Vi-LAD：实现动态环境中的社会意识机器人导航

作者：Mohamed Elnoor $^{1}$ , Kasun Weerakoon $^{1}$ , Gershom Seneviratne $^{1}$ , Jing Liang $^{2}$ , Vignesh Rajagopal $^{3}$ ,
and Dinesh Manocha $^{1,2}$
单位： $^{1}$ 马里兰大学帕克分校电气与计算机工程系， $^{2}$ 美国马里兰大学帕克分校计算机科学系， $^{3}$ 马里兰大学帕克分校James Clark工程学院
论文标题：Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments
论文链接：https://arxiv.org/pdf/250-09820
项目主页：https://gamma.umd.edu/researchdirections/crowdmultiagent/vilad/

该问题的研究难点包括：

机器人设置：假设机器人是一个地面机器人，配备了一个RGB摄像头和一个IMU（惯性测量单元）。摄像头的坐标系以机器人的质心为中心，X轴指向前进方向，Y轴指向左侧，Z轴指向上方。
输入和输出：机器人接收来自RGB摄像头的图像和来自IMU的方向及运动反馈。机器人使用相同的控制器架构，接收线速度和角速度命令。

视觉特征提取：预训练模型用于提取视觉特征，帮助机器人导航。传统的模型（如ImageNet训练的模型）主要关注物体检测，而不是导航所需的特定线索（如路径、障碍物和人类运动）。
自监督学习：自监督学习（SSL）方法通过自我监督的方式学习特征，但许多方法需要大规模数据或缺乏泛化能力。
VANP模型：论文采用了一个名为VANP的自监督视觉-动作模型。该模型通过将视觉观察与动作轨迹对齐来提取导航相关的特征。具体来说，VANP处理一系列过去的图像，并生成一个注意力图，突出显示对导航至关重要的区域。这个过程可以表示为：
$\mathcal{A}_{\text{pretrained}} = \mathcal{F}_{\text{pretrained}}(I_{\text{RGB},t-n}, \ldots, I_{\text{RGB},t})$
其中， $\mathcal{F}_{\text{pretrained}}$ 表示预训练模型， $I_{\text{RGB}, t-n}, \ldots, I_{\text{RGB}, t}$ 表示作为输入的一系列过去RGB图像。

数据集构建：通过利用视觉-语言模型（VLM）生成社会引导的注意力图来构建一个社会导向的导航数据集。这些注意力图突出了导航相关的区域。
标注过程：选择了一个定制化的SCAND数据集子集，并使用VLM进行标注。对于每个样本，定义了三个导航前沿（左、中、右），并在RGB图像上叠加彩色矩形以突出这些区域。
VLM查询：使用链式思维（Chain-of-Thought, CoT）提示方法查询VLM，以估计每个前沿被人群占据的可能性。根据这些可能性，生成一个包含社会引导导航线索的注意力图。公式如下：
$\operatorname{VLM}(I_{\text{RGB}}, \mathcal{T}_{\text{prompt}})$
其中， $\in \{\text{left}, \text{center}, \text{right}\}$ 表示导航前沿， $\mathcal{T}_{\text{prompt}}$ 是一个设计用来引出社会背景推理的结构化查询。

低秩适应（LoRA）：使用低秩适应方法对预训练模型进行微调，而不是更新所有模型参数。这通过引入低秩可训练适配器来实现，同时保持原始模型权重的冻结。
并行管道：在训练期间，模型由三个并行管道组成：
• 预训练模型（ $\mathcal{F}_{\text{pretrained}}$ ）：提取导航相关的注意力图。
• 蒸馏模型（ $\mathcal{F}_{\text{Vi-LAD}}$ ）：在ResNet50的最后一层提取更新的注意力图。
• VLM监督：VLM处理RGB图像以生成社会引导的注意力图，提供微调的监督信号。

注意力一致性损失：为了整合来自VLM的社会推理，同时保持预训练模型的导航先验，引入了一个注意力一致性损失函数。
损失函数公式：总损失函数结合了两个目标：
$\mathcal{L} = (1 - \lambda_{\text{VLM}}) \cdot \mathcal{L}_{\text{SSIM}}(\mathcal{A}_{\text{Vi-LAD}}, \mathcal{A}_{\text{pretrained}}) + \lambda_{\text{VLM}} \cdot \mathcal{L}_{\text{SSIM}}(\mathcal{A}_{\text{Vi-LAD}}, \mathcal{A}_{\text{VLM}})$
其中， $\mathcal{L}_{\text{SSIM}}$ 是注意力图之间的余弦相似度，定义为：
$\mathcal{L}_{\text{SSIM}}(A, B) = 1 - \frac{\sum(A \cdot B)}{\|A\| \|B\|}$

模型预测控制（MPC）框架：采用一个修改后的MPC框架来生成社会意识的导航轨迹。MPC优化线速度和角速度对，以引导机器人朝向目标，同时确保平滑且社会合规的运动。
社会成本函数：引入一个社会成本函数，通过注意力图（ $\mathcal{A}_{\text{Vi-LAD}}$ ）对齐机器人的行为与人类导航规范。通过计算投影轨迹与蒸馏注意力图的对齐度来定义社会成本。公式如下：
$\omega) = \max_{(i, j) \in \text{traj}^C(v, \omega)} \mathcal{A}_{\text{Vi-LAD}}(i, j)$
其中， $\text{traj}^C(v, \omega)$ 是投影到代价图的轨迹， $\mathcal{A}_{\text{Vi-LAD}}(i, j)$ 表示在给定位置的分散注意力代价图。

实现：论文使用PyTorch实现了他们的方法，并在Nvidia A6000 GPU上进行模型训练。
机器人设备：在现实世界的实验中，使用了Clearpath Husky机器人，配备了Velodyne VLP16激光雷达、Intel RealSense D435i相机和一台搭载Intel i9处理器和Nvidia RTX 2080 GPU的笔记本电脑。
数据集标注：使用GPT-4o对数据集进行标注，以生成社会引导的注意力图。