每日学术速递2.15

news2025/6/29 13:16:44

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for Real-time Spatio-temporal Action Detection

标题：YOWOv2：用于实时时空动作检测的更强大且高效的多级检测框架

作者：Jianhua Yang, Kun Dai

文章链接：https://arxiv.org/abs/2302.06848v1

项目代码：https://github.com/yjh0410/YOWOv2

摘要：

为时空动作检测任务设计实时框架仍然是一个挑战。在本文中，我们提出了一种新颖的实时动作检测框架 YOWOv2。在这个新框架中，YOWOv2 利用 3D 骨干和 2D 骨干进行准确的动作检测。多级检测管道旨在检测不同规模的动作实例。为了实现这一目标，我们精心构建了一个简单高效的 2D backbone，带有特征金字塔网络，以提取不同级别的分类特征和回归特征。对于 3D 主干，我们采用现有的高效 3D CNN 来节省开发时间。通过结合不同尺寸的 3D 骨干和 2D 骨干，我们设计了一个 YOWOv2 系列，包括 YOWOv2-Tiny、YOWOv2-Medium 和 YOWOv2-Large。我们还引入了流行的动态标签分配策略和anchor-free机制，使YOWOv2与先进的模型架构设计保持一致。经过我们的改进，YOWOv2明显优于YOWO，并且仍然可以保持实时检测。没有任何附加功能，YOWOv2 在 UCF101-24 上以超过 20 FPS 的速度实现了 87.0% 的帧 mAP 和 52.8% 的视频 mAP。在 AVA 上，YOWOv2 以超过 20 FPS 的速度实现了 21.7% 的帧 mAP。

2.VA-DepthNet: A Variational Approach to Single Image Depth Prediction

标题：VA-DepthNet：单幅图像深度预测的变分方法

作者：Ce Liu, Suryansh Kumar, Shuhang Gu, Radu Timofte, Luc van Gool

文章链接：https://arxiv.org/abs/2302.06556v1

项目代码：https://github.com/cnexah/va-depthnet

摘要：

我们介绍了 VA-DepthNet，这是一种用于解决单图像深度预测 (SIDP) 问题的简单、有效且准确的深度神经网络方法。所提出的方法提倡对这个问题使用经典的一阶变分约束。虽然用于 SIDP 的最先进的深度神经网络方法在监督设置中从图像中学习场景深度，但它们往往忽略了刚性场景空间中无价的不变性和先验，例如场景的规律性。这篇论文的主要贡献是揭示了在 SIDP 任务的神经网络设计中经典和有充分根据的变分约束的好处。结果表明，在场景空间中施加一阶变分约束以及流行的基于编码器-解码器的网络架构设计为受监督的 SIDP 任务提供了出色的结果。强加的一阶变分约束使网络意识到场景空间中的深度梯度，即规律性。本文通过对多个基准数据集（例如 KITTI、NYU Depth V2 和 SUN RGB-D）进行广泛的评估和消融分析，证明了所提出方法的实用性。与现有技术相比，测试时的 VA-DepthNet 在深度预测精度方面有相当大的改进，并且在场景空间的高频区域也很准确。在撰写本文时，我们的方法——标记为 VA-DepthNet，在 KITTI 深度预测评估集基准上进行测试时，显示了最先进的结果，并且是表现最好的已发布方法。

Subjects: cs.CL

3.AbLit: A Resource for Analyzing and Generating Abridged Versions of English Literature

标题：AbLit：分析和生成英文文献删节版的资源

作者：Melissa Roemmele, Kyle Shaffer, Katrina Olsen, Yiyi Wang, Steve DeNeefe

文章链接：https://arxiv.org/abs/2302.06579v1

项目代码：https://github.com/roemmele/ablit

摘要：

创建文本的删节版本涉及缩短文本，同时保持其语言质量。在本文中，我们首次从 NLP 的角度审视了这项任务。我们提供了一种新资源 AbLit，它源自英文文学书籍的删节版。该数据集捕获原始文本和删节文本之间的段落级对齐。我们描述了这些对齐的语言关系，并创建了自动化模型来预测这些关系以及为新文本生成删节。我们的研究结果表明删节是一项具有挑战性的任务，可以激发未来的资源和研究。