当视频遇上AI:SAM 2 打破想象的界限!
Segment Anything Model 2
Meta公司推出 Llama 3.1 没多久,又在今天推出了Segment Anything Model 2(SAM 2),以其强大的实时、可提示对象分割能力,引领了视频处理领域的一场新风潮。
SAM 2不仅支持各种未见过的视觉对象的分割,更为图像与视频提供了统一、高效的处理平台。如此突破,无疑为计算机视觉的未来赋予了无穷可能。
功能性大突破
SAM 2官方演示效果
在SAM 2中,可以看到诸多设计创新,其中最令人瞩目的当属其实时处理能力。借助流式内存设计,SAM 2能够顺序处理视频帧,让用户在各种实时应用场景下获得更流畅、更及时的数据反馈。
而且它还有着广泛的适用性,能够对任何图像或视频中的对象进行分割,即使是它之前从未见过的新物体。此外,通过基于提示的灵活分割方式,用户只需通过点击、框或掩码来定义目标对象,非常便捷。
为了进一步提高模型在动态环境中的表现,SAM 2还引入了一种记忆机制。在连续帧预测中,该机制帮助模型有效地克服模糊和遮挡,并改善对对象追踪的准确性。这一系列功能,使得SAM 2成为当前市场上最先进的视频对象分割工具之一。
性能再次提升
超强性能
Meta针对计算速度和效率进行了深度优化,在流式内存架构方面取得显著进步,使得用户交互时间减少至原有水平的1/3。此外,通过引入遮挡 head 模块,这款新的模型能够智能判断目标对象是否依旧可见,从而提升视频处理效果。根据训练数据来看,Meta还建立了庞大的SA-V数据集,包括51,000个真实世界的视频及超过600,000个masklet,为持续优化提供了强大支撑。
和前代版本相比,SAM 2表现在多个维度都显示出色:交互效率显著提升、实时推理速度达到每秒44帧,并且能快速生成相关分析结果。这标志着视频处理从此进入了全新的智能时代。
实测表现
外网用户评价
随着这项技术逐渐应用到实际中,各方对于SAM 2也给予了高度关注和赞扬。一些用户试用了未经官方测试的视频后,都表示效果惊人,让他们不禁重新审视这一技术。
而在零样本测试环节中,SAM 2也在17个数据集上展现出了优异表现,人机交互所需时间减少约三倍。同时,在注释过程中,比起传统手工操作,它能以8.4倍的速度完成各类任务,让整个流程更为高效顺畅。
总体来看,Segment Anything Model 2以实时性、灵活性以及广泛适用性等核心优势,将图像与视频内容分割推向新的高度。这次技术革新不仅启示着未来更多潜力应用,也预示着全面普及AI驱动的视频分析工具并不遥远。
有关厚德云
厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。