文章目录
- RAM的优势
- RAM的创新点
- 总结与展望
- 参考文献
大语言模型(Large Language Models)已经给自然语言处理(NLP)领域带来了新的革命。在计算机视觉(CV)领域,Facebook近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果。然而SAM作为一个极致的定位大模型,并没有识别(Recognition)能力,而识别是与定位同等重要的CV基础任务。现有的开放式检测、分割任务尝试同时做好识别和定位,却在两个任务上都不能达到极致。
我们推出视觉感知大模型Recognize Anything Model(RAM),提供最强的图像识别能力,RAM为图像识别领域提供了一种新的范式,使用海量无需人工标注的网络数据,可以训练出泛化能力强大的通用模型,甚至在垂域下可以超越人工标注训练的有监督模型。
RAM的优势
能力强且通用:RAM可识别任意常见类别,支持中英文,精度上其Zero-Shot能力超越了有监督模型,