Recognize Anything: A Strong Image Tagging Model
提出“识别万物模型”(Recognize Anything Model,RAM),用于图像打标签。RAM 可以高精度地识别任何常见类别。RAM 引入了图像打标签的一个新范式,利用大规模的图像-文本对进行训练,而不是手动标注。
开发 RAM 分为四个步骤。首先,通过自动文本语义解析获得图像标签。随后,通过统一文本描述和打标任务进行监督训练,以原始文本和解析标签为监督来自动标注一个初步模型。第三步,使用数据引擎生成附加标注,并清除不正确的标签。最后,使用处理后的数据重新训练模型,使用较小但更高质量的数据集进行微调。
在许多基准测试上评估了 RAM 的打标能力,并观察到令人印象深刻的零样本性能,优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超过了全监督的方式,并展现出与 Google API 竞争的性能。
代码:https://recognize-anything.github.io/
关注公众号【机器学习与AI生成创作】,更多精彩等你来读:
深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读
深入浅出ControlNet,一种可控生成的AIGC绘画生成算法!
经典GAN不得不读:StyleGAN
戳我,查看GAN的系列专辑~!
一顿午饭外卖,成为CV视觉的前沿弄潮儿!
最新最全100篇汇总!生成扩散模型Diffusion Models
ECCV2022 | 生成对抗网络GAN部分论文汇总
CVPR 2022 | 25+方向、最新50篇GAN论文
ICCV 2021 | 35个主题GAN论文汇总
超110篇!CVPR 2021最全GAN论文梳理
超100篇!CVPR 2020最全GAN论文梳理
拆解组新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多样性图像生成
附下载 | 《可解释的机器学习》中文版
附下载 |《TensorFlow 2.0 深度学习算法实战》
附下载 |《计算机视觉中的数学方法》分享
《基于深度学习的表面缺陷检测方法综述》
《零样本图像分类综述: 十年进展》
《基于深度神经网络的少样本学习综述》
《礼记·学记》有云:独学而无友,则孤陋而寡闻
点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!