不知道大家有没有遇到过数据标注成本高、周期长的困扰,有没有那么一种可能,精心标注少量的数据,配合大量的无标注数据,就能达到比肩全量标注的模型精度呢?是的,PaddleX就带来了这样一款提效神器——大模型半监督学习工具。
大模型半监督学习工具利用视觉大模型的强大特征表征能力和PaddleX的特色半监督学习方法,其可以在少量有标注数据和大量无标注数据的混合数据上学习到更好的特征,从而得到超高精度的大模型,不仅如此,该工具内置了蒸馏和微调小模型的方法,进一步可以得到精度更高的小模型。为了验证该工具的有效性,我们测试了其在公开数据集的指标。最终,该工具刷新了图像分类(ImageNet 10%有标注)、目标检测(COCO 10%有标注)的半监督学习SOTA精度。
该工具有以下几个特点,如果正合您的需求,欢迎尝试使用!
减少标注数据:该工具对CLIP等视觉大模型的下游任务训练进行了调优,通过相关配置和预训练权重设置,其可以在少量有标注数据上学习到目标场景的图像特征,和其他模型相比,达到相同精度时所需要的有标注的数据更少。且该工具集成了更好的半监督学习算法,可以更好地利用无标注数据从而进一步降低标注数据的需求。
提高模型精度:该工具使用大模型在更多无标签数据循环迭代训练,可以得到精度更高的大模型。与此同时,使用该大模型和无标签数据,可以更好地将大模型学习到的知识传授给小模型,从而提升小模型精度。
减少模型研发成本:该工具提供了UI界面,工具内置算法的很多关键参数均已在前端展现,用户可以直接在前端页面调试参数,通过简单地点击UI页面上的按钮即可完成精度更高的模型的研发,大大提升研发高精度模型的效率。
提升模型推理速度:该工具内置了不同推理耗时的精选小模型,用户可以根据实际需要选择速度更快的小模型,从而提升最终的推理速度(该工具可以得到精度相近但是参数量更小、推理速度更快的模型)。
目前,该工具支持图像分类、目标检测、OCR识别三类视觉任务17个模型,大家无需关心细节,只需提供更多无标注数据,点击两次按钮,即可得到高精度的大模型和小模型。下面我们一起看下三大工具的超能力!
效果展示
图像分类-大模型半监督学习工具
公开数据集
该工具在公开数据集ImageNet 10%数据上进行了验证。使用该工具后,在 ImageNet 10% 有标签数据+90%无标签数据上,大模型相比直接训练,精度高1.2个百分点(84.2%->85.4%),不仅如此,同时超越了当前半监督学习SOTA方案(85.1%->85.4%);小模型(ResNet50)相比直接训练,精度高了26个百分点以上(54%->80.3%),即使和当前ResNet50在该数据集的半监督学习SOTA比,也高了将近3个百分点(77.5%->80.3%),不仅如此,甚至比该模型在ImageNet全量数据训练的精度高4个百分点(广泛使用的精度为76.3%)。
场景数据集
除了验证公开数据集,我们还在8个图像分类的场景数据进行了验证。相比直接训练,使用该工具后,大模型和小模型的精度均有大幅提升。
立即在线体验:
https://aistudio.baidu.com/projectdetail/paddlex/7045718
目标检测-大模型半监督学习工具
公开数据集
该工具在公开数据集COCO 10%数据上进行了验证。下图展示了该工具在公开数据集COCO 10%的指标情况。使用该工具后,在COCO 10%有标签数据+90%无标签数据上,大模型(RT-DETR-H)相比直接训练,mAP高了3.5个百分点(47.7%->51.2%),刷新了该数据集的半监督学习SOTA(43.5%->51.2%)。小模型(PP-PicoDet_s_320_LCNet)相比直接训练,mAP高了13个百分点以上(18.3%->32.0%),接近全量有标注数据训练的结果(32.5%)。
场景数据集
除了验证公开数据集,我们还在3个不同的目标检测的场景数据进行了验证,下面展示了目标检测应用中的3个场景使用该工具后的效果,可以看到,在不同的场景中,大模型和小模型的mAP均有大幅提升。
立即在线体验:
https://aistudio.baidu.com/projectdetail/paddlex/7045736
文本识别-大模型半监督学习工具
在OCR文本识别中,我们使用该工具验证了两个常见的任务,即手写字体识别和通用OCR识别。使用该工具后,大模型和小模型的精度均有大幅提升。
立即体验:
https://aistudio.baidu.com/projectdetail/paddlex/7045737
技术思路
大模型半监督学习工具借助了CLIP等视觉大模型或多模态大模型的强大特征预训练,将其在有标注数据上微调得到一个确定场景的大模型,然后将其不断在无标注数据和有标注数据的混合数据上循环训练,得到一个在该场景中精度高的大模型。在此基础上,通过两阶段知识蒸馏或微调,借助更多的数据,将大模型强大的知识传授给小模型,从而得到一个速度快且精度高的小模型。整体流程如下:
为了让大模型半监督学习工具在不同任务上有较好的泛化性,PaddleX团队在图像分类、目标检测、OCR识别任务上分别进行了广泛的针对性适配和调优,每个工具的算法细节都不尽相同。不仅如此,为了大家使用方便,我们发布的三个不同视觉任务的大模型半监督学习工具尽可能保持了使用方式上的统一。
结语
PaddleX是面向国内外主流AI硬件的,全流程、高效率的飞桨精选AI模型的一站式AI开发套件。PaddleX的使命是助力AI技术快速落地,愿景是使人人成为AI Developer!
大模型半监督学习工具已重磅上线PaddleX!快来体验这款提效神器吧!
点击阅读原文加入PaddleX官方频道,和大家一起讨论开发经验,传送门:
https://aistudio.baidu.com/community/channel/610
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~