MMPretrain算法库
优势:
- 含有各种主干网络模型
- 自监督学习功能
- 多模态学习功能
- 丰富的数据集
- 含有训练技巧和策略
- 易用,例如可解释性分析、推理api
包含多种丰富任务的开箱即用推理api
- 图像分类
- 图像语义描述
- 视觉问答
- 视觉定位
- 检索
安装步骤
配置文件中含有模型训练中的设置,影响精度和速度,主要涉及以下几个方面:
- 模型结构
- 数据
- 训练策略
- 运行时gpu、分布式环境配置
- 辅助功能 日志、定时保存权重
代码框架以及各个目录的含义用法:
数据流
配置文件的运行方式:
经典主干网络
vision transformer
将图像切成若干16*16的小块,排列成“词向量”
注意力机制:为了实现层次化特征
后层特征是空间邻域内的前层特征的加权求和
自监督学习
不依赖人工标注,利用互联网上的海量数据
多模态算法