文章目录
- 常见的数据集网站
- 爬虫工具使用
- 搜索引起图片爬虫
- 视频网站爬虫
- 数据整理
- 数据检查和清洗
- 数据去重
- 数据集划分
- 数据标注
- 数据标注工具 label studio
- 数据增强
- 什么是数据增强
- 单样本数据增强
- 多样本数据增强
- 样本生成方法
- 数据增强imgaug
- imgaug 操作
- imgaug 使用
常见的数据集网站
*imagenet
-
hugging face
-
自己采集与标注
-
网络爬虫
爬虫工具使用
搜索引起图片爬虫
image-downloader
安装,然后根据关键词检索
视频网站爬虫
工具: iawia lux
数据整理
数据检查和清洗
-
去除不好的损坏的图片: 损坏图片/ 动图/异常尺寸图片
-
去除停用词和特殊符号
-
归一化
-
内容纠错
数据去重
重复数据
相似数据
数据集划分
- 数据集难度划分
数据标注
数据标注工具 label studio
语音、文本、图片、视频等都可以进行标注
- 导出时会让选择是什么类别的 coco / yolo /…
数据增强
什么是数据增强
数据增广或者数据增扩
作用: 降低数据采集成本 降低过拟合风险
方法: 单样本、多样本、样本生成
单样本数据增强
几何变换: 翻转 、裁剪与缩放、仿射与透射变换
添加噪声 : 随机噪声、 coaesrDropout 、频域噪声
添加模糊、平滑
颜色扰动,改变颜色、亮度、对比度等
锐化 颜色反转
多样本数据增强
- mixup :对图像和标签都进行线性插值
- cutmix
直接复制粘贴,作用: 增强样本的数量缓解类别不平衡
- mosiac : 多个样本拼接
样本生成方法
当下两大主流生成模型:
- 生成对抗网络
- 扩散模型
数据增强imgaug
i
imgaug 操作
(添加噪声、压缩)
(删除像素点 删除通道)
imgaug 使用
#coding:utf8
import numpy as np
import imgaug as ia
import imgaug.augmenters as iaa
ia.seed(1)
## 创建矩阵(16, 64, 64, 3).
images = np.array(
[ia.quokka(size=(64, 64)) for _ in range(16)], # quokka :小老鼠
dtype=np.uint8
)
seq = iaa.Sequential([
iaa.Fliplr(0.5), ## 以0.5的概率进行水平翻转horizontal flips
iaa.Crop(percent=(0, 0.1)), ## 随机裁剪random crops
## 对50%的图片进行高斯模糊,标准差参数取值0~0.5.
iaa.Sometimes(
0.5,
iaa.GaussianBlur(sigma=(0, 0.5))
),
## 对50%的通道添加高斯噪声
iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5),
], random_order=True) ## 以上所有操作,使用随机顺序
images_aug = seq(images=images) ## 应用操作增强
grid_image = ia.draw_grid(images_aug,4)
import imageio
imageio.imwrite("example.jpg", grid_image)