【AI基础】数据获取与整理、打标、增强方法、增强库imgaug

news2024/11/18 1:21:39

文章目录

  • 常见的数据集网站
  • 爬虫工具使用
    • 搜索引起图片爬虫
    • 视频网站爬虫
  • 数据整理
    • 数据检查和清洗
    • 数据去重
    • 数据集划分
  • 数据标注
    • 数据标注工具 label studio
  • 数据增强
    • 什么是数据增强
    • 单样本数据增强
    • 多样本数据增强
    • 样本生成方法
    • 数据增强imgaug
      • imgaug 操作
      • imgaug 使用

常见的数据集网站

*imagenet

  • hugging face

  • 自己采集与标注

  • 网络爬虫

爬虫工具使用

搜索引起图片爬虫

image-downloader
安装,然后根据关键词检索
在这里插入图片描述
在这里插入图片描述

视频网站爬虫

工具: iawia lux
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据整理

数据检查和清洗

  • 去除不好的损坏的图片: 损坏图片/ 动图/异常尺寸图片

  • 去除停用词和特殊符号
    在这里插入图片描述

  • 归一化

  • 内容纠错
    在这里插入图片描述

数据去重

重复数据
相似数据

数据集划分

训练集

  • 数据集难度划分

在这里插入图片描述
在这里插入图片描述

数据标注

数据标注工具 label studio

语音、文本、图片、视频等都可以进行标注
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 导出时会让选择是什么类别的 coco / yolo /…

数据增强

什么是数据增强

数据增广或者数据增扩
作用: 降低数据采集成本 降低过拟合风险降低
方法: 单样本、多样本、样本生成
在这里插入图片描述

单样本数据增强

几何变换: 翻转 、裁剪与缩放、仿射与透射变换
添加噪声 : 随机噪声、 coaesrDropout 、频域噪声
添加模糊、平滑
颜色扰动,改变颜色、亮度、对比度等
锐化 颜色反转
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

多样本数据增强

在这里插入图片描述

  • mixup :对图像和标签都进行线性插值

在这里插入图片描述

  • cutmix
    直接复制粘贴,作用: 增强样本的数量缓解类别不平衡
    在这里插入图片描述
  • mosiac : 多个样本拼接
    在这里插入图片描述

样本生成方法

当下两大主流生成模型:

  • 生成对抗网络
  • 扩散模型
    在这里插入图片描述

数据增强imgaug

ii

imgaug 操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(添加噪声、压缩)
在这里插入图片描述
(删除像素点 删除通道)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

imgaug 使用

在这里插入图片描述
在这里插入图片描述

#coding:utf8
import numpy as np
import imgaug as ia
import imgaug.augmenters as iaa

ia.seed(1)

## 创建矩阵(16, 64, 64, 3).
images = np.array(
    [ia.quokka(size=(64, 64)) for _ in range(16)],  # quokka :小老鼠
    dtype=np.uint8
)

seq = iaa.Sequential([
    iaa.Fliplr(0.5), ## 以0.5的概率进行水平翻转horizontal flips
    iaa.Crop(percent=(0, 0.1)), ## 随机裁剪random crops
    ## 对50%的图片进行高斯模糊,标准差参数取值0~0.5.
    iaa.Sometimes(
        0.5,
        iaa.GaussianBlur(sigma=(0, 0.5))
    ),
    ## 对50%的通道添加高斯噪声
    iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5),
], random_order=True) ## 以上所有操作,使用随机顺序

images_aug = seq(images=images) ## 应用操作增强
grid_image = ia.draw_grid(images_aug,4)

import imageio
imageio.imwrite("example.jpg", grid_image)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1716133.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

利用C++与Python调用千帆免费大模型,构建个性化AI对话系统

千帆大模型已于2024年4月25日正式免费,调用这个免费的模型以实现自己的AI对话功能,遵循以下步骤: 了解千帆大模型: 千帆大模型是百度智能云推出的一个平台,提供了一系列AI能力和工具,用于快速开发和应用A…

骨传导耳机哪个品牌值得入手?精选五大不容错过的王者品牌推荐!

尽管骨传导耳机作为新型蓝牙耳机问世不久,但凭借其独特的传音方式和舒适的佩戴体验,已经迅速在市场上崭露头角,赢得了广大音乐爱好者和运动达人的青睐。然而,随着骨传导耳机热度增高,市场上开始出现一些品质参差不齐的…

近屿OJAC带你解读:什么是API?

API的定义 API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。 是…

性能击败99%PC用户,旗舰性能CPU 13700KF +技嘉Z790 + 德静界 机散装机配置思路分享

性能击败99%PC用户,旗舰性能CPU 13700KF 技嘉Z790 德静界 机散装机配置思路分享 又到了一年一度的618年中促销,今年的618比往年要来的更早。 很多人已经感受到,5月各大电脑相关配件都开始了今年的促销让利。 凑此机会,我又装了…

web题解 Easy_SQLi or 雏形系统 (解题方法思想)

1.Easy_SQLi 1)打开题目环境,如下是一个类似弱密码的格式,但是它又说是sql,还是按sql注入来 2).这里我尝试判断它的注入类型,但是一只不对,我便想着用万能密码试试,怎料直接登录成功…

香港Web3媒体:Techub News

Techub News:香港领先,世界一流的科技媒体平台 在数字化时代,Web3技术的崛起为媒体行业注入了新的活力。作为香港领先的Web3媒体平台,Techub News凭借其专业的团队、丰富的资源和创新的业务模式,成为了行业内的佼佼者。…

揭秘希喂、小米、安德迈宠物空气净化器的惊人效果,性价比爆表!

当谈及养猫,首先浮现在脑海中的烦恼无疑是猫咪的掉毛和便臭问题。这些问题对于我们这些爱宠人士来说,无疑是一种持续的挑战。特别是在炎热的夏季,高温本身就让人焦躁不安,而空气中飘散的猫浮毛和便臭更是加剧了这种不适感。 为了…

关于验证码的那些漏洞

一、短信轰炸 这类漏洞存在的原因是没有对短信验证码的发送时间、用户及其IP作一些限制。 案例1、正常的短信轰炸 burp一直发包即可 案例2、并发绕过 做了限制咋办?可以试试并发(万物皆可并发) 使用turbo intruder插件进行并发。 并发次数越大是不是轰炸就越多。 …

cocos creator 3.x 手搓背包拖拽装备

项目背景: 游戏背包 需要手动 拖拽游戏装备到 装备卡槽中,看了下网上资料很少。手搓了一个下午搞定,现在来记录下实现步骤; 功能拆分: 一个完整需求,我们一般会把它拆分成 几个小步骤分别造零件。等都造好了…

MAC M1 —— Install

文章目录 MAC M1 —— Install安装IDEA安装JDK安装Maven安装brew无法创建文件 /data/serverMac 修改终端用户名(主机名)PyCharm MAC M1 —— Install 安装IDEA 关键词:2020到2021.3的激活步骤。找下Download文件夹 安装JDK 在个人的电脑上…

C语言 宏

目录 一、宏定义 1.1 预定义符号 1.2 预处理指令 #define 1.3 带有副作用宏定义 1.4 宏和函数的一个对比 ​编辑 1.5 #undef 二、条件编译 2.1 #if、#else、#elif、#endif 2.2 #ifdef和#ifndef 2.3 C语言中如何通过条件编译来预防头文件的重复包含? 一、宏定义 在C语…

卓豪Zoho CRM客户管理系统采购费用?

企业如何高效地管理客户关系,卓豪Zoho CRM,作为一款领先的客户关系管理系统,不仅为企业提供了一套完整的客户管理解决方案,更在价格上实现了公开透明和合理优惠,助力企业实现数字化转型,迈向更高效、更智能…

深入解析Python中的两种导入方法:from...import与import

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言 二、from...import与import的基本区别 1. 导入方式的不同 2. 命名空间的差异 三…

倍福TwinCAT3 PLC编程软件下载安装

1、哪里下载TwinCAT3 链接: Search result | 倍福 中国https://www.beckhoff.com.cn/zh-cn/support/download-finder/search-result/?download_group=97028248下载倍福PLC编程软件需要注册,大家可以提前注册,注册好后就可以开始愉快的下载了 安装前需要注意将各杀毒软件卸…

常用的优化器汇总及keras实现

1.SGD(Stochastic Gradient Descent) 2.RMSprop(Root Mean Square Propagation) 3.Adadelta 4.Adam(Adaptive Moment Estimation) 5.Nadam 6.代码实现 from sklearn.compose import make_column_transforme…

Linux下Git的基本使用

认识Git 先基于Windows下的git操作,熟悉了git的基本概念和使用,直接参考这几篇文章: Git概述、安装与本地仓库的基本操作-CSDN博客 Git本地仓库与远程仓库的交互-CSDN博客 GtiHub远程仓库之间的交互-CSDN博客 Git仓库的分支操作-CSDN博客 仓库…

python如何巧妙地利用内置函数与列表切片组织舞会派对

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、引言 二、问题分析 三、解决方案 1. 利用内置函数创建参会人员名单 2. 利用列表切片…

每期一个小窍门 k8s版本的 Prometheus + grafana + alertmanager 三件套部署监控落地

首先部署prometheus 首先是pvc apiVersion: v1 kind: PersistentVolumeClaim metadata:name: prometheus-data-pvcnamespace: monitor spec:accessModes:- ReadWriteManystorageClassName: "data-nfs-storage"resources:requests:storage: 10Gi然后接着 cluster-ro…

【条形码code39】基础知识

条形码-39码(code39) 符号集。(共43个字符)包括 数字0 ~ 9,大写字母A~Z,空格,-,。,$,/,,% Extended Code39,支持全部ASCII字符。 完整的code39条形码:起始字符( * ) 数据数值 (可选的&#…

关于微信小程序低功耗蓝牙ECharts实时刷新(涉及自定义缓冲区)

简单的蓝牙显示(串口手动发数据测试) 最近搞了这方面的东西,是刚刚开始接触微信小程序,因为是刚刚开始接触蓝牙设备,所以这篇文章适合既不熟悉小程序,又不熟悉蓝牙的新手看。 项目要求是获取到蓝牙传输过来…