从零入门AI篡改图片检测(金融场景)#Datawhale十月组队学习

news2024/10/16 15:57:59

1.大赛背景

在全球人工智能发展和治理广受关注的大趋势下,由中国图象图形学学会、蚂蚁集团、云安全联盟CSA大中华区主办,广泛联合学界、机构共同组织发起全球AI攻防挑战赛。本次比赛包含攻防两大赛道,分别聚焦大模型自身安全和大模型生成内容的防伪检测,涉及信用成长、凭证审核、商家入驻、智能助理等多个业务场景,覆盖机器学习、图像处理与计算机视觉、数据处理等多个算法领域,旨在聚合行业及学界力量共同守护AI及大模型的安全,共同推动AI安全可信技术的发展。

2.赛题二:AI核身-金融场景凭证篡改检测

金融领域交互式自证业务中涵盖信用成长、用户开户、商家入驻、职业认证、商户解限等多种应用场景,通常都需要用户提交一定的材料(即凭证)用于证明资产收入信息、身份信息、所有权信息、交易信息、资质信息等,而凭证的真实性一直是困扰金融场景自动化审核的一大难题。随着数字媒体编辑技术的发展,越来越多的AI手段和工具能够轻易对凭证材料进行篡改,大量的黑产团伙也逐渐掌握PS、AIGC等工具制作逼真的凭证样本,并对金融审核带来巨大挑战。
为此,开设AI核身-金融凭证篡改检测赛道。将会发布大规模的凭证篡改数据集,参赛队伍在给定的大规模篡改数据集上进行模型研发,同时给出对应的测试集用于评估算法模型的有效性。

3.赛题与数据

数据集格式如下:

  • 训练集数据总量为100w,提供篡改后的凭证图像及其对应的篡改位置标注,标注文件以csv格式给出,csv文件中包括两列
  • 测试集分为A榜和B榜,分别包含10w测试数据。测试集中数据格式与训练集中一致,但不包含标注文件。

采用Micro-F1作为评价指标,该分数越高表示排名越靠前。

4.baseline

本任务可以基于检测模型微调,也允许使用基于大模型的方案等。方案不限于:

小模型微调(例如Faster R-CNN、ConvNeXt(Base)+UPerHead、SegNeXt、VAN(B5)+UPerHead等);
使用大模型(例如SAM、Grounded-SAM等);
多模型协同等。

赛事官方给出的baseline是基于SwinTransformer (Large) + Cascade R-CNN的实验结果。

Datawhale提供的是基于yolov8模型的实验结果。

本任务基于Datawhale提供的是基于yolov8模型的baseline展开。

首先需要下载数据集,数据集很大,训练集包括16个文件夹,接近50G.

考虑到机器的限制和训练的效率,使用全量数据来跑是不现实的,也是很贵的。全量数据共有100W+。

那么可行的策略

策略一:就是使用1个train_data来跑,比如training_data-00,跑到收敛,然后再用训好的模型去微调其他数据集。可能需要固定一些层的参数,然后比赛截止前再用全量数据微调一下。提交最后的结果;

策略二:自己采样制作数据集,从16个文件夹中,按一定比例采样数据,最终得到约6W的训练数据集,进行训练,直到收敛。然后再全量数据微调。

在数据处理环节,我们可以查看训练集的样本,可以看到样本的类型,这个样本还是很丰富的。

我用的机器是阿里云V100,单卡,训练6W数据的话,50个epoch需要9h。

感觉这种比赛越来越卷,数据越来越大,对机器的要求越来越高,那么这里面应该是有很多算法工程化的小技巧的,应该是有很多优化的tricks的,这些需要通过不断的实践来提高、积累。

接下里记录一些跑baseline中遇到的问题和解决方法。

1.training_anno = pd.read_csv('./seg_risky_training_anno.csv')

这行代码,baseline里面给的是原始URL,运行有一定概率出现Connection的问题,那么我们可以修改为

!axel -n 12 -a http://mirror.coggle.club/seg_risky_training_anno.csv
training_anno = pd.read_csv('./seg_risky_training_anno.csv')

2.训练集和验证集的划分

baseline里面默认使用了前10000行作为训练集,10000-10150作为验证集,datatrain_00的6W数据没有数据。我们需要采用随机采样来划分训练集和验证集,验证集的比例为0.1。

代码修改后如下:

#随机采样划分训练集和验证集,验证集占比0.1
import os
import shutil
import cv2
import glob
import json
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# 定义一个函数,用于归一化多边形的坐标
def normalize_polygon(polygon, img_width, img_height):
    return [(x / img_width, y / img_height) for x, y in polygon]

# 随机划分训练集和验证集,验证集比例为0.1
train_df, valid_df = train_test_split(training_anno, test_size=0.1, random_state=42)

# 处理训练集
for row in train_df.iterrows():
    shutil.copy(row[1].Path, 'yolo_seg_dataset/train')

    img = cv2.imread(row[1].Path)
    img_height, img_width = img.shape[:2]
    txt_filename = os.path.join('yolo_seg_dataset/train/', row[1].Path.split('/')[-1][:-4] + '.txt')
    with open(txt_filename, 'w') as up:
        for polygon in row[1].Polygons:
            normalized_polygon = normalize_polygon(polygon, img_width, img_height)
            normalized_coords = ' '.join([f'{coord[0]:.3f} {coord[1]:.3f}' for coord in normalized_polygon])
            up.write(f'0 {normalized_coords}\n')

# 处理验证集
for row in valid_df.iterrows():
    shutil.copy(row[1].Path, 'yolo_seg_dataset/valid')

    img = cv2.imread(row[1].Path)
    img_height, img_width = img.shape[:2]
    txt_filename = os.path.join('yolo_seg_dataset/valid/', row[1].Path.split('/')[-1][:-4] + '.txt')
    with open(txt_filename, 'w') as up:
        for polygon in row[1].Polygons:
            normalized_polygon = normalize_polygon(polygon, img_width, img_height)
            normalized_coords = ' '.join([f'{coord[0]:.3f} {coord[1]:.3f}' for coord in normalized_polygon])
            up.write(f'0 {normalized_coords}\n')

3.推理

我们每练一次就会产生一个train文件,推理的时候需要使用最新训练好的模型参数,防止弄错模型导致结果错误。

from ultralytics import YOLO
import glob
from tqdm import tqdm

model = YOLO("./runs/segment/train5/weights/best.pt") #注意更新模型,查看segment/train文件夹,防止弄错模型

test_imgs = glob.glob('./test_set_A_rename/*/*')

4.结果提交

原始baseline还存在一个问题,提交的格式不正确,赛事要求的提交格式是

 baseline初版给出的是,yolo_seg输出是一堆坐标点,需要转换为满足[左上,右上,右下,左下]格式的矩形框。

代码修改后如下:

# 初始化一个空列表,用于存储每个图像的多边形掩码
Polygon = []

# 使用 tqdm 包装循环,显示进度条
for path in tqdm(test_imgs[:]):  # 只处理前10000个图像
    # 使用模型对当前图像进行推理
    results = model(path, verbose=False)  # verbose=False 表示不打印推理过程中的详细信息
    
    # 获取第一个结果(假设模型返回的是一个结果列表)
    result = results[0]
    
    # 检查是否有检测到的掩码
    if result.masks is None:
        # 如果没有检测到掩码,添加一个空列表
        Polygon.append([])
    else:
        # 如果检测到了掩码,将每个掩码转换为所需的格式
        processed_masks = []
        for mask in result.masks.xy:
            # 将每个坐标点转换为浮点数
            float_mask = [point.astype(float).tolist() for point in mask]
            
            # 计算边界框的最小和最大坐标
            x_coords = [point[0] for point in float_mask]
            y_coords = [point[1] for point in float_mask]
            min_x, max_x = min(x_coords), max(x_coords)
            min_y, max_y = min(y_coords), max(y_coords)
            
            # 构建左上、右上、右下、左下的坐标点
            polygon = [
                [round(min_x, 1), round(min_y, 1)],  # 左上
                [round(max_x, 1), round(min_y, 1)],  # 右上
                [round(max_x, 1), round(max_y, 1)],  # 右下
                [round(min_x, 1), round(max_y, 1)]   # 左下
            ]
            
            processed_masks.append(polygon)
        
        # 将处理后的多边形添加到 Polygon 列表中
        Polygon.append(processed_masks)

# 此时,Polygon 列表中存储了每个图像的多边形掩码,每个多边形由4个顶点组成

这里面其实还是存在一些问题的,我查看训练集标签发现的。训练集标签中还存在一些:

1)不规则四边形(非矩形,那么按照代码计算最大最小坐标在生成框应该是不准确的,比如可能存在右下坐标(不是max_x,max_y)比这个最大值小一些,那么按照最大值得到就把这个区域扩大了,其他几个顶点类似),我们无法看到测试集的标签分布,所以无法得知测试集是否存在同样情况;

2)我发现训练集标签还存在一些不是4个点的情况,比如6个点,两个大小矩形连在一起,这种情况在模型中是没有考虑的。

这些可能会影响到最终的得分,不过这是TOP选手需要考虑的哈。

上分情况记录:

YOLOV8

模型参数

YOLO11

模型参数

 由于我们需要在有限的资源下,去尽可能取得高分,对比YOLOv8和YOLO11的模型预训练参数,综合考虑下来选择YOLO11s或者YOLO11l可能效果会更好。

目前自己跑下来的情况,YOLOv8n,跑data0文件6W数据,因为没有连续跑,一共跑了10+50+50+90轮,得分情况如下:从60轮到200轮,提分2分。

训练仍未收敛,预计还需要继续跑,不过感觉后面提分情况有限了。

后面准备跑一下YOLO11s看看效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2216404.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Compose使用LinearProgressIndicator绘制显示异常

使用依赖版本 androidx.compose.material3:material3:1.3.0-beta05 对应代码 LinearProgressIndicator(progress { 0.7f })直接使用上述代码绘制进度条时,最终显示效果如下: 问题原因 LinearProgressIndicator中gapSize属性表示进度和背景之前的空…

【文献及模型、制图分享】中国新型城镇化与绿色发展协调演进关系研究(熵值法、耦合协调模型)

文献介绍 双碳目标下,新型城镇化与绿色发展的协调演进对于推动中国经济高质量发展意义重大。运用熵值法、耦合协调模型等研究方法,分析了2005—2020年中国30个省(自治区、直辖市)新型城镇化与绿色发展协调演进的时空格局特征与类…

DOM中的元素获取方式、事件以及属性操作

一、WebApi介绍 1. Api的概念 API ( Application Programming Interface:应用程序编程接口) 是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组程序的能力,而又无需访问源码,无需了解其内部的工作…

26K star!学习AI也不难,这个项目讲的非常全

马上就要2024年了,谁不想学习一下AI相关的知识呢?怎么开始上手一直困扰着很多初学者,现在网上也充斥着各种搬运的垃圾课程,更是让人难以选择,我们就是希望帮初学者避开那些垃圾内容。 今天我们推荐的开源项目是微软推…

Windows上安装Go并配置环境变量(图文步骤)

前言 1. 本文主要讲解的是在windows上安装Go语言的环境和配置环境变量; Go语言版本:1.23.2 Windows版本:win11(win10通用) 下载Go环境 下载go环境:Go下载官网链接(https://golang.google.cn/dl/) 等待…

阿里大佬带你一周刷完 Java 面试八股文,比刷视频效果好多了

今天在脉脉刷到了这么一条消息,现在这个大环境,都后悔学 Java 了,想转行学前端, 看完很是震惊,据大数据统计,Java 的待遇是要好过前端的。小伙伴竟然被卷到想要转行......但是行情这个东西,也不…

Python实时视频流+网络摄像头+视频检测流程播放

实时视频处理 概述需求网络摄像头推流流媒体服务器查看设备视频、音频设备列表查看指定设备配置信息 不编码、指定分辨率推流编码加速python服务端处理多线程最终的处理方式 问题与分析 概述 一款桌面应用,可以配置视频处理参数,根据参数播放网络摄像头…

MySQL 8.4.0解压版安装记录

这几天,安装最新版mysql 8.4的时候,遇到了不少问题,网上的教程大多数都是旧版本的,也安装不成功。 参考了大量教程后,经过自己的摸索终于装好了,这里记录一下。 我下载的是8.4.0 LTS MySQL :: Download …

智绘城市地图:使用百度地图 API 实现智能定位

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

全网最易详解-数据仓库分区详解

最近要搭某个业务域的数仓,本来设计规划的挺好的,该搭DIM,DWD,DWS的也都设计好了,结果一跑数仓,全是大大小小的BUG,最后揪出来整个过程,最大的烦人东西就是设计ETL数据入库分区的问题。 那么这时候肯定有…

AI大模型学习路线,只看这一篇就够了!

1. 打好基础:数学与编程 数学基础 线性代数:理解矩阵、向量、特征值、特征向量等概念。 推荐课程:Khan Academy的线性代数课程、MIT的线性代数公开课。 微积分:掌握导数、积分、多变量微积分等基础知识。 推荐课程&#xff1a…

【Python爬虫实战】XPath与lxml实现高效XML/HTML数据解析

🌈个人主页:https://blog.csdn.net/2401_86688088?typeblog 🔥 系列专栏:https://blog.csdn.net/2401_86688088/category_12797772.html 目录 前言 一、为什么学习xpath和lxml (一)高效解析和提取数据 …

【软件】Ubuntu下QT的安装和使用

【软件】Ubuntu下QT的安装和使用 零、前言 QT是应用得比较广泛的程序框架,是因为其跨平台特性比较好,且用C/C作为开发语言,性能也比较好,故本文介绍如何安装和使用QT,用的版本是QT 6.2.4,由于QT在Windows…

windows安装deepspeed setup.py 207行找不到文件

一直报莫名奇妙的错误,查了半天也没查到 去看了一下源码,需要安装git,我没有安装 git命令获得信息也没啥用 直接注释掉 成功运行

HazyDet数据集:包含 383,000 雾霾场景中基于无人机的目标检测设计的大规模数据集

2024-09-30,由中国人民解放军陆军工程大学、南开大学、南京邮电大学和南京理工大学的研究人员联合创建了HazyDet数据集,目的解决无人机在恶劣天气条件下的环境感知问题。这个数据集的推出,极大地填补了相关基准测试的空白,为无人机…

Windows系统部署redis自启动服务

文章目录 引言I redis以本地服务运行(Windows service)使用MSI安装包配置文件,配置端口和密码II redis服务以终端命令启动缺点运行redis-server并指定端口和密码III 知识扩展确认redis-server可用性Installing the Service引言 服务器是Windows系统,所以使用Windows不是re…

Langchain CharacterTextSplitter无法分割文档问题

在使用Langchain的文档分割器时,使用CharacterTextSplitter拆分文档是,发现返回的文档根本没有变化,即使设置了chunk_size,返回的大小也不符合参数设置。 CharacterTextSplitter设置了150,但是根本没有处理&#xff0…

软件测试学习笔记丨Linux三剑客-sed

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/32521 一、简介 sed(Stream editor)是一个功能强大的文本流编辑器,主要用于对文本进行处理和转换。它适用于自动化处理大量的文本数据,能够支持…

ASML业绩暴雷,股价一度跌超16%

KlipC报道:当地时间10月15日,阿斯麦(ASML)原定于周三公布的三季度业绩报告由于技术原因被短暂地提前公布,业绩报告显示,阿斯麦第三季度总净销售额75亿欧元,毛利率50.8%,净利润21亿欧…

NoMachine安装使用

目录 前言 一、安装教程 1) 首先下载 NoMachine 软件 Linux arm64 deb 版本的安装包,然后安装到开发板的Linux 系统中 a. 由于 RK3588S 是 ARMv8 架构的 SOC,我们使用的系统为 Ubuntu 或者Debian,所以这里需要下载 NoMachine for ARM ARM…