【图形验证和AI智能及CHATGPT对抗影响的是用户体验】

news2025/1/13 7:32:51

验证码本质上自带一层答案的语义,这原本是天然的区分人和自动程序的地方,但在今日却未必,由于AI智能及CHATGPT的发展机器要识别也变得容易。

一 :攻防思路

黑产对于验证码图片答案的获取主要有两种手段——图片穷举破解和图片模型破解。模型破解与穷举破解的差别,本质上是黑产效率的提升。
在这里插入图片描述然而,真人在线输入验证码难以避免耗时等问题,在整个黑产作弊链路中,人工打码几乎占据了超过60%的时间。以破解一批30万张的验证图库为例,黑产下载这批图片耗时8.33小时,通过低成本的人工打码获取这批验证图片答案需要花费208.33小时。并且,图片遍历+人工打码是一个需要持续投入时间和资金的破解方法,一旦验证厂商更新了图集,黑产就需要重新下载一批新的图库,不停地重复花钱请人打码。

那么怎样才能缩减这些时间和资金成本,减少人工打码的占比呢?黑产想出了一种方式——用自动化的方式来识别图片答案。即在验证图片资源遍历批量获取到图片答案后,进行自动化的模型训练,从而实现自动对抗。
在这里插入图片描述

相比起图片遍历+人工打码的攻击方式会随着图集自动更新而失效,黑产只需要建立出一个准确的图片识别模型,即便后期验证厂商动态更新了图集,只要不改变图片上的图标风格,识别模型依然能精准地识别图片,效率大大提升。
在这里插入图片描述
在这里插入图片描述
例如,假设黑产训练出了能够识别图A的模型,那么即使验证厂商将图库更新为了图B,黑产的模型同样也能识别。且后续每次图集更新时只要不改变图标风格,黑产的模型都能持续识别这批图片。这直接帮助黑产省去了爬取、下载图库的流程,大大降低了重新寻找人工打码的时间和资金成本,提高了攻击效率。

二:攻击流程

站在黑产的视角完整地体验一次图像识别模型训练和攻击的流程:

step 1:黑产针对某游戏公司的Web注册场景发起攻击。

在这里插入图片描述

step 2:黑产通过频繁向页面接口发送请求来获取验证图片地址。

在这里插入图片描述

step 3:批量下载存储验证图片,共需要大概5~10万张图片。

在这里插入图片描述

step 4:人工对验证图片中的答案进行标注。

在这里插入图片描述

step 5:构建模型的网络结构,编写模型训练代码。

在这里插入图片描述

step 6:使用标注后的验证图片和答案坐标对模型进行训练

(训练所使用的设备需要用到显卡) 。

下图展示了模型训练的过程:训练损失和验证损失随着模型迭代稳步下降,最终趋于收敛;训练准确度逐步上升,最终在趋近于100%,验证集准确度在90%左右收敛。

在这里插入图片描述
在这里插入图片描述

step 7:黑产训练出一个高准确度的识别模型后,后续破解验证码时,通过识别模型就能直接获取答案坐标。

在这里插入图片描述

三:攻击方式

黑产破解者为了降低攻击成本、提高破解效率,通常会利用收集的大量验证码图片样本,打码标注、构建模型网络、训练模型、测试模型,从而得到一个可持续识别图片答案的识别。目前,黑产针对验证码图片的破解最常用的主要是分类模型和相似模型。

1、分类模型

分类模型指的是黑产对图标位置进行检测,并对目标元素和提示标签进行分类。分类模型首先分别对检测出的目标元素和提示图标进行特征编码,得到特征表达,再通过softmax函数计算出可能类别的概率,取概率最高的值并将该图片划分到每个已知的类别,从而丰富模型素材。

下图展示了完整的分类模型训练流程。通过图标提取、特征编码、概率计算,得出目标元素为开关的概率是0.91,提示标签为开关的概率是0.86,因此将该图片划分至开关类别。

在这里插入图片描述
黑产分类模型的破解识别机制:黑产在进行模型训练时,会让模型将现有的图标元素全面覆盖,并且至少训练5万张图片。等模型训练完成、上线使用时,只要一发现训练中见过的图片元素,就能准确快速地定位到正确的答案坐标。

在这里插入图片描述
上图为分类模型识别验证码答案的效果示例,黑产的分类模型能自动在4个图标元素下标出 “book-open”,“add-on”等类别,快速定位图片答案。

2、相似度模型

相似度模型指的是黑产对图标位置进行检测,并对检测出的目标元素和提示标签进行特征编码,然后计算二者的相似度,相似度较大的可以视为同一类图标。

在这里插入图片描述
在这里插入图片描述
上图为相似度模型识别验证码答案的效果示例。相似度模型并不需要知道3个图标元素是什么内容,只需要通过两两计算提示标签与目标元素的相似度,就能直接确定通过验证码的点击顺序。

3、目标检测

目标检测指的是黑产对图标位置进行检测并记录,枚举得出正确的点击顺序。这是黑产攻击成本最低的一种方法,目前市面上免费的目标检测模型已经能够准确的检测目标元素的位置,再用枚举的方法,随机选择一个点击顺序,发送请求,如果通过验证,即试出了正确答案,否则继续尝试。如果一个验证码的目标元素为3个,那么最多尝试6次就能得到正确答案。

在这里插入图片描述
上图为目标检测识别验证码答案的效果示例。背景图上共有3个目标元素,那么黑产每次枚举尝试成功的概率 = 1 / A(3,3) = 1/(3x2x1) = 1/6,最多尝试6次就能试出正确答案。
牟利方式

站在黑产的视角,为什么利用模型破解会比人工打码的成本更低? 黑产下载一批30万张的验证图库需耗时8.33小时;然后通过人工打码获取图片答案,打码成本约为1.4分/张,共花费4200元,耗时208.33小时。虽然黑产能够生成自己的图片答案数据库,并且在后续图库未作更新的一个月时间里都能畅通无阻地破解验证,然而一旦验证厂商动态更新了图库,黑产就需要再次花费4200元和9天的时间重新寻找人工打码。

而图像识别模型直接帮助黑产省去了人工打码的时间和资金成本。黑产只需花费8.33小时下载存储这批图片,利用技术手段训练模型,不断尝试和调整模型的网络结构,并使用显卡来提升训练的速度就能得到一个有效的模型。后续利用识别模型时,识别一张全新的图片仅需要0.1s~0.2s,即使验证厂商动态更新了图库,只要不改变图标样式,这个模型也依然有效。可以说,模型识别比人工打码的效率提高了至少25倍。

在这里插入图片描述

黑产效率提升25倍,虽然看上去只是数据指标上的差别,但却会给被攻方带来极为致命的威胁,主要体现在以下三个方面:

1.黑产的效率提升后,攻击所花费的时间和资金门槛也大大降低。涌入市场的黑产团伙数量剧增,企业将从被一两个黑产盯上到同时被七八个黑产团伙盯上,遭受损失的概率和金额都会大大增加,甚至让整个业务端瘫痪。

2.效率提升带来的是对业务的反复威胁。即使验证厂商第一次动态更新了验证图集,能够在一段时间内防住黑产,但是当黑产训练出模型后又会再次卷土重来,难以控制。

3.黑产花费的成本更低,收益更高,持续破解的意愿也持续增强。高额的利润刺激黑产进一步研发模型训练的新技术,导致对抗黑产的难度不断增加。

对于黑产而言,模型识别最大的成本在于调整、训练和测试的技术成本。因此,在前期训练出模型后,后期不再需要持续投入时间和资金,大大降低了黑产的攻击成本,扩大了黑产的“营利空间”。当黑产在图片遍历人工打码攻击失效后,通常也会将攻击策略调整为训练图像识别模型,从而进行自动化、高效的破解。

四:防御思路升级

1、视觉偏差

极验安全专家是如何产生视角偏差思路的呢?我们知道,人类有视觉偏差,通常会因为视角、物体、自然变化等因素看到与事实相悖的画面。而黑产训练出的图像识别模型,作为一个固定的数据模型,也会因为人为的干扰、限制而产生所谓的视觉偏差。下图为人类视觉偏差举例:

在这里插入图片描述
当攻击方训练出图像识别模型进行自动识别时,识别一张全新图片仅需要0.1s~0.2s,效率甚至高于图集更新的速度。防守效果不再明显,与黑产的攻防博弈也容易陷入拉锯战。因此,防守方必须进一步提高效率,也就是让黑产识别图片的程序出现视觉偏差,直接无法识别到验证图片对应的答案。

2、模型分析

分析图像识别模型的工作原理,首先需要利用目标检测模型,检测目标元素的位置,此处包含两重任务:

(1)预测目标元素的bbox;

(2)预测某处位置是背景还是目标元素,即二分类。对目标检测模型的视觉欺骗主要在第二重任务上,即通过视觉欺骗,让模型将目标元素预测为背景。

业内通常使用目标检测模型检测目标元素的位置,即num_classes=1,如下是目标检测模型Yolov3的结构图。模型输入一张大小416x416的图片,进过darknet基础网络和yolo目标检测网络,输出维度分别为:13x13x(5+num_classes),26x26x(5+num_classes),52x52x(5+num_classes)的特征图,3种不同大小的特征图尺寸满足了不同尺寸目标元素的检测需求。
在这里插入图片描述
人类想象不出从未见过的意象,CNN模型也是如此。对于一个从未见过的图标类别,softmax会强行将其预测到一个已知类别中,这当然是错误的。这是分类模型的天然缺陷。

如下图所示,模型编码器对“espresso”图片输出了一个10(num_classes)维的向量[-4.28, 2.97, -0.39, 5.25, -7.57, -3.43, 8.64, 2.63, 6.30, 0.68],分别对应待预测的10个类别。通过softmax函数将每个元素归一化到0-1之间,那么即可以表示图像分类到对应类别的概率,图中可知分类到“espresso”的概率为0.8798。

在这里插入图片描述
相似度模型只需要计算目标元素与提示图标之间的相似度,根据相似度的大小判断是否同一事物,这弥补了分类模型的缺陷。相似度模型的训练更符合人类学习新事物的模式。例如,孩童学习认识新事物“猫”,并不是一个归纳推理过程,而是估计相似度,找出与给定猫的图片相似度最高的。

在这里插入图片描述
分析了相似度模型,我们就可以构造图标风格进行防御。针对图片元素做不同种类的轮廓干扰处理,从而限制模型对图片元素的匹配。

下图是相似度模型在两种不同图标风格的点选验证码上的预测结果。左侧图标风格个性鲜明,两个相同图标的相似度大,不同图标的相似度小,因此识别模型很容易自动将3个目标元素与3个提示标签匹配;而右侧给所有字符都套上了花环外壳,相似度模型特征编码时被花环外壳所干扰,特征中外壳信息的占比更大,因此随意两个图标的相似度都在0.9以上。所有图标相似度都很大,因此很难正确地将3个目标元素与3个提示标签匹配。

在这里插入图片描述

五:攻击方法升级

   俗话说:道高一尺,魔高一丈,  常规的分类模型、相似度模型、目标检测等, 防御和攻击双方都会投入资源去完成自己的使命, 但从原理上来说,  无论图形如何变化,  被破解只是时间而已,  一旦被破解, 防守方其实并无法区分哪些是机器识别的,  只能从流量异常等指标中判断出可能被识别了,  换句话说,如果采用人肉来攻击,  结果是图形验证毫无用处。 

在这里插入图片描述

六:结语

图形验证方式从最早图形验证码,被破解后开始加干扰线以及对内容进行扭曲八拐,由于用户体验太差被用户吐槽, 互联网开始出现了以滑动轨迹为基础的行为验证方式,比如阿里的滑动条、腾讯的滑动拼图, 为了应对AI 的攻击, 行为验证又走上了刁难用户的老路子, 开始出现各种奇葩的验证图形及验证方式,但无例外的被黑产无情的打脸,
面对强大的CHATGPT 为代表的人工智能,单纯靠图形验证的方式越来越有心无力,只有靠AI才能对付AI ,以新昕科技为代表的采用反欺诈引擎的数据驱动AI 模型,不仅可以轻松应对人工智能的攻击,对付真人攻击也毫无压力。

很多人在短信服务刚开始建设的阶段,可能不会在安全方面考虑太多,理由有很多。
比如:“ 需求这么赶,当然是先实现功能啊 ”,“ 业务量很小啦,系统就这么点人用,不怕的 ” , “ 我们怎么会被盯上呢,不可能的 ”等等。

有一些理由虽然有道理,但是该来的总是会来的。前期欠下来的债,总是要还的。越早还,问题就越小,损失就越低。

所以大家在安全方面还是要重视。(血淋淋的栗子!)#安全短信#

戳这里→康康你手机号在过多少网站注册过!!!

谷歌图形验证码在AI 面前已经形同虚设,所以谷歌宣布退出验证码服务, 那么当所有的图形验证码都被破解时,大家又该如何做好防御呢?

>>相关阅读
《腾讯防水墙滑动拼图验证码》
《百度旋转图片验证码》
《网易易盾滑动拼图验证码》
《顶象区域面积点选验证码》
《顶象滑动拼图验证码》
《极验滑动拼图验证码》
《使用深度学习来破解 captcha 验证码》
《验证码终结者-基于CNN+BLSTM+CTC的训练部署套件》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2036806.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[C++][opencv]基于opencv实现photoshop算法高反差保留

【测试环境】 vs2019 opencv4.8.0 【效果演示】 【核心代码实现】 Filter.hpp #ifndef OPENCV2_PHOTOS_FILTER_HPP_ #define OPENCV2_PHOTOS_FILTER_HPP_#include "opencv2/core.hpp" #include "opencv2/imgproc.hpp"namespace cv {class Filter { pu…

【网络编程】TCP机械臂测试

通过w(红色臂角度增大)s(红色臂角度减小)d(蓝色臂角度增大)a(蓝色臂角度减小)按键控制机械臂 注意:关闭计算机的杀毒软件,电脑管家,防火墙 1)基于TCP服务器…

AFSim 仿真系统----《普朗克黑体辐射定律的区间积累》

参考文献 《普朗克黑体辐射函数的积分》,W. K. Widger, Jr. 和 M. P. Woodall,发表在《美国气象学会公报》,第57卷,第10期,1976年10月,页码1217-1219 上述参考文献描述了一种在不依赖于需要大量迭代的数值…

Visual Studio Code 安装与 C/C++ 语言运行总结

​ 大家好,我是程序员小羊! 前言: Visual Studio Code(简称 VS Code)是由微软开发的一款轻量级、强大的代码编辑器,支持多种编程语言和开发框架。由于其丰富的插件生态系统和灵活的配置选项,VS…

gitlab实现CI/CD自动化部署

gitlab实现CI/CD自动化部署 项目根目录中新增gitlab-ci.yml在gitlab上查看gitlab-runner配置方法配置服务器环境推送代码,触发runner,实现自动构建和部署参考 gitlab支持通过配置CI/CD实现自动化部署我们的代码项目,主要核心就是配置gitlab-c…

【MySQL数据库】单机、集群、分布式的区别

单机、集群和分布式是计算机系统中三种不同的架构模型,它们在资源管理、任务执行和性能优化方面有显著区别。 图片来源 1. 单机(Standalone) 单机指的是单一计算机系统,即所有的计算任务和数据都在一台计算机上处理。单机系统的特点包括: 硬件限制:受限于单台机器的计…

ARM处理架构中的PMU(Performance Monitoring Unit)和 AMU(Activity Monitors Unit)简介

在 ARM 架构中,PMU(Performance Monitoring Unit)和 AMU(Activity Monitors Unit)是用于性能分析和监控的硬件单元,但它们的功能和应用场景有所不同。以下是它们的主要区别: 1. PMU (Performance Monitoring Unit) 功能:PMU 是一种用于监控处理器性能的硬件单元。它可…

简述MYSQL聚簇索引、二级索引、索引下推

一丶聚簇索引 InnoDB的索引分为两种: 聚簇索引:一般创建表时的主键就会被mysql作为聚簇索引,如果没有主键则选择非空唯一索引作为聚簇索引,都没有则隐式创建一个索引作为聚簇索引;辅助索引:也就是非聚簇索…

Spring Web MVC入门(下)

1. 响应 1.1 返回静态页面 创建前端页面&#xff0c;如下图所示&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Index页面</title> </head> <body>Hello,Spring MVC…

利用栈去实现队列

利用栈实现队列 今天我们利用两个栈去实现队列&#xff08;因为是用c去实现队列没有c中的库函数所以我们要先手搓一个栈再去使用&#xff09; 没有实现的去看我的这篇文章&#xff1a;利用顺序表对栈的实现-CSDN博客 回顾一下特性&#xff1a;栈----先进后出、后进先出&…

我常用的几个傻瓜式爬虫工具,收藏!

爬虫类工具主要两种&#xff0c;一种是编程语言第三方库&#xff0c;比如Python的scrapy、selenium等&#xff0c;需要有一定的代码基础&#xff0c;一种是图形化的web或桌面应用&#xff0c;比如Web Scraper、后羿采集器、八爪鱼采集器、WebHarvy等&#xff0c;接近于傻瓜式操…

汇量科技Mintegral发布全新产品矩阵:助力广告主高效增长与变现

近期&#xff0c;汇量科技旗下程序化互动式广告平台Mintegral正式推出全新产品命名&#xff0c;期望通过简洁明确的产品名称&#xff0c;更好地传达Mintegral的品牌理念&#xff0c;使客户与平台的每一次接触都更加直接高效。 Mintegral AppGrowth(原Mintegral Self-Service Pl…

【idea】 已经commit还没push怎么修改commit信息?

前言&#xff1a; 有时候填写commit信息时手快确认了&#xff0c;要push时发现信息有误&#xff0c;此时想重新更改信息。 此方法适用于在idea里commit了的&#xff0c;且还未push。 &#xff08;u1s1&#xff0c;用idea来推送真的又快又方便&#xff0c;自此之后再也没碰过小乌…

Leetcode面试经典150题-112.路径总和

解法都在代码里&#xff0c;不懂就留言或者私信 超级简单的题&#xff0c;不过有隐形的坑 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.v…

算法定制与双光谱技术融合:提升巡检车入侵检测系统效能

一、应用背景 在当今数字化和信息化时代&#xff0c;算法已经成为企业提高效率、优化决策的重要工具。随着大数据、人工智能技术的迅速发展&#xff0c;客户对算法的需求呈现出爆发式增长。这种需求不仅体现在数量上&#xff0c;更体现在质量上&#xff0c;尤其是对算法定制化…

Dav_笔记13:SQL Access Advisor 之 1 Summary

SQL Access Advisor概述 SAA Summary 在调整数据库以实现复杂的数据密集型查询的最佳性能时&#xff0c;物化视图&#xff0c;分区和索引是必不可少的。 SQL Access Advisor通过为给定工作负载推荐适当的物化视图集&#xff0c;物化视图日志&#xff0c;分区和索引&#xff0c;…

macOS Sequoia 15 beta 5 (24A5309e) Boot ISO 原版可引导镜像下载

macOS Sequoia 15 beta 5 (24A5309e) Boot ISO 原版可引导镜像下载 iPhone 镜像、Safari 浏览器重大更新、备受瞩目的游戏和 Apple Intelligence 等众多全新功能令 Mac 使用体验再升级 请访问原文链接&#xff1a;https://sysin.org/blog/macOS-Sequoia-boot-iso/&#xff0c…

基于JAVA的外来人口管理系统设计与实现,源码、部署+讲解

摘 要 在新型冠状病毒性肺炎流行的背景下&#xff0c;我国数亿流动人口应该受到高度关注和保护。并让这一易感染人群离开成为“受害者传染源”的双重风险&#xff0c;的确是一项关键而富有挑战性的任务。因此&#xff0c;本毕业设计是以规模复杂的外来人口及居民群体为典例&am…

UI-无限循环列表

无限循环列表 创建 在任意节点上&#xff0c;添加Scroller&#xff0c;ScrollView组件&#xff0c;和RectMask2D组件&#xff1a; 其中列表的大小&#xff0c;依赖Rect的大小。 界面参数介绍 ViewPort&#xff1a;视口大小 SrollDirction:滚动方向 MovementType&#xff1a…

go语言后端开发学习(五)——如何在项目中使用Viper来配置环境

前言 在之前的文章中我们就介绍过用go-ini来读取配置文件,但是当时我们在介绍时说了他只能读取.ini格式的配置文件所以局限性较大,这里我们介绍一个适用范围更大的配置管理第三方库——Viper。 什么是Viper Viper是适用于Go应用程序&#xff08;包括Twelve-Factor App&#…