浅谈某平台多场景下反爬虫与风控业务

news2024/12/31 22:21:32

文章目录

  • 1. 写在前面
  • 2. 内容反爬
  • 3. 账号风控
  • 3. 接口验签

【🏠作者主页】:吴秋霖
【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作!
【🌟作者推荐】:对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识!包括但不限于:各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除!

1. 写在前面

  最近有一些搞模型训练、舆情分析的小伙伴们聊到某平台的风控机制越来越严、强度也是变得越来越高。想要收集一些数据完成任务变得比早期更为艰难!

其实近几年自媒体平台的发展趋势间接或直接的导致大量的灰黑色业务涌入!在平台的合规、监管机制没有完善的前期大家可能并未感知,一切都变得很顺利。且随着时间与版本的不断迭代最终都将被清洗出局

在作者以往的文章中曾提到过,其实任何平台是没有任何一种手段可以完全阻断灰黑与爬虫业务,平台要做的就是不断完善监管机制提升难度从而增加红方的成本与代价(以此让其出局)

那么一个平台大致的风控策略发展迭代路线会是什么样的:

练气期的基于规则+人工审核-->筑基期的机器学习跟实时计算-->
元丹期的深度学习-->元婴期的无监督、图网络学习跟反欺诈风控行为
模型-->化神期的上帝视角+精准定位+线下阻断

接下来作者收集了一下大家经常遇到的一些问题做了简单的分析

2. 内容反爬

目前爬虫业务大多通过关键词搜索、笔记详情扫描、评论内容深度挖掘与监测、创作者作品遍历与监测的方式进行数据采集。搜索跟笔记扫描业务其中会触发的就是行为验证,如下所示:

在这里插入图片描述

从上图可以看到这个行为验证的旋转验证码貌似与常规的不太一样,是经过定制处理的!它加了干扰环来尽可能的提升难度。此类验证在它的账户登录业务风控中有所体现

如果爬虫业务想要突防这个行为验证目前自动化方案需要处理掉行为轨迹、特征的检测。而协议接口提交的方式则需要解决加密算法(JS代码层面的逆向分析)与新增的b1动态细节

接下来爬虫业务将面临更加多样化的安全阻断,首先是安全限制,请求状态同意跟滑块验证一样是一个461,verifyType是一个302,你可能会把它误判为滑块,其实你在页面看的话它首次确实是一个滑块验证,你手动拖动也过了,但是立即投入到了爬虫业务再次使用,从灰名单直接就进入了短效的黑名单,导致触发多次滑块验证变成安全限制,如下所示:

在这里插入图片描述

{‘code’: 300015, ‘success’: False, ‘msg’: ‘浏览器异常,请尝试关闭/卸载风险插件或重启试试’, ‘data’: {}}

爬虫业务中接下来将会碰到目前高频可预见的一个异常机制频次异常,这个异常存在多种原因导致,第一种可能是xsec-tk参数用的多了。这个参数以前是没有了,加上为防止直接扫详情的这种非正常链路行为的访问

第二种就是它是一个滑块的行为验证,你登录或者刷新页面触动一下就会呈现出来,过掉就会恢复正常

还有就是进入到了灰名单把这个账号拉到了类似过期策略的队列,期间避免使用不然肯定会触发更高等级的风控机制,到期会释放恢复正常(时间不定),如下所示:

{“code”:300013,“success”:false,“msg”:“访问频次异常,请勿频繁操作或重启试试”,“data”:{}}

还有一些小白新手爬虫连代理IP都不使用,或者使用一些被高度污染的池子,如下所示:

{‘code’: 300012, ‘success’: True, ‘msg’: ‘网络连接异常,请检查网络设置或重启试试’, ‘data’: {}}

最后还有一种看起来就明显的在提醒你停止此类操作行为,这类异常大多出现在长期使用一个出口IP,甚至是自己的电脑大量持续的去请求服务端接口,明显进入了黑名单已被标记,如下所示:

{‘code’: -103, ‘success’: False, ‘msg’:‘破坏网络安全、侵犯平台权益等风险行为’,‘data’: {}}

以上种种难免不会有错杀的情况存在,但是一般监管的力度不会允许过多的误伤率!

前面我说到了链路,这里多说一句。风控系统的算法场景是会对地址的访问有时间、栏目序列跟访问的时间间隔来判断客户端访问是否正常的用户

它这个序列不会太长,模型应该是集中关注某些重点的URL序列。正常的用户谁会精准每次访问内容的详情,算法通过对URL中的多级栏目进行分类以此来增设它们之间的序列

3. 账号风控

这里它涉及到注册跟登录,这是在任何一个平台都有的风控系统。很多爬虫与灰黑业务它们都会批量且自动化的手段注册大量账号用到其他的业务场景中

看开局的那张图,为什么平台能够精准的检测出来那些所谓的灰黑账号,一是行为有的都是用来做不合规的一些Y流、敏感度极高的一些操作导致

经常碰到就是大量的账号被封禁或者掉线,你不知道是背后平台的风控体系都已经比较的完善。像用户的画像检测IP属地的源、可信的设备跟环境、出口IP的跳动跟使用行为习惯这些因素会给你推送不同复杂等级的行为验证码甚至是多种组合策略

掉线的场景中更多的跟设备指纹有关系,比如gid参数风控将会全部联动

3. 接口验签

在这里插入图片描述
如何从请求参数中确定哪些参数会校验哪些参数可能会埋点是需要去验证测试的,比如上面某一个x系列的参数就可以过接口的验签拿到数据,但是持续的访问你构造还原一个核心参数比你全部还原伪造要暴露的特征更多

比如后面新增的x-xray、x-b3参数虽然说不强校验带或不带或固定都不会对业务流程产生影响,从行为风控的角度来说构造的请求如果参数不完整或者固定没有按照正常的行为流程去走,那肯定是能够被溯源以及背后的风控系统检测出来的

这个环节一般有经验爬虫工程师在风控对抗中都会通过收集多轮且不同环境、设备、参数、行为的结论样本,进行复盘以此来调整对抗策略

在任何有风控场景下大量且持续的采集需求必须对资源以及行为进行合理的调度与策略设置!

最后!互联网任何公开的数据源有获取数据的需求,可以适当的利用工具与技术来助力。但切记不要滥用,以免对任何第三份平台与网站造成压力与负担!请使用合理、合法、合规、合情的方式去满足自己的需求

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2267642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

UI页面布局分析(4)- 贵族 特权分页列表

引言 在现在移动应用中,展示用户特权的UI设计不仅是吸引用户的关键手段,更是提升产品体验的重要部分。特别是在直播场景中,贵族特权作为一种高价值用户身份的象征,通常需要通过精致的页面和流程的交互来突出其重要性和独特性。 …

计算机网络实验室建设方案

一、计算机网络实验室拓扑结构 计算机网络综合实验室解决方案,是面向高校网络相关专业开展教学实训的综合实训基地解决方案。教学实训系统采用 B/S架构,通过公有云教学实训平台在线学习模式,轻松实现网络系统建设与运维技术的教学…

D类音频应用EMI管理

1、前言 对于EMI,首先需要理解天线。频率和波长之间的关系,如下图所示。   作为有效天线所需的最短长度是λ/4。在空气中,介电常数是1,但是在FR4或玻璃环氧PCB的情况下,介电常数大约4.8。这种效应会导致信号在FR4材…

若依框架之简历pdf文档预览功能

一、前端 (1)安装插件vue-pdf:npm install vue-pdf (2)引入方式:import pdf from "vue-pdf"; (3)components注入方式:components:{pdf} (4&…

lua-debug for Sublime

目标 Sublime 也支持 lua-debug,操作体验与 VSCode 一致。 优势 执行效率高,不掉帧 可随时开启 配置简单,一份配置兼容 VSCode 和 Sublime 安装 要求 Sublime 4 的版本(注:从 Sublime 3 升到 4 的不算,…

手机h5加桌面图标

手机h5应用1&#xff0c;网址浏览器添加到桌面&#xff0c;修改图标 关键代码 <!-- 手机h5加桌面图标 --> <!-- 安卓平台 chrome --> <link relapple-touch-icon-precomposed href<% BASE_URL %>logonew.png> <meta name"mobile-web-app-capab…

开发场景中Java 集合的最佳选择

在 Java 开发中&#xff0c;集合类是处理数据的核心工具。合理选择集合&#xff0c;不仅可以提高代码效率&#xff0c;还能让代码更简洁。本篇文章将重点探讨 List、Set 和 Map 的适用场景及优缺点&#xff0c;帮助你在实际开发中找到最佳解决方案。 一、List&#xff1a;有序存…

acitvemq AMQP:因为消息映射策略配置导致的MQTT接收JMS消息乱码问题 x-opt-jms-dest x-opt-jms-msg-type

使用ActiveMQ&#xff08;5.14.5&#xff09;作消息系统服务的场景下&#xff0c; 当我用Apache Qpid Proton发送消息(使用AMQP协议)发送JMS消息&#xff0c;用Paho MQTT接收消息的时候&#xff0c; 收到的消息前面总是有一串乱码&#xff0c;大概就是这样&#xff1a; 4Sp?AS…

apisix的hmac-auth认证

目录 1、apisix的hmac认证Authorization头信息 2、signature的lua生成源码 3、java生成签证的简单示例 4、postman调用如下 apisix的hmac-auth认证&#xff0c;介绍可以看官方文档 hmac-auth | Apache APISIX -- Cloud-Native API Gateway 照着官方文档&#xff0c;发现生…

Webpack在Vue CLI中的应用

webpack 作为目前最流行的项目打包工具&#xff0c;被广泛使用于项目的构建和开发过程中&#xff0c;其实说它是打包工具有点大材小用了&#xff0c;我个人认为它是一个集前端自动化、模块化、组件化于一体的可拓展系统&#xff0c;你可以根据自己的需要来进行一系列的配置和安…

uniapp 前端解决精度丢失的问题 (后端返回分布式id)

原因&#xff1a; 后端使用分布式id, id为19位数&#xff0c;导致精度丢失 &#xff0c;前端解决方法 这个是通过浏览器请求回来的数据&#xff0c;这个时候id 数据已经丢失了&#xff0c;在数据库查询不到&#xff0c;在调获详情接口的时候会有问题 实际的&#xff1a; 解决…

外网访问 Docker 容器的可视化管理工具 DockerUI

DockerUI 是一个 docker 容器镜像的可视化图形化管理工具&#xff0c;DockerUI 可以用来轻松构建、管理和维护 docker 环境。让用户维护起来更方便。 本文就介绍如何安装使用 DockerUI 并结合路由侠内网穿透来访问 DockerUI。 第一步&#xff0c;安装 DockerUI 1&#xff0c;…

Docker安装和使用RabbitMQ

Docker安装和使用RabbitMQ 1、拉取镜像2、运行Docker容器3、控制台界面 1、拉取镜像 docker pull rabbitmq:3-management2、运行Docker容器 docker run \-e RABBITMQ_DEFAULT_USERjagochan \-e RABBITMQ_DEFAULT_PASSjagochan \--name mq \--hostname mq \-p 15672:15672 \-p…

STM32F103RCT6学习之五:ADC

1.ADC基础 ADC&#xff08;Analog-Digital Converter&#xff09;模拟-数字转换器ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量&#xff0c;建立模拟电路到数字电路的桥梁12位逐次逼近型ADC&#xff0c;1us转换时间 输入电压范围&#xff1a;0~3.3V&#xff…

Python学习(2):注释、数字、文本、列表

1 关于注释 Python 使用井号#作为单行注释的符号&#xff0c; 使用三个连续的单引号’’或者三个连续的双引号"""注释多行内容。 2 数字 2.1 基本运算 解释器像一个简单的计算器&#xff1a;你可以输入一个表达式&#xff0c;它将给出结果值。 表达式语法很直观…

【Maven_bugs】The project main artifact does not exist

背景&#xff1a;我想使用 maven-shade-plugin 打一个 fat jar 时报了标题中的错误&#xff0c;使用的命令是&#xff1a;org.apache.maven.plugins:maven-shade-plugin:shade -pl :shade-project。项目结构如下图&#xff0c;我想把子模块 shade-project 打成一个 fat jar&…

Wordperss漏洞 DeDeCMS漏洞

Wordperss漏洞 环境搭建 #执⾏命令 cd /vulhub/wordpress/pwnscriptum docker-compose up -d #靶场地址 http://8.155.7.173:8080/wp-admin/ 注册账号 登录 漏洞一&#xff1a;后台修改模板拿WebShell 步骤一&#xff1a;思路是修改其WP的模板写入⼀句话木马后门并访问其文件…

使用 HTML 和 CSS 实现绚丽的节日烟花效果

文章目录 1. 效果预览2. 核心技术栈3. 核心代码解读3.1 HTML结构3.2 霓虹文字的CSS样式3.2.1 核心样式代码3.2.2 动画效果 3.3 JavaScript 的烟花效果实现3.3.1 烟花上升3.3.2 粒子爆炸 4. 用户交互5. 运行步骤总结 1. 效果预览 打开后输入文本的展示内容 用户点击页面后播放…

电力场景输电线路异物检测数据集VOC+YOLO格式4370张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;4370 标注数量(xml文件个数)&#xff1a;4370 标注数量(txt文件个数)&#xff1a;4370 …

【Next.js】002-路由篇|App Router

【Next.js】002-路由篇|App Router 文章目录 【Next.js】002-路由篇|App Router一、前言二、文件系统&#xff08;file-system&#xff09;1、说明2、演练创建代码运行访问让 Cursor 分析错误别偷懒&#xff0c;还是探究一下 Pages Router 方式吧创建代码运行并访问项目/about …