拥有蝴蝶效应的爬虫如何进行防护

news2025/1/10 16:55:32

美国气象学家爱德华·罗伦兹(Edward N.Lorenz)1963年在一篇提交纽约科学院的论文中分析了一个叫做蝴蝶效应的理论:“一个气象学家提及,如果这个理论被证明正确,一只海鸥扇动翅膀足以永远改变天气变化。”在以后的演讲和论文中他用了更加有诗意的蝴蝶。对于这个效应最常见的阐述是:

“一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国德克萨斯州的一场龙卷风。”

“蝴蝶效应”主要是关于混沌学的一个比喻,也是蝴蝶效应的真实反应。不起眼的一个小动作却能引起一连串的巨大反应——由于误差会以指数形式增长,在这种情况下,一个微小的误差随着不断推移造成了巨大的后果。

在互联网的世界中,蝴蝶效应的呈现则更为明显,身为互联网使用者,你的每一次点击,每一个打开,每一个保存与分享都不仅仅只是点击、打开、保存、分享,它们都将汇集成为数据,成为你互联网畅游的路径。

而对于企业来说,由上述数据推导出你的用户画像(根据你的社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型)早已不是难事。

不过你也无需担忧,对于大多数企业而言,一两个行为标本作用不大,企业所需要的是一个甚至多个受众群体的大数据行为模型。


最初,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,帮助搜索引擎作为一个辅助人们检索信息的工具。不过,正如同光明与黑暗同时诞生、出生与死亡同存于这个世界,爬虫的出现,也带来恶意爬虫的降生。

以下仅针对互联网业务风控层面阐述。

爬虫是所有攻击链中的重要构成,无论是采集竞争对手网站的数据,尝试破解用户口令还是自动下单,其实都离不开爬虫。

与传统金融类风控不同,会更加关心整个风险事件前端的问题,从最开始用户进入网站的行为进行分析。例如用户在页面的停留时间,是否多次修改输入的内容等,这些行为让风险判断的准确性有了巨大的提升。举个例子:

一、恶意爬取网站→ 注册用户扫描

虽然现在大部分平台的注册页面上会有图片验证码,在一定程度上可以防范爬虫自动化程序遍历手机号查询已注册的用户。

但在不同的终端上,还是可以通过简单的请求判断出用户是否已经注册。

二、爬取注册用户→ 进行业务欺诈

这个数据可以拿来做什么?

一方面,我们已知某个手机号码是某网站的注册用户,这个信息可以用作欺诈,比如模仿官方的服务号向用户发送欺诈短信骗取验证码短信,进行资金盗取。

另外,可以将这些数据向竞争对手出售,协助对方进行精准营销争夺用户。

三、业务欺诈→ 短信轰炸操作

国内每天都在发生大量的业务欺诈等案件,比如模仿官方的服务号向用户发送欺诈短信骗取验证码短信,进行资金盗取。

在欺诈手法中,还经常使用短信轰炸,比如在盗卡盗刷时,为了增加自己的作案时间,用大量的验证短信掩盖掉真正的消费短信,让受害者无法快速的发现并冻结自己的银行卡。

为了达到这种目的,攻击者会使用多家网站的短信接口对受害者发送短信,进而产生短信轰炸问题。

四、短信轰炸→ 账户盗用

个人账户被盗后:垃圾注册→ 产生羊毛党→ 刷单 ……

职业团队产生:爬取评论→ 差评师→ 恶意竞争攻 ……

其它模式→……

我们可以看到,最基础的爬虫所带来的,犹如那只南美洲亚马逊河流域热带雨林中的蝴蝶,拍一拍翅膀,或许只是抖抖阳光雨露,潇洒飞去,或许带来的就是一连串由它而起,又似乎与它无关的后续风暴。

那么要禁用爬虫吗?

显然不可能,如果没有爬虫的存在,你将不再有可能被搜索引擎抓到,在重度依赖搜索引擎的现代用户世界中,你也就成为了‘存在而不可见的’透明人。我相信这是所有企业都不愿意看到的。

所以,互联网世界正如真实世界一样,有好人和坏人,数据和爬虫技术本身没有好坏之分,关键点在于使用它们的那些人。根据网站内容的安全性及敏感性,区别对待爬虫是比较理想的措施。我们所做的事情,就是要把好人和坏人区分开来。

那么问题来了,如何防止恶意爬虫?

反爬机制主要有两大策略:

一、控制IP访问频率
最常见的基本都会使用代理IP来进行访问,但是对于一般人来说,几万ip差不多是极限了,所以一个ip还是可能多次请求。意味着爬虫需要付出更多的成本投入在IP资源上,IP越多,爬取的成本越高,自然容易劝退一部分人。

二、控制爬取策略
如果简单的只对目标数据进行爬取,反爬系统只要对访问情况和用户行为进行相关分析,其实很简单就能判定爬虫的那堆ip,你除了这堆数据什么都没访问,一看就不是正经用户。当然策略这个东西,就需要更多的博弈了。爬虫要增加迷惑度,需要去访问一些无关的东西,最后是研究正常用户的访问流程,然后模拟一遍。再者,控制速度。毕竟反爬系统的统计区间是肯定有限制的,不可能拿一个月的数据都分析一遍找出爬虫。反爬系统的存在,意义就在于增加这个成本。当然也需要衡量自身的成本,毕竟不能本末倒置,反爬成本太高就没价值了。

那网站一般用什么措施防范爬虫呢?主要有以下几种:

1.使用验证码机制
在登录、注册或搜索等重要操作时,引入验证码机制。验证码是一种动态生成的字符,用于验证用户是否为人类。通过在验证码中加入随机性和难以识别的字符,可以有效防止机器自动识别。

2.检测和限制访问频率
通过监控用户的访问频率和访问模式,可以识别出异常行为。一旦检测到异常,可以采取相应的措施,如暂时限制访问或发送警告信息。

3.使用IP黑白名单
对于已知的恶意IP地址,可以将其加入黑名单,禁止其对目标网站的访问。相反,对于可信任的IP地址,可以将其加入白名单,允许其对目标网站的访问。

4.检测和过滤恶意请求
通过分析用户请求的内容和特征,可以识别出恶意请求。例如,可以检测请求中是否包含大量的垃圾数据、是否包含特定的恶意关键词等。一旦检测到恶意请求,可以将其过滤掉或暂时限制其访问。

5.漏洞扫描服务

漏洞扫描服务(Vulnerability Scan Service)集Web漏洞扫描、操作系统漏洞扫描、资产内容合规检测、配置基线扫描、弱密码检测五大核心功能,自动发现网站或服务器在网络中的安全风险,为云上业务提供多维度的安全检测服务,满足合规要求,让安全弱点无所遁形。主要的优势在于:

一、扫描全面

涵盖多种类型资产扫描,支持云内外网站和主机扫描,支持内网扫描、智能关联各资产之间的联系,自动发现资产指纹信息,避免扫描盲区。

二、高效精准

采用web2.0智能爬虫技术,内部验证机制不断自测和优化,提高检测准确率,时刻关注业界紧急CVE爆发漏洞情况,自动扫描,最快速了解资产安全风险。

三、简单易用

配置简单,一键全网扫描。可自定义扫描事件,分类管理资产安全,让运维工作更简单,风险状况更清晰了然。

四、报告全面

清晰简洁的扫描报告,多角度分析资产安全风险,多元化数据呈现,将安全数据智能分析和整合,使安全现状清晰明了。

总之,防御爬虫攻击是一项复杂而重要的任务,需要采取多种技术策略和管理措施,以确保网站的安全性和稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1662857.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

输出正射图时,分辨率怎么填写整幅输出?

答:设置完输出路径、分辨率、坐标系后,会给图像宽高,根据最大值设置分幅尺寸就可以。 DasViewer是由大势智慧自主研发的免费的实景三维模型浏览器,采用多细节层次模型逐步自适应加载技术,让用户在极低的电脑配置下,也能流畅的加载较大规模实景…

红龙工业设备制造有限公司亮相2024杭州数字物流技术设备展

参展企业介绍 温州红龙工业设备制造有限公司成立于2015年11月。是中国先进的工业皮带设备研发制造和工业皮带整体解决方案运营服务商,现主营皮带接头机、皮带热压机、皮带接驳机、皮带打齿机、输送带打齿机、输送带分层级、输送带导条机、输送带裁切机、高频机等工业…

前端开发指导

前端开发指导 本文介绍了配置前端开发环境需要的软件、配置项等,指导如何开始进行UDM部门前端开发的全流程。本文以Windows系统下在Microsoft Virtual Studio Code中开发为基础。 一、综述 目标:零基础或者新员工依照此文档,能够完成开发环境的搭建及熟悉测试环境的搭建。…

陪诊陪护小程序基于ThinkPHP + FastAdmin + 微信小程序开发(源码搭建/上线/运营/售后/更新

支持多运营区,陪护师、推广者等完整闭环功能,快速搭建陪护业务平台。 消息通知:系统可以向用户发送订单状态变更、陪诊员信息更新等通知,确保用户及时了解相关信息,提高用户体验。 订单管理:患者可以查看自…

QT 小项目:登录注册账号和忘记密码(下一章实现远程登录)

一、环境搭建 参考上一章环境 二、项目工程目录 三、主要源程序如下: registeraccountwindow.cpp 窗口初始化: void registeraccountWindow::reginit() {//去掉?号this->setWindowFlags(windowFlags() & ~Qt::WindowContextHelpButt…

《数据结构与算法之美》学习笔记一

前言:今天开始学习极客时间的课程《数据结构与算法之美》。为撒要学习这个?因为做力扣题太费劲了,自己的基础太差了!所以要学习学习。开一个系列记录一下学习笔记。认真学吧,学有所获才不负韶华!之前就学过…

【bug记录】Vue3 Vant UI 中 van-popup 不弹出

原因:语法使用错误,使用了 Vue 2 的语法 Vue3语法: Vue2语法:

JAVA IO/NIO 知识点总结

一、常见 IO 模型简介 1. 阻塞IO模型 最传统的一种IO模型,即在读写数据过程中会发生阻塞现象。当用户线程发出IO请求之后,内核会去查看数据是否就绪,如果没有就绪就会等待数据就绪,而用户线程就会处于阻塞状态,用户线…

企业微信创建应用(一)

登录到企业微信后台管理(https://work.weixin.qq.com/)进入自建应用(应用管理-应用-创建应用) 3.查看参数AgentId和 Secret 4.企业微信查看效果

致远M3 Session 敏感信息泄露漏洞复现

0x01 产品简介 M3移动办公是致远互联打造的一站式智能工作平台,提供全方位的企业移动业务管理,致力于构建以人为中心的智能化移动应用场景,促进人员工作积极性和创造力,提升企业效率和效能,是为企业量身定制的移动智慧协同平台。 0x02 漏洞概述 致远M3 server多个日志文…

我国吻合器市场规模不断扩大 国产化率有所增长

我国吻合器市场规模不断扩大 国产化率有所增长 吻合器是替代手工切除或缝合的一种医疗器械,其工作原理与订书机十分相似,可利用钛钉对组织进行离断或吻合。经过多年发展,吻合器种类逐渐增多,根据手术方式不同,吻合器大…

uni-app(二):本地插件使用(Android)

本地插件使用 项目创建等参考1.下载并引用本地插件2.注意插件配置3.制作自定义基座4.编写调用代码5.运行 项目创建等参考 https://lprosper.blog.csdn.net/article/details/138655526 1.下载并引用本地插件 2.注意插件配置 3.制作自定义基座 4.编写调用代码 <template>…

前端动画requestAnimationFrame

window.requestAnimationFrame() 告诉浏览器——你希望执行一个动画&#xff0c;并且要求浏览器在下次重绘之前调用指定的回调函数更新动画。该方法需要传入一个回调函数作为参数&#xff0c;该回调函数会在浏览器下一次重绘之前执行。 备注&#xff1a; 若你想在浏览器下次重绘…

从头理解transformer,注意力机制(上)

深入理解注意力机制和Transformer架构&#xff0c;及其在NLP和其他领域的突破。 要想理解transformer&#xff0c;先从编码器解码器结构开始理解 基于transformer发展起来的llm 右边&#xff1a;只有解码器&#xff0c;强项是生成内容 左边&#xff1a;只有编码器&#xff0…

每日OJ题_贪心算法四②_力扣435. 无重叠区间

目录 力扣435. 无重叠区间 解析代码 力扣435. 无重叠区间 435. 无重叠区间 难度 中等 给定一个区间的集合 intervals &#xff0c;其中 intervals[i] [starti, endi] 。返回 需要移除区间的最小数量&#xff0c;使剩余区间互不重叠 。 示例 1: 输入: intervals [[1,2]…

完整版解答!2024年数维杯数学建模挑战赛B题

B题 生物质和煤共热解问题的研究 技术文档第一问1.1问题一分析1.2数据预处理1.3问题一Spearman相关性分析 数据代码资料获取 技术文档 第一问 1.1问题一分析 对于问题一&#xff0c;题目要求分析出正己烷不溶物对焦油产率、水产率、焦渣产率这三个指标是否有显著影响&#x…

1689 ssm社区老人危机干预系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计

一、源码特点 java ssm社区老人危机干预系统是一套完善的web设计系统&#xff08;系统采用SSM框架进行设计开发&#xff0c;springspringMVCmybatis&#xff09;&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主…

解决 git 因输入密码错误而导致的报错无法推送问题

报错内容如下&#xff1a; > git push origin master:master fatal: unable to access https://gitee.com/spring-in-huangxian-county/web-tts-vue.git/: OpenSSL SSL_connect: Connection was reset in connection to gitee.com:443 出错原因 根本原因是本机存储的 账户…

面试中算法(删去n个数字后的最小值)

有一个整数&#xff0c;从该整数中去掉n个数字&#xff0c;要求剩下的数字形成的新整数尽可能小。 分析&#xff1a;使用栈的特性&#xff0c;在遍历原整数的数字时&#xff0c;让所有数字一个一个入栈&#xff0c;当某个数字需要被删除时&#xff0c;&#xff08;即栈顶数字&g…

麦肯锡专访 Mistral AI CEO:三五年后的工作,要比现在更有意义

【编者按】总部位于巴黎的人工智能初创公司 Mistral AI 成立仅一年&#xff0c;就被誉为现有大模型巨头的有力挑战者。 今年 2 月&#xff0c;Mistral AI 正式发布了旗舰级大模型 Mistral Large&#xff0c;直接对标 OpenAI 的 GPT-4&#xff1b;几周前&#xff0c;Mistral AI…