目录
什么是网络爬虫
爬虫的非法盗取与平台反爬
全流程反爬方案
AI时代的验证码
《孤注一掷》 最近在火热上映中。影片讲述了程序员潘生在境外网络诈骗团队的高薪诱惑下被拐骗到境外“公司”,并在陆秉坤和安俊才的强迫下从事诈骗活动,最终在帮助同被欺骗的中国人安娜逃跑后,在中国警方与外国移民局合作下成功得到解救的故事。
影片中,潘生被海外工作吸引,却意外落入境外诈骗工厂。潘生在进入网络电信诈骗公司后被强制做的第一件事情,就是利用爬虫软件抓取字幕组成员的邮箱信息,并向其发送网络赌博链接。
影片结尾,诈骗公司头目陆经理被判处死刑,安娜因从事诈骗罪被判处有期徒刑两年,潘生提供两千多名受害者名单,属重大立功表现,被法院宣判免除刑事责任。
什么是网络爬虫
网络爬虫,又被称为网页蜘蛛,网络机器人,是按照一定的规则,自动地抓取网络信息和数据的程序或者脚本。通俗点讲,网络爬虫模拟人的行为,用程序代替了人的操作,从一个链接跳转到下一个链接,就像是在网络上爬行一样遍历网页。爬虫跳转、打开、浏览等动作比人的速度快,浏览的网站的层次也更深,所以被称为网络爬虫。
网络爬虫能够非法获取网络上的信息、图片、评价、个人信息。被盗取的数据,不仅被用于商业售卖,还可能被黑灰产用于制作假冒的网站,进行钓鱼诈骗等,给个人和企业带来重大经济损失。
爬虫的非法盗取与平台反爬
网络爬虫的恶意爬取与平台网站的反爬是是一个动态的攻防过程,大体来看是三个阶段。
第一阶段,限制IP和账号。起初网站的反爬措施,是对于非源于浏览器的访问直接拒绝。当恶意网络爬虫访问时,就会出现403错误响应码,或者收到“抱歉,无法访问“的提示。
第二阶段,验证码拦截。为了绕过反爬机制,网络爬虫设置Headers信息,模拟成浏览器,多线程的对静态页面进行大规模恶意抓取。针对恶意爬取行为,网站和平台对频繁变化UserAgent(模拟浏览器)、频繁使用代理IP的账号、设备进行限制和拦截:当同一IP、同一设备在一定时间内访问网站的次数,系统自动限制其访问浏览;当某一访问者访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问。
第三阶段,动态网页技术保护。面对反爬技术的升级,网络爬虫也随之升级。网络爬虫能够自动识别并填写验证码,绕过二次核验的拦截;同时使用多个账号,配置IP代理工具,绕过平台对账号和IP地址的限制。针对网络爬虫的变化,很多网站和平台采用动态网页开技术。基于动态网页技术,网页的URL地址不固定,后台实时与前端用户交互,完成用户查询、提交等动作。而且不同时间、不同用户、访问同一URL地址时会产生不同的页面。相比与传统的静态网页,动态网页有效保护重要的数据信息,有效遏制了网络爬虫的恶意爬取行为。
为了绕过新的反爬措施,网络爬虫使用Selenium和Phantomjs技术,完全模拟人的操作。此时爬虫的攻击也愈加智能复杂,单纯的通过限制访问次数、前端页面展示加密已经给无法有效防护,需要通过提高人机识别技术等拦截识别黑产,提高不法作恶成本。顶象的全流程的立体防控措施,有效防范恶意爬取行为,以保障网站平台安全。
全流程反爬方案
爬虫非法盗取愈加智能复杂,单纯的通过限制访问次数、前端页面展示加密已经给无法有效防护,需要通过提高人机识别技术等拦截识别黑产,提高不法作恶成本。顶象的全流程的立体防控措施,有效防范恶意爬取行为,以保障电商网站安全。
定期对平台、App的运行环境进行检测,对App、客户端进行安全加固,对通讯链路的加密,保障端到端全链路的安全。同时部署基于顶象防御云、风控引擎和智能模型平台,构建多维度防御体系。
顶象风控引擎根据业务查询场景的请求、客户端采集的设备指纹信息、用户行为数据行为,实现对恶意“爬虫”行为的有效识别,基于安全防控策略,有效地恶意爬取行为进行识别和拦截。。基于业务、爬取风险与反爬策略变化,顶象智能模型平台帮助企业构建专属风控模型,实现安全策略的实时更迭,从而有效拦截各种恶意爬取风险。
AI时代的验证码
验证码是防范数据盗取的重要技术,由此也成为黑灰产攻克破解的重要目标。顶象验证码基于验证环境信息进行防御,通过生产无穷的验证图片+对环境信息提供验证,提供双重安全保障。
首先,基于AIGC技术的顶象验证码,能够源源不断得新验证图片,极大增加了黑灰产的识别与破解成本,大幅提升验证要素识别难度。其基于深度学习和神经网络,生成一些难以被预测和重复的图片、元素,并在验证过程中加入时间戳或者随机数等动态变化的因素,增加破解的难度,有效抵御机器破解。
其次,顶象验证码集成实时流计算及场景策略结合机器学习训练的人机模型、历史数据的关联分析,通过图形算法和AI模型,对用户产生的行为轨迹数据进行机器学习建模,结合访问频率、地理位置、历史记录等多个维度信息,快速、准确得返回人机判定结果。在验证码的验证环节采集有辨识度的环境信息,配置规则和策略来,筛选出可能是黑灰产的请求进行二次验证或拦截。例如,判断完成验证时的验证环境信息和token上报时的验证环境信息是否一致,对多次恶意攻击的IP地址进行拦截,限制验证码输入的次数等。