爬虫进阶-反爬破解1(反爬技术简介、HTTP网络基础知识、搭建代理服务)

news2024/11/28 18:00:01

目录

一、反爬技术简介

二、HTTP网络基础知识

三、搭建代理服务


一、反爬技术简介

(一)破解Web端反爬技术

1.常见的反爬策略方向:同一时间的请求数量、请求的身份信息、浏览器和爬虫的区别

2.浏览器和爬虫的不同:异步数据加载、前端的渲染技术、逆向分析JS函数代码、浏览器调度和调试能力

(二)内容分类

数据方面:敏感数据加密、编码数据解密

资源方面:代理IP和Cookie的管理维护

前端语法:浏览器的调试能力和逆向分析能力

架构方面:分布式爬虫架构和大数据存储结构

(三)内容推荐

了解HTTP理论基础

学习并掌握一些常见的加密算法

了解一些网站开发技术和数据传输方式

掌握JS基础语法以及浏览器的调试方法

总结:1.提高突破反爬的能力,必须掌握前端反爬的方法和思路

        2.不要一味的想着破解,很多事要考虑时间和效率

        3.爬虫是合法合规的技术,不能影响网站的正常运行

二、HTTP网络基础知识

(一)HTTP基础内容

基于TCP/IP协议,简单易用

HTTP/0.9-单行协议(1991)

无连接、无状态、明文传输的协议

SPDY+HTTP2.0

(二)为安全设计的HTTPS

1.更安全的HTTPS(一)

TCP 三次同步握手

客户端验证服务器数字证书

DH算法协商对称加密算法的密钥、hash算法的密钥

2.更安全的HTTPS(二)

SSL安全加密隧道协商完成

网页以加密的方式传输,用协商的对称加密算法和密钥加密,保证数据的机密性;用协商的hash算法进行数据完整性保护,保证数据不被篡改

(三)HTTP的工作原理

 (四)为什么HTTP的网站依旧很多

1.HTTP基础内容

HTTPS协议多次握手,导致页面的加载时间延长近50%

申请SSL证书需要钱,功能越强大的证书费用越高

SSL涉及到的安全算法会消耗CPU资源,资源消耗较大

对于数据和身份不敏感的网站,直接使用HTTP即可

2.总结

HTTP协议简单易用,开支少,但是数据不够安全

HTTPS加密是安全的,但是不是无解的,只是破解得花很多时间

(五)HTTP请求过程

 (六)HTTP请求包结构

URL目标地址:http://www.imooc.com

请求包的方法类型:GET、POST、PUT

请求头的字段信息:User-Agent、Cookie、Content-Type

请求包的主体信息:字符串、图片、文件

(七)HTTP头字段信息

User-Agent:用户代理信息

Cookie:身份和标识信息

Content-Type:接收的数据类型

Refer:来源

总结:爬虫要隐藏自己,必须注意请求头字段的值

可变数据的字段,需要提防

身份字段的数据,一定要仔细检查

三、搭建代理服务

(一)代理IP的分类

静态IP:长效、短效,一次性售卖

动态IP(次数):动态转发,按次数计费

隧道IP:隧道周期计费,IP自行提取,时效自由

动态IP(流量):按流量计费

(二)服务商的代理IP分类一

静态IP:芝麻代理、站大爷、蘑菇代理、极光代理、IPIDEA

动态转发:讯代理

隧道技术:阿布云

流量计费:LiuGuan

账户包月:动态云

(三)服务商的代理IP分类二

可选择地区:越多越好

身份认证:白名单和账号密码加密

提取方式:时间段内的规定量

IP质量:独享、共享

优惠力度:逢年过节搞活动,充多少送多少

(四)代理IP的质量说明

独享IP:价格高,质量好

共享IP:价格低廉,质量不稳定

VPS服务器:重启网络自动更换IP

(五)爬虫IP性价比概括

极高性价比:短效静态IP

高性价比:包月的IP量

一般性价比:长效IP

低性价比:动态转发

总结:爬虫只需要短效的代理IP

        IP质量越高,价格也就越贵

        IP分地区,注意多使用不同地区的代理IP

(六)使用squid自建代理服务

squid是一个高性能的代理缓存服务器

squid支持FTP、HTTPS和HTTP等协议

(七)代理的安全问题

加密和身份认证

绑定系统不同的端口

云服务器的安全组配置

总结:部署squid,准备好配置文件和检查端口

        使用公网服务器搭建服务,注意安全组的配置

        squid一定要加密,不然容易被扫

(八)代理产品需求的场景分类

1.爬虫需求 2.产品运营的数据需求 3.跨地区网络需求

(九)爬虫场景:分布式爬虫

1.时效很短的IP

2.代理IP的需求量大

3,IP归属地要多

(十)软件代理场景:时效适度

1.时效适度的IP,例如12小时、24小时

2.代理IP的需求量在短时间内很少

3.IP归属地聚集

(十一)跨地区网络场景:时效超长

1.时效超长的IP,例如按月,季租赁

2.代理IP的量少,单价非常高

3.IP归属地特定,根据需求找地区

总结:不同的场景,对IP的时效、数量需求都不一样

        提取代理IP的时候,记得选择时长、数量、地区

        代理服务商会监督并对代理IP的使用请求,做日志记录

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/590283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Maui初体验

创建Maui应用程序 使用vs创建项目,选择maui模板。 生成即可。 体验Font. 下载字体,放在Font文件夹下,或者子文件夹。 将 文件的生成操作改成MauiFont. 注册字体 如果在Font的子文件夹下,则需要编辑项目,修改ItemGrou…

SeaFormer实战:使用SeaFormer实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整算法设置混合精度,DP多卡,EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试热力图可视化展示…

Ansible任务控制与Ansible-Playbook

YAML特点 YAML 文件以 # 为注释符 YAML 文件以 .yml或者.yaml 结尾 YAML 文件以 --- 开始 , 以 ... 结束,但开始和结束标志都是可选的 基本语法 大小写敏感 使用缩进表示层级关系 缩进时是使用Tab键还是使用空格- -定要达到统- ,建议使用空格…

SpringMVC第七阶段:SpringMVC的增删改查(02)

1、图书列表功能的实现 需要导入JSTL标签库的jar包: druid-1.1.9.jar junit_4.12.jar mysql-connector-java-5.1.37-bin.jar org.hamcrest.core_1.3.0.jar spring-aop-5.2.5.RELEASE.jar spring-beans-5.2.5.RELEASE.jar spring-context-5.2.5.RELEASE.jar spring-core-5.2.5…

操作系统期末复习——课时八——进程同步(二)

1、信号量 信号量机制是一种功能较强的机制,可用来解决互斥和同步问题,它只能被两个标准的原语wait(S)(P操作)和signal(S)(V操作 )访问。 注意:原语是一种特殊的程序段,其执行只能一…

HNU-电子测试平台与工具2-I2C

FPGA I2C接口实现 计科210X wolf 202108010XXX 报告内容将包括: (1)如何描述组合电路、时序电路、状态机?如何编写TestBench? (2)ModelSim工具的使用; (3)EEPROM读写代码分析; (4)实验总结; 注意:其中(1)将在自定FSM中以实例的方式呈现,(2)将在(3)中提…

Java学习笔记22——异常

异常 异常异常的概述JVM处理异常的默认方案异常处理Throwable的成员方法编译时异常和运行时异常的区别异常处理throws自定义异常 异常 异常的概述 Throwable是所有异常和错误的超类 error表示严重的问题,合理的程序不应该试图捕获 Exception表示合理的应用想要捕…

chatgpt赋能python:Python中的{:5d}是什么?

Python中的{:5d}是什么? 在Python中,{:5d}是一种格式化字符串的方法,用于将整数格式化为一定宽度的字符串,其中{}代表占位符,5代表宽度,d代表将数据格式化为十进制整数。 简而言之,{:5d}的作用…

【pytest】tep环境变量、fixtures、用例三者之间的关系

tep是一款测试工具,在pytest测试框架基础上集成了第三方包,提供项目脚手架,帮助以写Python代码方式,快速实现自动化项目落地。 在tep项目中,自动化测试用例都是放到tests目录下的,每个.py文件相互独立&…

做接口测试需要哪些技能?一篇文章教你如何学会Python接口自动化测试

目录 1、什么是接口测试? 2、接口测试需要会什么? 3、如何学这些技能? 4、如何获取接口相关信息? 5、如何进行进行接口测试? 6、自动化接口测试 7、其他 1、什么是接口测试? 定义:测试系…

【反向面试】向你未来的软件雇主提出的36个问题

作者 | Tomas Fernandez 祝贺通过了面试!你准备得很充分,并通过了所有的问题。现在你可以放松了。 "你有什么问题要问我们吗?” 面试官问道。哦!这还没有结束,你意识到。你应该会有一些问题。 面试官并不是想让…

JVM学习(十三):面试中绕不开的String

一、String 的基本特性 1.1 String类的声明 String实现了Serializable接口,表示字符串是支持序列化的; 实现了Comparable接口,表示String可以比较大小 1.2 String的存储方式在jdk9中的变更 我们知道,String在jdk8中使用 final …

Lua学习笔记:C++操作Lua的表

前言 本篇在讲什么 C操作Lua的表(table) 本篇适合什么 适合初学Lua的小白 适合需要C/C和lua结合开发的人 本篇需要什么 对Lua语法有简单认知 对C/C语法有简单认知 依赖Lua5.1的环境 依赖VS 2017编辑器 本篇的特色 具有全流程的图文教学 重实践,轻理论…

23种设计模式之策略模式(Strategy Pattern)

前言:大家好,我是小威,24届毕业生,在一家满意的公司实习。本篇文章将23种设计模式中的策略模式,此篇文章为一天学习一个设计模式系列文章,后面会分享其他模式知识。 如果文章有什么需要改进的地方还请大佬不…

构建Transformer模型 | 在wikiText-2数据集上训练一个语言模型

0 Introduction CSDN上有很多关于Transformer模型代码及解析的教程,但总体感觉还是不够直观,本文来自以B站上一个公开课,讲得非常详细,建议花一点时间从头到尾跟做一遍,单纯看静态的代码和文字描述,还是比…

十大排序(四)

上几篇文章我们说的是比较类的排序,今天给大家分享一下非比较累的排序;非比较类中包含桶排序 :基数排序、桶排序、计数排序 计数排序 找出待排序的数组中最大和最小的元素; 统计数组中每个值为i的元素出现的次数,存入…

Azure Active Directory 的功能和优势

Azure Active Directory (Azure AD) 是 Microsoft 基于云的多租户目录和标识管理服务。 Azure AD 有助于支持用户访问资源和应用程序,例如: 位于企业网络上的内部资源和应用。 Microsoft 365、Azure 门户和 SaaS 应用程序等外部资源。 为组织开发的云应…

详解uni-app应用生命周期函数

详解uni-app应用生命周期函数 详解uni-app应用生命周期函数 文章目录 详解uni-app应用生命周期函数前言一、应用生命周期函数二、页面生命周期函数总结 前言 UNI-APP学习系列之详解uni-app应用生命周期函数 一、应用生命周期函数 函数名说明onLaunch当uni-app 初始化完成时触…

web自动化测试流程的总结及关注点

目录 一、立项后测试需要拿到的文档 二、需求评审 三、用例编写(同时根据开发计划编写测试计划) 四、用例评审 五、测试执行 六、测试报告及操作手册 项目的测试流程大只包含的几个阶段:立项、需求评审、用例评审、测试执行、测试报告文…

【PXIE301-204】基于PXIE 总线的4 路Cameralink Base 图像采集卡

产品概述: PXIE301‐204 一款基于3U PXI Express 总线的高性能4 路CameraLink Base 图像采集卡,该板卡采用Xilinx 的高性能Kintex‐7 系列FPGA 作为主控制器,实现PCI Express 总线接口的转换,图像数据的缓存,以及Camer…