- 爬虫深入
- 使用场景分类
- 通用爬虫:抓取系统的重要组成部分,抓取的是一整张页面数据
- 聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中特定的局部内容
- 增量式爬虫:检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
- 矛与盾
- 反爬机制
- 门户网站可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取
- 反反爬策略
- 爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取门户网站网络数据
- 反爬机制
- robots.txt协议
- 君子协议,规定了网站中哪些数据可以被爬虫爬取,那些数据不可以被爬取
- http&https协议
- 概念:服务器和客户端进行数据交互的一种形式
- 常用请求头信息
- User-Agent:请求载体的身份标识
- Connection:请求完毕后,是断开连接还是保持连接
- 常用响应头信息
- Content-Type:服务器响应回客户端的数据类型
- https协议
- 安全的超文本传输协议,对数据有加密
- 加密方式
- 对称密钥加密
- 客户端会将发送给服务端的信息进行加密,加秘密钥和加密信息同时发送给服务端
- 非对称密钥加密
- 服务端先将将要发送的信息加密方式发送给客户端(给公钥,保留私钥),客户端接收到后,再用该方式(公钥)对信息进行加密,再把密文给服务端,服务端可利用保留的私钥进行解密
- 证书密钥加密
- 服务端携带公开密钥向数字证书认证机构提出公开密钥的申请,数字证书认证机构再认清申请者的身份,审核通过后会对申请的公开密钥做数字签名,然后分配这个已签名的公开密钥,并将密钥放在证书里面绑定一起
- 服务端现将数字证书发送给客户端,因为客户端也认可证书机构,客户端可以通过数字证书中的数字签名来验证公钥的真伪,确保服务器传过来的公钥是真实的。
- 一般来说证书的数字签名,很难被伪造,取决于认证机构的公信力,一但确认信息无误之后,客户端就会通过公钥对报文进行加密发送,服务端接收到之后用自己的私钥进行解密
- 对称密钥加密
- 使用场景分类