【2023.3.3】一、爬虫概念
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
价值:
抓取互联网上的数据,为我所用,有了大量的数据,就如同有了一个数据银行一样,下一步做的就是如何将这些爬取的数据产品化,商业化。
法律风险:
只要不影响网站的恶意运行就是善意爬虫和审查好抓取的不涉及个人隐私就没有法律风险。
分类:
通用爬虫(抓取系统-如google重要组成部分。抓取的是一整张页面数据。)
聚焦爬虫(是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。)
增量式爬虫(监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。)
反爬机制:
门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略:
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而获取门户网站信息。
二、反爬机制
robots.txt协议
是一个君子协议。规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。
示例:disallow不允许以下目录
http(超文本传输协议)协议:
是服务器和客户端进行数据交互的一种形式。
https(security安全的超文本传输协议加密方式)协议:
①对称秘钥加密
一旦截取密钥就不安全
②非对称秘钥加密
一旦截取到服务器给的公钥,可以篡改后再发送给客户端
③证书秘钥加密
常用请求头信息:
-User-Agent:请求载体的身份标识
-Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息:
-Content-Type:服务器响应回客户端的数据类型
【2023.3.4】
二、请求模块
requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发请求。
如何使用:(requests模块的编码流程)
①指定url
②发起请求
③获取响应数据
④持久化存储