爬虫笔记_

news2026/2/14 19:35:03

爬虫简介

在这里插入图片描述

爬虫初始深入

爬虫在使用场景中的分类

通用爬虫：
- 抓取系统重要组成部分。抓取的是一整张页面数据
聚焦爬虫：
- 是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。
增量式爬虫
- 监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

反爬机制
- 可以通过制定相应的策略或技术手段防止爬虫进行爬取。
反反爬策略
- 可以通过制定相关策略或技术手段破解反爬机制从而可以获取门户网站中相关的数据。

反爬机制：robots.txt协议

君子协议，规定了网站中哪些数据可以被爬虫爬取，哪些不可以。

HTTP&HTTPS

超文本传输协议：服务器和客户端进行数据交互的一种形式

常用请求头信息

User-Agent：请求载体的身份标识
Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息

Content-Type: 服务器响应回客户端的数据类型。

https协议

安全的超文本传输协议

加密方式

对称密钥加密：将密文和密钥一起发送
非对称密钥加密：公开密钥加密，私有密钥解密。（客户端拿到的公钥可能被篡改）
证书密钥加密（https）：加入证】书认证机构

requests模块基础

在这里插入图片描述

在这里插入图片描述

selenium模块

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1018412.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

unity学习第1天

unity学习第1天

本身也具有一些unity知识，包括Eidtor界面使用、Shader效果实现、性能分析，但对C#、游戏逻辑不太清楚，这次想从开发者角度理解游戏，提高C#编程，从简单的unity游戏理解游戏逻辑，更好的为工作服务。 unity201…

阅读更多...

Linux内核编译机制

Linux内核编译机制

文章目录 KconfigKconfig语法 KbuildMakefile Linux内核的编译主要过程：配置、编译、安装。配置主要由Kconfig提供图形界面完成编译主要基于Kbuild编译系统，执行make完成编译安装主要也是基于Kbuild提供的脚本，然后执行make完成安装 Kconf…

阅读更多...

【需求侧响应】综合能源中多种需求响应——弹性电价、可平移及可削减研究（Matlab代码实现）

【需求侧响应】综合能源中多种需求响应——弹性电价、可平移及可削减研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

Java 函数式编程思考 —— 授人以渔

Java 函数式编程思考 —— 授人以渔

引言最近在使用函数式编程时，突然有了一点心得体会，简单说，用好了函数式编程，可以极大的实现方法调用的解耦，业务逻辑高度内聚，同时减少不必要的分支语句（if-else）。一、函数式编…

阅读更多...

Openresty(二十一)ngx.balance和balance_by_lua灰度发布

Openresty(二十一)ngx.balance和balance_by_lua灰度发布

一 openresty实现灰度发布 ① 灰度发布说明： 早期博客对灰度发布的概念进行解读,并且对原生 nginx灰度实现进行讲解后续： 主要拿节点引流的灰度发布,并且关注gray灰度策略相关借鉴 ② 回顾HTTP反向代理流程 ngx_http_upstream 可操作点&#…

阅读更多...

数据结构与算法之树、森林与二叉树的转换(手绘)

数据结构与算法之树、森林与二叉树的转换(手绘)

树、森林与二叉树的转换树、森林与二叉树的转换树转换成二叉树原则：步骤展示连线给出除长子外的结点去线层次调整森林转换成二叉树原则步骤展示根据树转换成二叉树的原则将每颗树转变成二叉树第 n 棵树作为第 n-1 棵树根节点的右子节点二叉树转换成树原则步骤展示…

阅读更多...

KDM CCA Secure FHE

KDM CCA Secure FHE

参考文献： [BFM88] Blum M, Feldman P, Micali S. Non-interactive zero-knowledge and its applications[M]//Providing Sound Foundations for Cryptography: On the Work of Shafi Goldwasser and Silvio Micali. 2019: 329-349.[FS90] Feige U, Shamir A. Witn…

阅读更多...

智能合约漏洞案例，Euler Finance 1.96 亿美元闪电贷漏洞分析

智能合约漏洞案例，Euler Finance 1.96 亿美元闪电贷漏洞分析

智能合约漏洞案例，Euler Finance 1.96 亿美元闪电贷漏洞分析 2023 年 3 月 13 日上午 08:56:35 UTC，DeFi 借贷协议 Euler Finance 遭遇闪电贷攻击。 Euler Finance 是一种作为无许可借贷协议运行的协议。其主要目标是为用户提供各种加密货币的借贷便利。…

阅读更多...

免单商城系统小程序开发源码功能解析

免单商城系统小程序开发源码功能解析

商品免单是现在很多商家喜欢做的一种营销活动，市面上几乎所有商家都是利用免单系统进行免单活动的，但大部分的免单系统仅仅只有排队免单功能，免单的周期长类目单一。我们的免单系统是将获客、拉新、留存、转化集于一身，多种免单拓…

阅读更多...

什么是Java中的“内存屏障“（Memory Barrier）？它们有什么作用？

什么是Java中的“内存屏障“（Memory Barrier）？它们有什么作用？

内存屏障是一种用于控制内存访问顺序的指令。在多核处理器上运行的多线程程序可能会因处理器的乱序执行和缓存一致性问题而导致意外的行为。内存屏障可以用来强制某些操作的顺序，以确保线程间的正确协同。作用包括： 保证写入的可见性：内存…

阅读更多...

前缀和实例4（和可被k整除的子数组）

前缀和实例4（和可被k整除的子数组）

题目： 给定一个整数数组 nums 和一个整数 k ，返回其中元素之和可被 k 整除的（连续、非空） 子数组的数目。子数组是数组的连续部分。示例 1： 输入：nums [4,5,0,-2,-3,1], k 5 输出：7 …

阅读更多...

Linux驱动IO篇——异步通知

Linux驱动IO篇——异步通知

文章目录什么是异步通知异步通知和异步IO的区别信号含义应用层使用信号驱动如何实现异步信号驱动实例什么是异步通知异步通知在Linux的实现中是通过信号，而信号是在软件层次上对中断机制的一种模拟。这种机制和中断非常类似，所以可以以中断的思想来理…

阅读更多...

AI绘画：如何让图片开口说话生成视频？变现渠道有哪些？

AI绘画：如何让图片开口说话生成视频？变现渠道有哪些？

如何让AI绘画做出来的视频可以开口说话，本篇文章给你讲解清楚。这个项目市面上有很多种叫法，AI数字人，图片说话，图片数字人等等。废话不多说，直接以AI小和尚为例进行实操。 1.生成图片： 用Midjourney…

阅读更多...

操作系统期末复习笔记

操作系统期末复习笔记

文章目录操作系统第1章计算机系统概述1 指令执行的基本指令周期2 中断分类与中断处理过程2.1 中断的定义2.2 中断分类2.3 中断的意义2.4 无中断2.5 有中断2.6 中断和指令周期2.7 中断处理的过程 3 处理多中断的两种方法3.1 顺序中断处理（禁止中断）3.2 …

阅读更多...

大数据-玩转数据-Flink恶意登录监控

大数据-玩转数据-Flink恶意登录监控

一、恶意登录对于网站而言，用户登录并不是频繁的业务操作。如果一个用户短时间内频繁登录失败，就有可能是出现了程序的恶意攻击，比如密码暴力破解。因此我们考虑，应该对用户的登录失败动作进行统计，具体来说&#x…

阅读更多...

批量获取CSDN文章对文章质量分进行检测，有助于优化文章质量

批量获取CSDN文章对文章质量分进行检测，有助于优化文章质量

📚目录 ⚙️简介✨分析获取步骤⛳获取文章列表☘️前期准备✨ 接口解析⚡️ 获取文章的接口 ☄️文章质量分接口⭐接口分析 ⌛代码实现：⚓核心代码:⛵测试用例:⛴ 运行效果:☘️增加Excel导出 ✍️结束 ⚙️简介有时候我们写文章是为了记录当下遇到的bu…

阅读更多...

乙方策划人员的内心独白：写不完的案子，是工作的常态吗？

乙方策划人员的内心独白：写不完的案子，是工作的常态吗？

在某种程度上来说，这是对的。如果是年轻人来说，在甲方当策划就是当执行，只有积累一定经验才能真正实行策划任务、而在乙方做策划那就是纯纯的策划，也就是你说的每天写不完的案子。对于普通人的职场选择往往是就近选择&#…

阅读更多...

服务治理平台：SOA与微服务架构的对比与区别

服务治理平台：SOA与微服务架构的对比与区别

文章目录 1、场景引入2、面向服务的架构SOA3、微服务架构4、对比与联系5、服务治理平台 1、场景引入如果我们打开支付宝首页，去看我们的余额，它会展示你的总资产，昨日收益、累计收益等信息。假如这个页面所展示的信息，都来自各个…

阅读更多...

非常详细的trunk-based分支管理流程配置及使用

非常详细的trunk-based分支管理流程配置及使用

非常详细的trunk-based分支管理流程配置及使用。目前业界主流的版本管理流程是Gitflow 和 trunk-based。 Gitflow流行的比较早。但是目前的流行度要低于 trunk-based模式工作流。trunk-based模式被誉为是现代化持续集成的最佳实践。他俩的核心区别是，Gitflow是一个更严格…

阅读更多...

格式化文件恢复软件有哪些格式化文件恢复软件怎么用

格式化文件恢复软件有哪些格式化文件恢复软件怎么用

格式化是指对磁盘或者磁盘中的分区进行初始化的一种操作，但是这种操作会造成磁盘内数据的清除。因此，当我们需要恢复一些数据时，就要借助相关数据恢复软件的帮助，那么下面就来给大家介绍格式化文件恢复软件有哪些，格式…

阅读更多...

推荐文章

最新文章