初识爬虫1

news2024/9/24 21:28:27

学习路线:爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。

对应视频链接(百度网盘):正在整理中

爬虫基础知识:

1.爬虫的概念

总结:模拟浏览器,发送请求,获取响应。
2.爬虫的作用
        数据采集
        软件测试
        抢票
        网站上的投票
        网络安全
3.爬虫的分类
        数量
        是否获取数据
        url与数据的关系

 4.爬虫的流程
        url
        发请求,获取响应
        解析

5.http复习
        http以及https的概念和区别
        HTTPSH比HTTP更安全,但是性能更低
6.常见的请求头与响应头
请求头
host                                                域名
Connection                                     长连接
Upgrade-Insecure-Requests          升级为HTTPS请求
***User-Agent                                 用户代理,提供系统信息和浏览器信息
***Referer                                       页面跳转处,防盗链(图片/视频)
***Cookie                                        状态保持
响应头                                             Set-Cookie
7.状态码
所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码

8.浏览器请求的过程
        发送所有请求,进行渲染
爬虫
        只发送指定请求,不会渲染


骨骼文件:html静态文件
肌肉文件:js/ajax请求
皮肤:css/font/图片

源代码        控制台        所有源代码        响应

Network:点刷新,可以看到响应

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2121673.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

新版idea菜单栏展开与合并

新版idea把菜单栏合并了看着很是不习惯,找了半天原来在这里展开 ① 点击文件 -> 设置 ② 点击外观与行为 -> 外观 -> 合并主菜单和窗口标题 然后确定,重启即可

如何应对 Android 面试官 -> 启动如何进行优化(上)?玩转 Android StartUp

前言 本章主要围绕 App 的启动流程如何优化进行讲解; 将启动优化,首先要了解的就是 app 的启动流程,只有清晰并完善的了解了 启动流程 才能更好的进行优化; App 启动流程 在将 AMS 的时候,其实已经讲解了 App 的启动…

喜报! 炼石入选中国信通院《数据安全产业技术产品服务全景图》

近日,在2024中国国际大数据产业博览会“数据安全产业发展”交流活动上,中国信息通信研究院安全研究所副所长魏薇发布了《数据安全产业技术产品服务全景图》(以下简称“全景图”)。全景图从数据安全产业的概念和内涵出发&#xff0…

强大的3款自动爬虫利器,再也不用手撸代码了

爬虫是一种自动浏览互联网的程序,它按照一定的算法顺序访问网页,并从中提取有用信息。爬虫通常由以下几部分组成: - 用户代理(User-Agent):模拟浏览器访问,避免被网站识别为机器人。 - 请求处…

Springcould -第一个Eureka应用 --- day02

标题 Eureka工作原理Spring Cloud框架下的服务发现Eureka包含两个组件,分别是:Eureka Server与Eureka Client。Eureka Server:Eureka Client: 搭建Eureka Server步骤:步骤1:创建项目,引入依赖步…

iMeta | 中科院植物所周世良团队和河北工程大学刘艳磊团队揭示现代丝绸之路东段植物物种多样性格局及其影响因素

现代丝绸之路东段植物物种多样性格局及其影响因素研究 iMeta主页:http://www.imeta.science 研究论文 ● 原文链接DOI: https://doi.org/10.1002/imt2.74 ● 2023年1月9日,中国科学院植物研究所周世良团队与河北工程大学刘艳磊团队在iMeta在线发表了题…

【32单片机篇】项目:智能台灯

一、项目需求 1. 红外传感器检测是否有人,有人的话实时检测距离,过近则报警;同时计时,超过固定时间则报警; 2. 按键 1 切换工作模式:智能模式、按键模式、远程模式; 3. 智能模式下,…

支付宝开放平台-开发者社区——AI 日报「9 月 10 日」

1 Anthropic安全负责人:在超级A!「毀灭」人类之前,我们可以做这些准备 机器之心 丨阅读原文 Anthropic公司为应对A发展带来的港在风险,发布了负责任扩展策路(RSP),旨在通过技术和组织协议管理功能日益强大的Al系统。…

离离原上谱,公司裁员,员工排队抢名额

排队等裁员 别的公司裁员,大多数员工都提心吊胆,最近有家公司裁员,出现了员工排队抢名额的局面。 这家公司是「东风本田」。 近期行业内部传出消息,指出东风本田将面临战略调整,计划实施一次规模较大的裁员行动&#x…

AV1 Bitstream Decoding Process Specification:符号和缩写术语

原文地址:https://aomediacodec.github.io/av1-spec/av1-spec.pdf没有梯子的下载地址:AV1 Bitstream & Decoding Process Specification摘要:这份文档定义了开放媒体联盟(Alliance for Open Media)AV1视频编解码器…

网络安全主动防御技术原理与应用

入侵阻断技术与应用 入侵阻断:网络安全主动防御的技术方法 基本原理:对目标网络攻击行为进行阻断 入侵防御系统(IPS) 基本原理:根据网络包特性及上下文进行攻击行为判断老控制包转发 工作机制:类似路由…

2024下半年软考机考操作指南来了!赶紧收藏!

自2023年下半年软考全部科目改革为机考方式后,到现在已经进行过两场考试,鉴于有很多考生是初次参加软考,就给大家介绍下关于软考机考的具体操作指南,希望对大家有所帮助。 一、2024年软考机考考试流程 1、进入机考系统后&#xf…

AI人工智能将推动人类发展

AI人工智能将推动人类发展 AI(人工智能)作为一种前沿技术,正以前所未有的速度改变着我们的世界,并在多个领域展现出巨大的潜力,这些潜力无疑将推动人类社会的发展。以下是一些AI如何推动人类发展的主要方面&#xff1…

php代码实例强制下载文件代码例子

php代码实例强制下载文件代码例子 $filename $_GET[file]; //Get the fileid from the URL // Query the file ID $query sprintf("SELECT * FROM tableName WHERE id %s",mysql_real_escape_string($filename)); $sql mysql_query($query); if(mysql_num_rows…

「 自动化测试 」面试题..

1.你会封装自动化测试框架吗? 自动化框架主要的核心框架就是分层PO模式:分别为:基础封装层BasePage,PO页面对象层,TestCase测试用例层。然后再加上日志处理模块,ini配置文件读取模块,unittestd…

MybatisX-Generator自动代码生成插件

一、概述 MybatisX-Generator是mybatis-plus的代码自动生成插件,用在idea的开发工具上,我们可以idea上安装这个插件,然后通过idea自带的数据库进行使用,打开idea的数据库database,链接一个数据库,然后对你…

MLP 多层感知机

为了拟合更特殊的函数,在网络中加入多个隐藏层,克服线性的限制。最后一层可以看作线性predictor。 一、 1.最简单流程 输入x矩阵,含有n个样本,每个样本有d个特征。经过隐藏层H将维度转化为h,在经过最后的输出层O将维…

浙江搞一场知识竞赛活动要多少钱

浙江省属于国内比较富裕地方,消费相比其他地方较高,在那里举办一场知识竞赛活动根据规模划分:小型知识竞赛的预算大致在2-3万;中型知识竞赛活动3-10万之间,高端知识竞赛10至30万元之间或更高。以上费用均未考虑场地和选…

十年电商经验分享:从0-1打单品保姆级教程(下)

接着上一篇《十年电商经验分享:从0-1打单品保姆级教程(上)》,各位觉得有参考意义的商家朋友们可以点赞收藏一下。 5、制作 sku 图片以及 sku 名称卖点 这里很多商家可能不太注意,这个也是优化转化率最好的一块内容&a…

【数据结构与算法 | 灵神题单 | 删除链表篇】力扣2487, 237

1. 力扣2487:从链表中删除节点 1.1 题目: 给你一个链表的头节点 head 。 移除每个右侧有一个更大数值的节点。 返回修改后链表的头节点 head 。 示例 1: 输入:head [5,2,13,3,8] 输出:[13,8] 解释:需…