Python爬虫：爬虫基本概念和流程

Python爬虫：爬虫基本概念和流程

news2026/2/15 14:53:33

前言： 零基础学Python：Python从0到100最新最全教程。 想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！
欢迎大家订阅专栏：零基础学Python：Python从0到100最新最全教程！

本文目录：

一、爬虫的基本概念
- 1.为什么要学习爬虫
- - 1.1 数据的来源
  - 1.2 爬取到的数据用途
- 2.什么是爬虫
- 3. 爬虫的更多用途
二、爬虫的分类和爬虫的流程
- 1.爬虫的分类
- 2.爬虫的流程
- 3.robots协议
- - 小结

一、爬虫的基本概念

1.为什么要学习爬虫

如今，人工智能，大数据离我们越来越近，很多公司在开展相关的业务，但是人工智能和大数据中有一个东西非常重要，那就是数据，但是数据从哪里来呢？

首先我们来看下面这个例子：

在这里插入图片描述

这是微博的微指数的一个截图，他把在微博上的用户的微博和评论中的关键词语做了提取，然后进行了统计，然后根据统计结果得出某个词语的流行趋势，之后进行了简单的展示

类似微指数的网站还有很多，比如百度指数，阿里指数，360指数等等，这些网站有非常大的用户量，他们能够获取自己用户的数据进行统计和分析

那么对于一些中小型的公司，没有如此大的用户量的时候，他们该怎么办呢？

1.1 数据的来源

去第三方的公司购买数据(比如企查查)
去免费的数据网站下载数据(比如国家统计局)
通过爬虫爬取数据
人工收集数据(比如问卷调查)

在上面的来源中：人工的方式费时费力，免费的数据网站上的数据质量不佳，很多第三方的数据公司他们的数据来源往往也是爬虫获取的，所以获取数据最有效的途径就是通过爬虫爬取

1.2 爬取到的数据用途

百度新闻,一家并不是做新闻的公司，这个网站上的新闻数据从哪里来的呢？
在这里插入图片描述

通过点击，我们可以发现，他的新闻数据都是其他网站上的，在百度新闻上仅仅做了展示

那么同样的，我们后续想要做一个和网易云音乐类似的音乐网站，是不是也可以这样来做呢？
* *加粗样式**

通过前面的列子，能够总结出，爬虫获取的数据的用途：

进行在网页或者是app上进行展示
进行数据分析或者是机器学习相关的项目

2.什么是爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做

3. 爬虫的更多用途

12306抢票
网站上的投票
短信轰炸

二、爬虫的分类和爬虫的流程

了解爬虫分类
记忆爬虫流程
了解 robots协议

1.爬虫的分类

在上一小结中，我们介绍爬虫爬取到的数据用途的时候，给大家举了两个例子，其实就是两种不同类型的爬虫

根据被爬网站的数量的不同，我们把爬虫分为：

通用爬虫：通常指搜索引擎的爬虫（https://www.baidu.com）
聚焦爬虫：针对特定网站的爬虫

2.爬虫的流程

请思考：如果自己要实现一个和百度新闻一样的网站需要怎么做？

爬虫的工作流程：

向起始url发送请求，并获取响应
对响应进行提取
如果提取url，则继续发送请求获取响应
如果提取数据，则将数据进行保存

3.robots协议

在百度搜索中，不能搜索到淘宝网中某一个具体的商品的详情页面，这就是robots协议在起作用

Robots协议：网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是互联网中的一般约定

小结

爬虫分类：通用爬虫、聚焦爬虫
爬虫的流程：

向起始url发送请求，并获取响应
对响应进行提取
如果提取url，则继续发送请求获取响应
如果提取数据，则将数据进行保存

robots协议：无需遵守该协议

❤️好啦，这就是今天要分享给大家的全部内容啦，如果你喜欢的话，就不要吝惜你的一键三连了~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1488140.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

Sora爆火，数字人IP如何借助AIGC视频生成软件制作短视频营销？

Sora爆火，数字人IP如何借助AIGC视频生成软件制作短视频营销？

ChatGPT、Sora等大模型的出现，创新了短视频内容创作生产方式。但目前Sora模型无法准确模拟复杂场景的物理特性，并且可能无法理解因果关系导致视频失真。广州虚拟动力基于用户使用需求，推出了AIGC数字人视频生成平台，企业、品牌可…

阅读更多...

Linux CentOS使用Docker部署Apache Superset并实现远程分析数据

Linux CentOS使用Docker部署Apache Superset并实现远程分析数据

文章目录前言1. 使用Docker部署Apache Superset1.1 第一步安装docker 、docker compose1.2 克隆superset代码到本地并使用docker compose启动 2. 安装cpolar内网穿透，实现公网访问3. 设置固定连接公网地址前言 Superset是一款由中国知名科技公司开源的“现代化的…

阅读更多...

GPT-4劲敌来袭！Mistral Large全球第二大模型重磅上线，你准备好体验了吗？

GPT-4劲敌来袭！Mistral Large全球第二大模型重磅上线，你准备好体验了吗？

近日，Mistral刚刚推出了一个新的大模型，叫做Mistral Large。这个模型在全球的排名是第二，仅次于我们熟知的GPT-4，现在你可以通过API轻松访问到它。 Mistral Large是通过la Plateforme平台提供的，而且还在Azure上进行…

阅读更多...

sparse transformer 常见稀疏注意力

sparse transformer 常见稀疏注意力

参考： https://zhuanlan.zhihu.com/p/259591644 主要就是降低transformer自注意力模块的复杂度复杂度主要就是 Q K^T影响的，稀疏注意力就是在Q点乘K的转置这模块做文章下列式一些sparse transformer稀疏注意力方法 a、transformer原始的 &#xff0…

阅读更多...

OpenGL 实现色温、色调、亮度、对比度、饱和度、高光

OpenGL 实现色温、色调、亮度、对比度、饱和度、高光

1.简介色温：简单理解是色彩的温度，越低越冷如蓝色，约高越暖如红色。亮度：增加就是给图片所有色彩加白色，减少加黑色。注意是只加黑白两种颜色，不然容易跟纯度弄混。对比度：增加就是让白的…

阅读更多...

微信如何设置自动回复消息，提升沟通效率的？

微信如何设置自动回复消息，提升沟通效率的？

在日常微信聊天过程中，我们可能会频繁遇到相同问题的客户提问，特别是对于从事销售工作的朋友们而言，客户添加好友后的第一句话常常为“在吗”或“你好”。当我们拥有大量好友，手动逐一回复可能会耗费大量时间。因此，自…

阅读更多...

Conda笔记--移动Conda环境后pip使用异常的解决

Conda笔记--移动Conda环境后pip使用异常的解决

1--概述由于各种原因，需要将Anaconda转变为Minicoda，为了保留之前安装的所有环境，直接将anaconda3/envs的所有环境拷贝到Miniconda/envs中，但在使用移动后环境时会出现pip的错误：bad interpreter: No such file or di…

阅读更多...

Acwing---1497. 树的遍历

Acwing---1497. 树的遍历

树的遍历 1.题目2.基本思想3.代码实现 1.题目一个二叉树，树中每个节点的权值互不相同。现在给出它的后序遍历和中序遍历，请你输出它的层序遍历。输入格式第一行包含整数 N，表示二叉树的节点数。第二行包含 N个整数，表示二…

阅读更多...

数字经济的下一步：Web3的潜力与前景

数字经济的下一步：Web3的潜力与前景

引言： 随着区块链技术的迅速发展，数字经济正迎来新的变革时代。在这个数字化时代，Web3作为区块链技术的延伸和演进，正在成为全球数字经济发展的重要方向。本文将深入探讨Web3的潜力与前景，以及它对数字经济发展的深远…

阅读更多...

物联网边缘计算云边协同

物联网边缘计算云边协同

文章目录一、物联网云边协同1.IoT云边协同设计2.物联网平台设计3.物联网平台实现二、部署环境1.节点配置2.版本信息三、IoT云边协同部署1.部署Kubernetes集群2.部署KubeEdge3.部署ThingsBoard集群4.部署Node-RED边缘网关4.1.边缘网关功能4.2.部署EMQX4.2.部署Node-RED 5.配置…

阅读更多...

文案如何让产品卖点看得见、摸得着？

文案如何让产品卖点看得见、摸得着？

好的电影能够让人记忆犹新，而好的文案也能让卖点可视化，卖点可视化就是让传播目的、产品优势、品牌形象等信息变得可感知，可视化的文案能够让产品功能、优势的展现可以更加直观、生动，从而缩短用户的购买决策时间。今天媒介盒子就…

阅读更多...

成功的交易没有对错，只有逻辑

成功的交易没有对错，只有逻辑

大部分人将交易失败归咎于心态，但其实我们是否认真思考过自己的基本功是否扎实呢？这篇文章将引导你换个角度看待交易，让你明白自己应该努力的方向。曾经，你或许认为资金体量小、信息不对称、技术不过关、心态不过硬是阻碍交易发展…

阅读更多...

【数据结构】一步一步实现AVL树

【数据结构】一步一步实现AVL树

树和节点的定义 template<class K,class V> class AVLTreeNode {AVLTreeNode<K, V>* _left;AVLTreeNode<K, V>* _right;AVLTreeNode<K, V>* _parent;pair<K, V> _kv;int _bf;AVLTreeNode(const pair<K,V>& kv):_left(nullptr),_right…

阅读更多...

Mybatis框架相关问题

Mybatis框架相关问题

HashMap相关问题 Mybatis框架相关问题一、MyBatis框架是如何实现分页的？二、MyBatis框架里面的缓存机制是怎么回事？一级缓存二级缓存一、MyBatis框架是如何实现分页的？ 分页分为两种： 逻辑分页：将所有数据查询出来…

阅读更多...

CBA全明星急需改革但先不谈！不如先学学如何尊重球迷

CBA全明星急需改革但先不谈！不如先学学如何尊重球迷

直播吧指定地址：www.bjcenn.com 3月4日讯昨晚CBA全明星正赛，南区明星队138-122击败北区明星队。媒体人三土带刺更博长文总结了本次全明星，原文如下： 如何总结这次全明星？ 又一届CBA全明星周末结束，关…

阅读更多...

9.10目标和（LC494-M）

9.10目标和（LC494-M）

算法： 加法的绝对值的集合left 减法的绝对值的集合right nums集合的总和sum 这里的left和right都是绝对值： leftrightsum → rightsum-left left-righttarget → left-(sum-left) target → left (target sum)/2 ，target …

阅读更多...

充电桩组装行业生产管理MES系统解决方案

充电桩组装行业生产管理MES系统解决方案

充电桩组装行业MES系统是一个综合生产管理系统，融合了工厂企业必要的销售、物流和制造管理等全公司基础业务以及生产计划和现场监测管理。通过结合工业物联网(IIoT)解决方案，将所有重要生产设备进行关联，实现工厂数字化、可视化管理。通过系统…

阅读更多...

云计算 2月28号（linux的磁盘分区）

云计算 2月28号（linux的磁盘分区）

一存储管理主要知识点: 基本分区、逻辑卷LVM、EXT3/4/XFS文件系统、RAID 初识硬盘机械 HDD 固态 SSD SSD的优势 SSD采用电子存储介质进行数据存储和读取的一种技术，拥有极高的存储性能，被认为是存储技术发展的未来新星。与传统硬盘相比&#xff0c…

阅读更多...

Python - getpass

Python - getpass

文章目录关于 getpass基本使用语法说明其它关于 getpass getpass 是 Python 自带标准库 Python 官方文档 - getpass https://docs.python.org/3/library/getpass.html 基本使用我们在看视频教程中，老师如果不想在代码中暴露 token、密码之类的信息&#xff0c…

阅读更多...

day03_Vue_Element

day03_Vue_Element

文章目录 01.Ajax1.1 Ajax 概述1.2 同步异步1.3 原生Ajax 2. Axios2.1 Axios的基本使用2.2 Axios快速入门2.3请求方法的别名2.4 案例 3 前后台分离开发3.1 前后台分离开发介绍 04 YAPI4.1 YAPI介绍4.2 接口文档管理 05 前端工程化5.1 前端工程化介绍5.2 前端工程化入门5.2.1 环…

阅读更多...

推荐文章

最新文章