想学爬虫爬取网页，但是不知道流程？

想学爬虫爬取网页，但是不知道流程？

news2026/4/28 23:49:56

爬取网页总体概述：
1.使用urllib请求网页，获取网页源码。
2.使用bs4配合re正则表达式进行页面数据解析，获取到自己想要的数据。
3.使用pymysql保存到数据库或xlwt保存成excel文件。

温馨提示：学习之前需要先了解py基础知识，urllib库、网页相关知识、bs4库、re库、正则表达式、pymysql库、xlwt库等知识。这里推荐菜鸟教程，地址：点击查看。

一、urllib请求网页

1、通过urllib.request.Request构造request请求，可为request加各类参数，比如常添加的header信息。
在这里插入图片描述

2、将构造好的request请求放置urllib.request.urlopen方法中，方法会返回一个响应response。
在这里插入图片描述

3、使用response.read方法可以获取网页内容。
在这里插入图片描述

二、bs4解析html源码

1、使用BeautifulSoup去解析urllib获取到的html源码。
在这里插入图片描述

2、分析网页，使用find_all找到自己需要的html块。
在这里插入图片描述

三、re正则表达式筛选有用信息

1、使用re.compile方法构建正则表达式。（注意：加上r，避免不必要的字符被转义。）
在这里插入图片描述

2、将html块转换为字符串，通过re.findall+构建的表达式找到我们需要的数据。
在这里插入图片描述

四、保存数据（xlwt、pymysql使用）

1、通过xlwt保存到表格文件

（1）通过xlwt.Workbook创建xls表在这里插入图片描述

（2）通过add_sheet创建sheet表在这里插入图片描述

（3）通过write添加表头在这里插入图片描述

（4）插入数据在这里插入图片描述

2、通过pymysql保存到数据库

（1）初始化数据库在这里插入图片描述

（2）生成游标，编写sql语句在这里插入图片描述

（3）执行sql语句在这里插入图片描述

（4）关闭数据库
在这里插入图片描述

本文以爬取电影为例，编写了代码。源代码仅提供学习使用，请勿用于商业用途。

"IT学习小镇"号内回复“douban”即可获取源码。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/22910.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

PTA题目计算符号函数的值

PTA题目计算符号函数的值

对于任一整数n，符号函数sign(n)的定义如下： 请编写程序计算该函数对任一输入整数的值。输入格式: 输入在一行中给出整数n。输出格式: 在一行中按照格式“sign(n) 函数值”输出该整数n对应的函数值。输入样例1: 10输出样例1: sign(10) 1输入样…

阅读更多...

住宅代理详细介绍——助您快速入门！

住宅代理详细介绍——助您快速入门！

Oxylabs的高级代理池能够为客户提供来自世界各地的1亿多个住宅代理，并且其规模还在不断壮大中，即使是难搞的网络抓取任务也能够处理。住宅代理能轻松从复杂的目标中收集数据，帮助您在无需面对CAPTCHA验证或封锁的情况下实现抓取。想要全方位…

阅读更多...

在 Kubernetes 上最小化安装 KubeSphere

在 Kubernetes 上最小化安装 KubeSphere

文章目录什么是 KubeSphere搭建环境准备工作部署 KubeSphere卸载 KubeSphere常见问题什么是 KubeSphere KubeSphere 是在 Kubernetes 之上构建的面向云原生应用的分布式操作系统，完全开源，支持多云与多集群管理，提供全栈的 IT 自动化运维能力…

阅读更多...

免费公众号题库

免费公众号题库

免费公众号题库本平台优点： 多题库查题、独立后台、响应速度快、全网平台可查、功能最全！ 1.想要给自己的公众号获得查题接口，只需要两步！ 2.题库： 查题校园题库：查题校园题库后台（点击跳转…

阅读更多...

java之《图书管理系统》庖丁解牛

java之《图书管理系统》庖丁解牛

🎇🎇🎇作者： 小鱼不会骑车 🎆🎆🎆专栏： 《java练级之旅》 🎓🎓🎓个人简介： 一名专科大一在读的小比特，努力学习编程是我…

阅读更多...

大数据挖掘建模平台是怎样的？

大数据挖掘建模平台是怎样的？

大数据挖掘建模平台是可视化、一站式、高性能的数据挖掘与人工智能建模服务平台。面向企业级用户的大数据挖掘建模平台。平台采用可视化操作方式，通过丰富内置算法，帮助用户快速、一站式地进行数据分析及挖掘建模，可应用于处理海量数据、高复…

阅读更多...

初识VisionPro应用开发

初识VisionPro应用开发

文章目录一、引言二、VisionPro应用开发指南1. 上手指南1.1. VisionPro开发概述1.2. 高级开发功能2. 选择应用开发路径（方式）2.1. 路径1：用QuickBuild和应用程序向导生成的操作接口进行交互式开发2.2. 路径2：用QuickBuild和自定义…

阅读更多...

MySQL 经典面试题分析（值得收藏）

MySQL 经典面试题分析（值得收藏）

MySQL是程序员面试必问题目点之一，因为 MySQL 几乎占据了数据库的半壁江山。数据库的核心与原理基本是相通的，所以有了 MySQL 的基础之后，再去熟悉其他数据库也是非常快的，那么让我们一起来了解一下MySQL 。 MySQL 有很多存储引擎…

阅读更多...

铁矿行业BI经营分析框架（二）万能框架-增长性、盈利性、流动性

铁矿行业BI经营分析框架（二）万能框架-增长性、盈利性、流动性

有关铁矿行业的一些基础业务知识，铁矿行业的竞争本质上就是规模和成本的竞争。从业务角度探、采、选、冶这四块最重要的就是选矿这个过程。因为国内铁矿品位比较低，大部分都是30%左右的贫矿，所以选矿的成本就比较高。要优化现金成本&#xf…

阅读更多...

为什么推荐 Java 开发人员都学习并使用 Kotlin？

为什么推荐 Java 开发人员都学习并使用 Kotlin？

我使用 Java 已经有很长的时间了，工作中的使用有15年。如果算上在学校的时间的话，那就更长了。Java 的一个很大的优势是平台的开放性。这得益于 Java 字节代码和虚拟机的存在。由于 Java 语言自身的发展速度比较慢，就催生了很多运行在 JVM 上…

阅读更多...

西班牙知名导演：电影产业应与NFT及社区做结合

西班牙知名导演：电影产业应与NFT及社区做结合

潜力博主推荐，点击上面关注博主 ↑ ↑ “OGtown”是华语cryptopunks社区授权的文章专栏 NFT项目走向全球社区。通证一哥：2016年起专注区块链行业相关的研究。中国大陆第一本NFT畅销书作者。加密朋克中文社区的联合发起人。token punk社区发起人 88pu…

阅读更多...

【Linux】---环境变量

【Linux】---环境变量

文章目录环境变量环境变量测试和环境变量相关的命令echoenvexportunsetset环境变量的组织方式main函数的几个参数第三个参数环境变量的全局性环境变量环境变量一般是指在操作系统中用来指定操作系统运行环境的一些参数，例如： 平常我们去执行一个程序一…

阅读更多...

$Multiscale Vision Transformers 论文详解$

Multiscale Vision Transformers 论文详解

Abstract 我们提出了 Multiscale Vision Transformers（MViT）用于视频和图像识别。MViT 是多尺度特征层次结构和Transformer的结合。MViT 有几个通道分辨率尺度块（channel-resoluation scale stages）。从输入分辨率和小通道维度开始…

阅读更多...

JavaScript学习——什么是编程语言？计算机基础

JavaScript学习——什么是编程语言？计算机基础

每篇博文的浪漫主义【Study Vlog #21 | 计划被打断之后的报复性学习 | 喜欢秋天安静的学习时刻】 https://www.bilibili.com/video/BV1b84y1B79c/?share_sourcecopy_web&vd_source385ba0043075be7c24c4aeb4aaa73352 Study Vlog #21 | 计划被打断之后的报复性学习 | 喜欢…

阅读更多...

Android程序设计之学校疫情防控管理

Android程序设计之学校疫情防控管理

基于Android实现的学校疫情防控管理，项目采用SQLite来存储数据。 SQLite 简介 SQLite是一个软件库，实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite是一个增长最快的数据库引擎，这是在普及方面的增长，…

阅读更多...

测试工作的完整流程

测试工作的完整流程

需求评审：确保各部门需求理解一致。计划编写：根据重要核心程度来决定先测哪些功能后测哪些功能，测什么、谁来测、怎么测 a. 测什么：测哪些功能 b. 谁来测：具体的测试人员 c. 怎么测：具体测功能、性能、兼容…

阅读更多...

公众号免费搜题接口

公众号免费搜题接口

公众号免费搜题接口本平台优点： 多题库查题、独立后台、响应速度快、全网平台可查、功能最全！ 1.想要给自己的公众号获得查题接口，只需要两步！ 2.题库： 查题校园题库：查题校园题库后台（点击…

阅读更多...

笔试强训(三十八)

笔试强训(三十八)

目录一、选择题二、编程题2.1 蘑菇矩阵2.1.1 题目2.1.2 题解2.2 红与黑2.2.1 题目2.2.2 题解一、选择题 （1）下列关于URL的描述错误的是（A） A.http表名使用TCP协议 B.又名统一资源定位符，方便确定一个资源，…

阅读更多...

邮件营销：怎么正确地收集邮件地址？

邮件营销：怎么正确地收集邮件地址？

邮件营销提供了收件人和发件人双向沟通的平台，这对于企业来讲是一个很好的开发客户、和客户建立联系的方式。但是想要获得良好的营销效果，前提是我们需要拥有优质的联系人地址列表。怎么正确地收集邮件地址呢？ 一般来讲，有三种邮…

阅读更多...

2023年考PMP证书有什么意义？

2023年考PMP证书有什么意义？

每年都有一个关于 PMP 证书的意义的热门话题，PMP 证书必然是有意义的，不然怎么每年都有那么多人报考呢？ 一、先给大家分析一下PMP 证书的使用场景 1、项目管理岗位招聘的门槛 PMP 是项目管理领域的一个权威公认证书，近几年受到的…

阅读更多...

推荐文章

最新文章