2022-11-20-使用BeatuifulSoup进行页面内容的获取

news2026/3/27 19:34:00

一、什么是DOM树

DOM树是一种结构，树是由DOM元素和属性节点组成的，DOM的本质是把html结构化成js可识别的树模型，有了树模型，就有了层级结构，层级结构是指的是元素和元素之间的关系父子、兄弟。
实例：

标题

我的标题

我的链接

二、使用BeatuifulSoup进行页面内容的获取

什么是BeatuifulSoup？
BeautifulSoup是一个Python库，用于解析HTML和XML文档中的数据（结构化数据）。

流程：
①浏览并检查网站/网页
要使用开发者工具导航，右键单击该网页，选择检查。
②创建用户代理
用户代理是客户端（通常是Web浏览器），用于代表用户向Web服务器发送请求。当从同一台机器/系统一次又一次地获取自动化请求时，Web服务器可能会猜测该请求是自动化发送的。它会阻止了该请求。因此，我们可以使用用户代理来伪造浏览器，访问特定网页，从而使服务器认为请求来自原始用户，而不是机器人。

# 创建 User-Agent (可选)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"}# 将User-Agent作为参数与get()请求一起传递
response=requests.get("https://news.buaa.edu.cn/info/1002/57293.htm",headers=headers)

③导入请求库
Requests 请求库允许我们发送 get 请求到Web服务器。
运作方式如下：
import requests 该库以一种易于处理的格式，处理从服务器请求网站的细节。
使用 requests.get(…) 方法访问网站，并将URL 作为参数传递，以便函数知道要访问的位置。
访问get请求的实际主体(返回值是一个请求对象，它还包含一些有用的元信息，如文件类型等)，并使用 .text 属性将其存储在一个变量中。

# 存储网页内容
webpage = response.text
print(response.status_code)200

④使用 BeautifulSoup 库解析HTML
BeautifulSoup是一个Python库，用于解析HTML和XML文档中的数据（结构化数据）。
导入BeautifulSoup库。
创建BeautifulSoup对象。第一个参数表示HTML数据，而第二个参数是解析器。

# 从bs4导入BeautifulSoupfrom bs4 import BeautifulSoup# 从网页内容中创建一个BeautifulSoup对象
soup = BeautifulSoup(webpage, "lxml")

创建BeautifulSoup对象后，我们需要使用BeautifulSoup 库提供给我们的不同选项来导航和查找HTML文档中的元素，并从中抓取数据。
⑤使用 select() 方法，快速找到标签元素
soup.select(‘.subnav’)
三、实现截图

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/20484.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

2022-11-20-使用BeatuifulSoup进行页面内容的获取

我的标题

相关文章

Java语法之多态

HDFS 的 shell操作

Python学习基础笔记八——字典

html网页设计期末大作业_网页设计平时作业(诗词网页 4页)

39-Docker-部署Jenkins

Oracle PrimaveraUnifier成本管理器(Cost Manager)简要介绍

第三章：高精度算法（加、减、乘、除）

CMake中return的使用

CTFHub | Cookie注入

Linux C/C++ 学习笔记（五）：Mysql C/C++编程创建插入读取删除存储过程

计算机视觉之迁移学习中的微调(fine tuning)

javaweb Ajax AXios异步框架 JSON 案例

ArcGIS_将多个点数据整合成一个点数据

牛客网之SQL非技术快速入门(7)-字符串截取、切割、删除、替换

俺把所有粉丝显示在地图上啦~【详细教程+完整源码】

windows中使用curl

剑指 Offer II 026. 重排链表【链表】

Linux用户和权限学习笔记

《Android Studio开发实战从零基础到App上线(第3版)》出版后记

设计模式基础-概括