20.BeautifulSoup库的安装及导入

news2025/1/12 18:15:52

文章目录

    • 1.BeautifulSoup库简介
    • 2.BeautifulSoup库的安装
    • 3.BeautifulSoup和beautifulsoup4的区别
    • 4.获取网页源代码知识回顾
      • 4.1 手动获取网页的源代码
      • 4.2 requests库获取网页的源代码
    • 5. 利用bs4库输出网页源代码
    • 6.bs4库的导入语法

1.BeautifulSoup库简介

BeautifulSoup库是Python的一个解析文档库。

BeautifulSoup库提供了一些简单的方法来遍历解析HTML和XML文档,并提供了一些方便的方法来搜索和操作文档中的数据。

BeautifulSoup库可以帮助我们快速而方便地从网页中提取所需的信息,例如标题、链接、段落等。

【官方网站】

https://www.crummy.com/software/BeautifulSoup/

2.BeautifulSoup库的安装

BeautifulSoup是Python的第三方库,使用前需要先进行安装。

【以win10系统为例】

  1. 点击任务栏中的放大镜
  2. 在搜索框中输入cmd。
  3. 右键单击【命令提示符】。
  4. 选择【以管理员身份运行】。

在这里插入图片描述

  1. 在【命令提示符】界面输入下面的安装命令。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ beautifulsoup4

注意这里安装的库名为beautifulsoup4,而不是BeautifulSoup

beautifulsoup4中最后面的数字4表示库的版本。

【命令解析】

install [ɪnˈstɔːl]:安装。

  • pip: 是Python的包管理工具,用于安装、升级和卸载Python包。
  • install: 是pip的一个子命令,用于安装Python包。
  • -i: 是pip install的一个选项,用于指定包的索引地址。
  • https://pypi.tuna.tsinghua.edu.cn/simple/: 是一个包的索引地址,指定了从该地址下载包,可以替换成其它地址。
  • beautifulsoup4是库名,这里替换成你要安装的任何库名。
  • 库名和前面的索引地址之间有1个空格。
  1. 出现【Successfully installed beautifulsoup4…】表示安装成功。

在这里插入图片描述

3.BeautifulSoup和beautifulsoup4的区别

BeautifulSoup和beautifulsoup4实际上是同一个库的不同版本。

BeautifulSoup是一个用于解析HTML和XML文档的Python库,它提供了一种简单的方式来遍历文档树、搜索特定的元素以及对文档进行修改。

BeautifulSoup最初由Leonard Richardson开发,目前最新的版本是3.2.2。

beautifulsoup4是BeautifulSoup的第四个主要版本,也是目前最新的版本。

它在功能上与之前的版本相似,但有一些改进和新增的功能。

beautifulsoup4支持更多的解析器,包括Python标准库中的html.parser、lxml、html5lib等。

此外,beautifulsoup4还提供了一些新的方法和属性,使得解析和处理文档更加方便。

因此,如果你要使用BeautifulSoup库,建议使用最新的beautifulsoup4版本,以获得更好的功能和性能。

4.获取网页源代码知识回顾

【要访问的网页】

http://python123.io/ws/demo.html

4.1 手动获取网页的源代码

  1. 打开浏览器,在网页中输入上面的网址。
  2. 鼠标右键点击【查看网页源代码】。

在这里插入图片描述

得到的网页源代码如下所示:

在这里插入图片描述

4.2 requests库获取网页的源代码

【代码示例】

import requests
url = 'http://python123.io/ws/demo.html'

# r是变量名,数据类型为Response对象
r = requests.get(url)

# 查看对象的属性语法:对象.属性
# r是对象名
# text是Response对象的属性,作用是输出网页源代码,类型为字符串数据
html = r.text

print(type(html))
print(html)
<class 'str'>
<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>
</body></html>

输出的html数据类型为字符串。
html存储的就是网页的源代码。

5. 利用bs4库输出网页源代码

【beautifulsoup4的安装命令】

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ beautifulsoup4

【温馨提示】

我们在安装的时候使用的库名为beautifulsoup4,但在编写程序时我们通常简写为bs4

通过bs4我们也可以输出网页的源代码。

【代码示例】

import requests
url = 'http://python123.io/ws/demo.html'

# r是变量名,数据类型为Response对象
r = requests.get(url)

# 查看对象的属性语法:对象.属性
# r是对象名
# text是Response对象的属性,作用是输出网页源代码,类型为字符串数据
html = r.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(html , "html.parser")
print(soup)
<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a> and <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>.</p>
</body></html>

利用bs4库我们也同样得到了网页的源代码。

6.bs4库的导入语法

from bs4 import BeautifulSoup
  • bs4是库名。
  • BeautifulSoup是bs4库的类。
  • 上述代码表示导入bs4库的`BeautifulSoup类。
soup = BeautifulSoup(html , "html.parser")
  • soup是变量名,数据类型为字符串。
  • BeautifulSoup是类名。
  • html是要解析的对象,html存储的是网页的源代码。
  • html.parser是解析器。解析器的知识在后面章节有讲解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/722319.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1.监控分布式--zabbix

文章目录 监控分布式-zabbix、prometheus概念工作原理功能组件部署zabbix安装Nginx和PHP环境部署数据库编码安装zabbix编译安装zabbix server客户端安装zabbix agent服务 监控分布式-zabbix、prometheus 利用一个优秀的监控软件&#xff0c;我们可以: 通过一个友好的界面进行…

NGINX+Tomcat负载均衡、动静分离集群

目录 前言 一、NGINX正向代理与反向代理 1.1、NGINX正向代理 1.2、NGINX反向代理 1. 2.1Nginx配置反向代理的主要参数 二、负载均衡 三、NGINX动静分离集群 3.1动静分离原理 四、NginxTomcat动静分离 4.1搭建nginx代理服务器192.168.14.100 4.1.1安装 NGINX依赖环境 …

创建UI组件库后上传NPM

上篇已经讲了如何创建自己的组件库&#xff0c;这篇讲怎么上传npm后&#xff0c;可以下载使用 1.首先看下组件的文件结构 在index.js中要写上每个组件可以按需引用的条件 import Button from "./src/button";Button.install function(Vue) {Vue.component(Button.…

Tkinter_使用Progressbar创建和管理进度条

前言 Progressbar是Tkinter库中的一个小部件&#xff0c;用于创建和管理进度条。它可以在图形用户界面中显示任务的进度&#xff0c;并提供了多种样式和配置选项。 使用Progressbar&#xff0c;你可以按照固定或不确定的进度展示任务的进行状态。它可以显示任务完成的百分比&am…

“this“ 隐式具有类型 “any“,因为它没有类型注释。

在 tsconfig.json文件中 将 "noImplicitThis" 改为false "noImplicitThis": false,

工业互联网如何促进传统制造业的高效生产?

工业互联网&#xff0c;也称为工业物联网&#xff08;IIoT&#xff09;&#xff0c;是指将联网设备和系统集成到传统制造流程中。它结合了传感器、数据分析、机器学习和自动化&#xff0c;以优化和提高制造各个方面的效率。工业互联网促进传统制造业高效生产的方式有&#xff1…

机器学习、监督学习、无监督学习基本概念

- 机器学习 机器学习是一门多领域交叉学科&#xff0c;涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为&#xff0c;以获取新的知识或技能&#xff0c;重新组织已有的知识结构使之不断改善自身的性能。机器学习有…

Nginx反向代理提示413 Request Entity Too Large

请求返回的内容如下 <html> <head><title>413 Request Entity Too Large</title></head> <body> <center><h1>413 Request Entity Too Large</h1></center> <hr><center>nginx/1.20.2</center>…

BPM工作流引擎优势

什么是BPM工作流引擎&#xff1f; BPM工作流引擎是对企业的业务进行的管理&#xff0c;是一个开放性的平台。它是BPM与工作流引擎的结合。不仅能够实现所有OA的功能&#xff0c;还能够实现以端到端为中心的协作&#xff0c;重视企业从战略到执行自上而下的流程化、规范化管理&a…

用OpenCV创建一张类型为CV_8UC1的单通道随机灰度图像

#include <iostream> #include <opencv2/imgcodecs.hpp> #include <opencv2/opencv.hpp> #include <opencv2/highgui.hpp>int

差分进化算法(Differential Evolution,DE,附简单案例及详细matlab源码)

作者&#xff1a;非妃是公主 专栏&#xff1a;《智能优化算法》 博客地址&#xff1a;https://blog.csdn.net/myf_666 个性签&#xff1a;顺境不惰&#xff0c;逆境不馁&#xff0c;以心制境&#xff0c;万事可成。——曾国藩 文章目录 专栏推荐序一、概论二、差分进化算法&a…

7、Maxwell安装部署

1、Maxwell简介 1.1 Maxwell概述 Maxwell 是由美国Zendesk公司开源&#xff0c;用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作&#xff08;包括insert、update、delete&#xff09;&#xff0c;并将变更数据以 JSON 格式发送给 Kafka、Kinesi等…

java项目之KTV点歌系统源码(ssm+jsp+mysql)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的KTV点歌系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 &#x1f495;&#x1f495;作者&#xff1a;风歌&#xff0…

FPGA实验六:PWM信号调制器设计

目录 一、实验目的 二、设计要求 三、实验代码 1.顶层文件代码 2.仿真文件部分代码 3.系统工程文件 四、实验结果及分析 1、引脚锁定 2、仿真波形及分析 3、下载测试结果及分析 五、实验心得 一、实验目的 &#xff08;1&#xff09;掌握通信信号调制过程及实现原理…

Linux调优–I/O 调度器

Linux 的 I/O 调度器是一个以块式 I/O 访问存储卷的进程&#xff0c;有时也叫磁盘调度器。Linux I/O 调度器的工作机制是控制块设备的请求队列&#xff1a;确定队列中哪些 I/O 的优先级更高以及何时下发 I/O 到块设备&#xff0c;以此来减少磁盘寻道时间&#xff0c;从而提高系…

Android TEE可信计算环境与TrustZone基础

文章目录 前言可信计算环境TEE嵌入式安全现状现有的TEE分类TEE的应用场景TEE存在必要性 TrustZone移动端数据隔离安全/非安全世界CPU的特权等级TrustZone的结构CA与TA通信流程 TEE安全设计系统总线设计内存隔离机制安全启动机制安全通信机制 总结 前言 先引用 《可信计算&…

Java中规模软件开发实训——简单计算器制作

✨博主&#xff1a;命运之光 &#x1f338;专栏&#xff1a;Python星辰秘典 &#x1f433;专栏&#xff1a;web开发&#xff08;html css js&#xff09; ❤️专栏&#xff1a;Java经典程序设计 ☀️博主的其他文章&#xff1a;点击进入博主的主页 前言&#xff1a;在现代社会中…

springcloud+docker+k8s发布安装第三方插件脚本

Dockerfile 安装第三方依赖插件软件 &#xff0c;以及构建镜像 #基础镜像&#xff0c;如果本地仓库没有&#xff0c;会从远程仓库拉取 openjdk:8 FROM docker.io/centos:centos7 #暴露端口 EXPOSE 9311 # 避免centos中文乱码 ENV LANG en_US.utf8 #容器中创建工作目录 WORKDIR …

uni-app 从零开始第二章:hello world

一、新建项目 选择 默认模板&#xff0c;填写项目名&#xff0c;然后点击创建&#xff0c;我这里选择的是 vue3&#xff0c;大家自行选择&#xff0c;默认是2 二、 运行项目到各个平台 注意&#xff0c;这里需要提前开启 微信开发者工具的端口 同样的&#xff0c;需要将mumu模…

DAY39:贪心算法(七)根据身高重建队列(注意思路)+最少箭引爆气球(重叠区间)

文章目录 406.根据身高重建队列&#xff08;注意思路&#xff09;思路两个维度降序排序注意点 完整版vector容器插入相关复习为什么能直接根据ki数值插入ki位置的下标 时间复杂度vector-insert操作存在的问题链表优化版时间复杂度list和vector的插入与访问操作区别 452.最少弓箭…