Python爬虫入门教程,BeautifulSoup基本使用及实践

news2024/11/24 20:24:51

Python爬虫入门教程,BeautifulSoup基本使用及实践

爬虫,是学习Python的一个有用的分支,互联网时代,信息浩瀚如海,如果能够便捷的获取有用的信息,我们便有可能领先一步,而爬虫正是这样的一个工具。

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。由于 BeautifulSoup 是基于 Python,所以相对来说速度会比另一个 Xpath 会慢点,但是其功能也是非常的强大,本文会介绍该库的基本使用方法,帮助读者快速入门。

网上有很多的学习资料,但是超详细学习内容还是非官网莫属,资料传送门:

英文官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

中文官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

本文的主要内容如下:

img

安装和使用

安装

安装过程非常简单,直接使用pip即可:

pip install beautifulsoup4

复制

上面安装库最后的4是不能省略的,因为还有另一个库叫作 beautifulsoup,但是这个库已经停止开发了。

因为BS4在解析数据的时候是需要依赖一定的解析器,所以还需要安装解析器,我们安装强大的lxml:

pip install lxml

复制

在python交互式环境中导入库,没有报错的话,表示安装成功。

img

使用

使用过程直接导入库:

from bs4 import BeautifulSoup

复制

解析原理

解析原理

  • 实例化一个BeautifulSoup对象,并且将本地或者页面源码数据加载到该对象中
  • 通过调用该对象中相关的属性或者方法进行标签定位和数据提取

如何实例化BeautifulSoup对象

  1. 将本地的HTML文档中的数据加载到BS对象中
  2. 将网页上获取的页面源码数据加载到BS对象中

案例解析

原数据

假设我们现在本地有一个HTML文件待解析,具体内容如下,数据中有各种HTML标签:html、head、body、div、p、a、ul、li等

img

加载数据

from bs4 import BeautifulSoup

fp = open('./test.html','r',encoding='utf-8')  # 打开本地文件
soup = BeautifulSoup(fp,'lxml')
soup

复制

img

所有的数据解析都是基于soup对象的,下面开始介绍各种解析数据方法:

soup.tagName

soup.TagName返回的是该标签第一次出现的内容,以a标签为例:

img

数据中多次出现a标签,但是只会返回第一次出现的内容

img

我们再看下div标签:

img

出现了2次,但是只会返回第一次的内容:

img

soup.find(‘tagName’)

find()主要是有两个方法:

  • 返回某个标签第一次出现的内容,等同于上面的soup.tagName
  • 属性定位:用于查找某个有特定性质的标签

1、返回标签第一次出现的内容:

比如返回a标签第一次出现的内容:

img

再比如返回div标签第一次出现的内容:

img

2、属性定位

比如我们想查找a标签中id为“谷歌”的数据信息:

img

在BS4中规定,如果遇到要查询class情况,需要使用class_来代替:

img

但是如果我们使用attrs参数,则是不需要使用下划线的:

img

soup.find_all()

该方法返回的是指定标签下面的所有内容,而且是列表的形式;传入的方式是多种多样的。

1、传入单个指定的标签

img

image-20210523170401516

上面返回的是列表形式,我们可以获取我们想要的内容:

img

2、传入多个标签(列表形式)

需要主要返回内容的表达形式,每个标签的内容是单独显示的

img

3、传入正则表达式

比如查看以a开头标签的全部内容

img

查看以li标签开头的全部内容:

img

选择器soup.select()

主要是有3种选择器,返回的内容都是列表形式

  • 类选择器:点
  • id选择器:#
  • 标签选择器:直接指定标签名

1、类选择器

img

2、id选择器

img

img

3、标签选择器

直接指定li标签

img

4、选择器和find_all()可以达到相同的效果:

img

soup.tagName和soup.find(‘tagName’)的效果也是相同的:

img

层级选择器使用

在soup.select()方法中是可以使用层级选择器的,选择器可以是类、id、标签等,使用规则:

  • 单层:>
  • 多层:空格

1、单层使用

img

2、多层使用

img

获取标签文本内容

获取某个标签中对应文本内容主要是两个属性+一个方法:

  • text
  • string
  • get_text()

1、text

img

2、string

img

3、get_text()

img

3者之间的区别

# text和get_text():获取标签下面的全部文本内容
# string:只能获取到标签下的直系文本内容

复制

img

获取标签属性值

1、通过选择器来获取

img

2、通过find_all方法来获取

img

BeautifulSoup实战

下面介绍的是通过BeautifulSoup解析方法来获取某个小说网站上古龙小说名称和对应的URL地址。

网站数据

我们需要爬取的数据全部在这个网址下:https://www.kanunu8.com/zj/10867.html,右键“检查”,查看对应的源码,可以看到对应小说名和URL地址在源码中位置

每行3篇小说在一个tr标签下面,对应的属性href和文本内容就是我们想提取的内容。

img

获取网页源码

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

url = 'https://www.kanunu8.com/zj/10867.html'
headers = {'user-agent': '个人请求头'}

response = requests.get(url = url,headers = headers)
result = response.content.decode('gbk')   # 该网页需要通过gbk编码来解析数据
# result

复制

实例化BeautifulSoup对象

soup1 = BeautifulSoup(result,'lxml')
# print(soup1.prettify())  美化输出源码内容

复制

获取名称和URL地址

1、先获取整体内容

两个信息全部指定a标签中,我们只需要获取到a标签,通过两个属性href和target即可锁定:

# 两个属性href和target,不同的方法来锁定

information_list = soup1.find_all('a',href=re.compile('^/book'),target='_blank')
information_list

复制

img

2、再单独获取两个信息

通过属性来获取URL地址,通过文本来获取名称

url_list = []
name_list = []

for i in information_list:
    url_list.append(i['href'])  # 获取属性
    name_list.append(i.text)  # 获取文本

复制

img

img

3、生成数据帧

gulong = pd.DataFrame({
    "name":name_list,
    "url":url_list}
)

gulong

复制

img

我们发现每部小说的具体地址其实是有一个公共前缀的:https://www.kanunu8.com/book,现在给加上:

gulong['url'] = 'https://www.kanunu8.com/book' + gulong['url']   # 加上公共前缀
gulong.head()

复制

img

另外,我们想把书名的《》给去掉,使用replace替代函数:

gulong["name"] = gulong["name"].apply(lambda x:x.replace("《",""))  # 左边
gulong["name"] = gulong["name"].apply(lambda x:x.replace("》","")) # 右边

# 保存
gulong.to_csv("gulong.csv",index=False)  # 保存到本地的csv文件

复制

最后显示的前5行数据:

img

总结

本文从BeautifulSoup4库的安装、原理以及案例解析,到最后结合一个实际的爬虫实现介绍了一个数据解析库的使用,文中介绍的内容只是该库的部分内容,方便使用者快速入门,希望对读者有所帮助

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/526352.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

大数据之PySpark的RDD创建和分区

文章目录 前言一、RDD创建二、RDD分区数总结 前言 #博学谷IT学习技术支持# 上篇文章对PySpark的RDD做了简单的介绍,以及总结了RDD的特性,该篇文章主要介绍RDD的创建方式,PySpark的RDD创建方式主要有两种,一种是在程序中直接创建&…

11 dubbo源码学习_dubbo协议通信

dubbo在通信上也支持非常多的网络协议,而dubbo协议属于dubbo框架自研,整体协议也比较有代表性,采用定长协议头+变长协议休的形式; 1. dubbo协议格式 Magic - Magic High & Magic Low (16 bits)标识协议版本号,Dubbo 协议:0xdabbReq/Res (1 bit)标识是请求或响应。请…

「OceanBase 4.1 体验」|OCP Express

文章目录 一、简介二、特性介绍2.1 数据库管理2.2 数据库可观测性 一、简介 OCP Express 是一个基于 Web 的 OceanBase 4.x 轻量化管理工具,作为 OceanBase 数据库的工具组件,它集成在 OceanBase 数据库集群中,支持数据库集群关键性能指标查看…

MyBatis第一章 搭建MyBatis的运行环境

这里写自定义目录标题 一 创建Maven工程1 打包方式设置为jar2 引入依赖进去 二 创建MyBatis的核心配置文件1 配置核心文件2 创建mapper接口3 创建mabatis的映射文件4 测试文件的写法5 需要代码可以访问gitee仓库去看看6 log4j的日志功能 三 先改方法,后改映射文件1 …

Qt开发笔记(Qt5.9.9下载安装环境搭建win10)

#1 Qt下载网站(国内、国外镜像) #2 Qt5.9.9安装选项 #3 配置系统环境变量 #4 创建测试项目 #1 Qt下载网站(国内、国外镜像) 官方下载地址(慢):http://download.qt.io/ 国内镜像网站 这里给大家…

私有jar包发布到maven中央仓库

一、注册Jira Sonatype JIRAhttps://issues.sonatype.org/secure/Dashboard.jspa 二、新建issue 提交后,等待5-10分钟,会收到中央机器人的评论,如下: 在这里,我没有自己的域名,此时: 1、机器人…

网络编程 lesson2 TCP基础编程

目录 sockt介绍 socket类型 socket所在位置 端口号(重点) 端口号作用 端口号范围 字节序(面试常见) 大端序 小端序 验证当前主机字节序 字节序转换和IP转换函数接口(常用) TCP编程 函数接口 …

[230517] TPO71 | 2022年托福阅读真题第5/36篇 | Minoan Palaces | 14:51~16:00+22:00~23:20

7102 Minoan Palaces 目录 7102 Minoan Palaces 正文 题目 Paragraph 1 问题 1 Paragraph 2 问题 2 Paragraph 3 问题 3 4 Paragraph 4 问题 5 6 Paragraph 5 问题 7 8 Paragraph 2-问题9 全篇-问题10 正确率:7/10 正文 Paragraph 1 The…

JavaScript实现输入指定行数,输出三角形的代码

以下为实现输入指定行数,输出三角形的程序代码和运行截图 目录 前言 一、实现输入指定行数,输出三角形 1.1 运行流程及思想 1.2 代码段 1.3 JavaScript语句代码 1.4 运行截图 前言 1.若有选择,您可以在目录里进行快速查找;…

HCIP周日ISIS

ISIS:中间系统到中间系统 ES:终端系统 ES-IS:终端系统到中间系统 ISIS是一种链路状态协议,使用SPF算法 早期的ISIS是基于CLNP(无连接网络协议)而开发的,为了继续追逐TCP/IP的发展&#xff0…

关于getchar的用法及实例解析

一、getchar()函数是什么? getchar()函数是获取一个字符。说到这里就有人问了,为什么他的返回类型是int? 因为实际上EOFend of file(-1),EOF实际上就等于-1。当你返回失败的时候返回的是-1,所以…

计算机网络(四上)——网络层!!!重中之重

先来个整章的大框架,看起来也没有多少东西(bushi)。 这篇文章,就先写 一、网络层的功能 互联网在网络层的设计思路是,向上只提供简单灵活的、无连接的、尽最大努力交付的数据报服务 1.1.异构网络互联 1.网络互联是…

Springboot +Flowable,流程表单应用之动态表单

一.简介 整体上来说,我们可以将Flowable 的表单分为三种不同的类型: 动态表单 这种表单定义方式我们可以配置表单中每一个字段的可读性、可写性、是否必填等信息,不过不能定义完整的表单页面。外置表单 外置表单我们只需要定义一下表单的 k…

kafka 从入门到精通

kafka 从入门到精通 安装 zookeeper模式 创建软件目录 mkdir /opt/soft cd /opt/soft下载 wget https://downloads.apache.org/kafka/3.4.0/kafka_2.13-3.4.0.tgz解压 tar -zxvf kafka_2.13-3.4.0.tgz 修改目录名称 mv kafka_2.13-3.4.0 kafka配置环境变量 vim /etc/pr…

C51基础之单片机编程中通用指针和定向指针

通用指针和定向指针 参考资料:Keil > Help > uVision Help > Cx51 Compiler User’s Guide > Language Extensions > Pointers 一、Cx51指针的几种用法 int *ptr; /* 指向:任意空间的int变量, 存储在&…

什么是Java中的finalize()方法?它有什么作用

在Java中,finalize()方法是一个由Object类定义的方法,用于在对象被垃圾回收器回收之前执行一些清理工作。finalize()方法是一个被保护的方法,可以被子类重写,但是通常情况下不需要显式地调用该方法。 finalize()方法的作用 在Jav…

MYSQL原理、设计与应用

概述 数据库(Database,DB)是按照数据结构来组织、存储和管理数据的仓库,其本身可被看作电子化的文件柜,用户可以对文件中的数据进行增删改查等操作。 数据库系统是指在计算机系统中引入数据库后的系统,除了数据库,还…

首次开通社交账号亲自招聘人才 周星驰都在关注的Web3 你知道是什么吗?

60岁的“星爷”周星驰要进军元宇宙了? 谁能想到,向来低调的他首次注册社交账号,竟是为了发布一条招人信息,挑选的还不是新片男女主角,而是Web3人才,一脚跨界到了互联网科技领域。 今天一整天,…

2022-2023 年度广东省职业院校学生专业技能大赛中职组“网络安全”赛项竞赛任务书(样题)

2022-2023 年度广东省职业院校学生专业技能大赛中职组“网络安全”赛项竞赛任务书(样题) 一、竞赛时间 总计:210 分钟 二、竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 A 模块 A-1 登录安全加固 90 分钟 200…

node笔记_express结合formidable实现前后端的文件上传

文章目录 ⭐前言⭐安装http请求的文件解析依赖库💖 安装 formidable💖 node formidable接受formData上传参数 ⭐上传的页面搭建💖 vue2 element upload💖 node 渲染 上传文件 ⭐后端生成api上传文件到指定目录💖完整的…