BeautifulSoup4通过lxml使用Xpath,以及获取(定位)元素和其文本或者属性

news2024/12/25 12:47:28

环境:win10,python3.8.10

首先需要安装:beautifulsoup4,lxml

使用命令:

pip38 install beautifulsoup4
pip38 install lxml

安装完毕后查看一下: 

写代码:

from bs4 import BeautifulSoup 
from lxml import etree 
import requests 


URL = "https://www.xxx.com"

HEADERS = ({'User-Agent': 
			'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 \ 
			(KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36',\ 
			'Accept-Language': 'en-US, en;q=0.5'}) 

webpage = requests.get(URL, headers=HEADERS) 
soup = BeautifulSoup(webpage.content, "html.parser") 
dom = etree.HTML(str(soup)) 
print(dom.xpath('//*[@id="firstHeading"]')[0].text) 

这里针对xpath获取(定位)元素的方法,还有几点注意事项: 

(1)一个属性(如property)中包含[即这个属性值是a b c d这样的样式]某个字符串(如og:description)的写法

dom.xpath("//meta[contains(@property,'og:description')]")

(2) 上述代码的结果是一个列表,使用时一般要转成单个(加[0]或者用循环)

(3)获取其标签内的文本用元素.text,获取其某个属性用元素.get('属性')

(4)最后注意一点,浏览器网页F12出来的数据,和selenium、requests出来的数据,有时候是不一样的,要根据你使用的获取响应的实际数据来定位元素。 

上述内容参考:

(1)How to use Xpath with BeautifulSoup ? - GeeksforGeeks

(2)汇总selenium利用xpath等找网页节点的方法_webdriver xpath 查询指定节点下的子节点-CSDN博客

(3)汇总selenium利用xpath等找网页节点的方法(二)-CSDN博客

(4) xpath定位不包含某种属性的元素_xpath 不包含属性-CSDN博客

(5)用selenium和xpath定位元素并获取属性值以及str字符型转json型_python selenium xpath设置元素属性值-CSDN博客

(6)js通过xpath定位元素并且操作元素以下拉框select为例_js xpath-CSDN博客 

(7)bs4(beautifulsoup4)获取div部分文本内容(标签下的文本及子标签文本问题)_beautiful解析一部分div-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1687360.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5.24机器人基础-入门1

参考书籍:《机器人学导论》John.J.Craig 机器人方面的学习和线性代数、矩阵论部分的学习密切相关,建议先学习线性代数会更好理解此部分内容。虽然学了线代但是能忘的都忘得差不多的我要泪目了。本文主要介绍基础的运动学和动力学区别,正向运…

RocketMQ 架构原理

注册中心 注册中心使用得nameserver, nameserver不会进行频繁的读写,所以整体的性能开销小,稳定性也高。 注册中心没隔10s会扫描一次所有的broker,如果2min没有发送心跳过来,就人为挂了,断开连接。此时会更新topic与队…

IEN在Web3.0中的性能与安全优势

随着Web3.0的快速发展,优化网络基础设施变得至关重要。智能生态网络(Intelligent Ecological Network, IEN)作为新一代网络架构,在提升性能与增强安全方面展现出巨大潜力。本文将深入探讨IEN在Web3.0中的技术优势,并展…

Linux安装Docker教程(实测可用)

前言 Docker是一个开源的应用容器引擎,它允许开发者将应用程序及其依赖打包到一个轻量级、可移植的容器中,然后发布到任何流行的Linux机器上。以下是对Docker的具体介绍: 技术起源:容器技术起源于程序员对于环境搭建与应用部署效…

data studio连接到虚拟机上的openGauss

参考:使用DataStudio连接本地虚拟机中的opengauss数据库_big data_白日梦想家_胖七七-华为云开发者联盟 本实验虚拟机安装的是CentOS7 数据库版本是:openGauss-5.0.2-CentOS-64bit-all.tar.gz 1.配置pg_hba.conf 首先使用su - omm登录到omm用户&…

FPGA搭积木之按键消抖(改进版)

目录 1.前言 2.回顾之前的设计 3.基于读者思路的设计 4.ModelSim仿真 1.前言 昨天分享的关于FPGA对机械按键消抖的设计,有读者指出了其中的不足,并给出了他的思路。今天就读者的设计思路,来再做一个按键消抖模块。这个程序大概是大学的时…

arping 一键检测网络设备连通性(KALI工具系列二)

目录 1、KALI LINUX简介 2、arping工具简介 3、在KALI中使用arping 3.1 目标主机IP(win) 3.2 KALI的IP 4、操作示例 4.1 IP测试 4.2 ARP测试 4.3 根据存活情况返回 5、总结 1、KALI LINUX简介 Kali Linux 是一个功能强大、多才多艺的 Linux 发…

建投数据收获客户感谢信

建投数据自2021年提出“以数据为核心的智能科技服务商”,并一直在为“成为国内领先的数字化转型合作伙伴”而努力,在赋能行业客户创造更大价值的同时,也陆续收到来自客户的肯定。 建投数据始终践行“成就客户,创新为要&#xff0…

科技引领乡村振兴新潮流:运用现代信息技术手段,提升农业生产和乡村管理效率,打造智慧化、现代化的美丽乡村

一、引言 随着科技的不断进步,现代信息技术已经渗透到社会的各个领域,成为推动社会发展的重要力量。在乡村振兴战略的背景下,科技的力量同样不容忽视。本文旨在探讨如何运用现代信息技术手段,提升农业生产和乡村管理效率&#xf…

2024 年 电工杯(B题)大学生数学建模挑战赛 | 平衡膳食食谱 | 数学建模完整代码+建模过程全解全析

当大家面临着复杂的数学建模问题时,你是否曾经感到茫然无措?作为2022年美国大学生数学建模比赛的O奖得主,我为大家提供了一套优秀的解题思路,让你轻松应对各种难题。 CS团队倾注了大量时间和心血,深入挖掘解决方案。通…

k8s遇到的错误记录

时隔四年有开始重新鼓捣k8s了,重新安装后遇到的错误记录如下: Error: Package: kubelet-1.14.0-0.x86_64 (kubernetes) Requires: kubernetes-cni 0.7.5 Available: kubernetes-cni-0.3.0.1-0.07a8a2.x86_64 (kubernetes) …

自学有点吃力,需不需要报六西格玛培训班学习?

在追求职业精进和企业管理优化的道路上,六西格玛管理方法论已经成为不少企业和个人的首选。然而,自学六西格玛往往伴随着一系列挑战,让不少学习者感到吃力。面对这样的困境,我们不禁要问:自学有点吃力,到底…

Docker 部署Jenkins

1、运行镜像 docker run --namejenkins \--restartalways \--privilegedtrue \-u root \-p 8080:8080 \-p 50000:50000 \-v /home/docker/jenkins/jenkins_home:/var/jenkins_home \-v /usr/bin/docker:/usr/bin/docker \-v /var/run/docker.sock:/var/run/docker.sock \-e TZ…

二十一、openlayers官网示例Custom Controls解析——自定义控件扩展Control类

官网demo地址: Custom Controls 这个示例讲的是如何自定义控件 首先创建了一个新的类继承了原本的Control,新增了一个button元素,然后调用了super方法将参数传给了父类。 const button document.createElement("button");button.…

《Rust奇幻之旅:从Java和C++开启》第1章Hello world 2/5

讲动人的故事,写懂人的代码 很多程序员都在自学Rust。 🤕但Rust的学习曲线是真的陡,让人有点儿怵头。 程序员工作压力大,能用来自学新东西的时间简直就是凤毛麟角。 📕目前,在豆瓣上有7本Rust入门同类书。它们虽有高分评价,但仍存在不足。 首先,就是它们介绍的Rust新…

[猫头虎分享21天微信小程序基础入门教程] 第11天:小程序的动态数据展示与实时更新

[猫头虎分享21天微信小程序基础入门教程] 第11天:小程序的动态数据展示与实时更新 — 第11天:小程序的动态数据展示与实时更新 📊 自我介绍 大家好,我是猫头虎,一名全栈软件工程师。今天我们继续微信小程序的学习&a…

sCrypt受邀参加#Unlock Bitcoin活动

由Antalpha HackerHouse主办的#Unlock Bitcoin活动将于2024年6月16日至18日在美国拉斯维加斯举办,sCrypt创始人兼CEO刘晓晖将作为演讲嘉宾出席本次活动。 刘晓晖本次演讲的主题是: 《Bitcoin Smart Contracts》 请登录以下网址报名参会: ht…

安全牛专访美创CTO周杰:数据安全进入体系化建设阶段,数据安全管理平台应用正当时

在数字经济时代,数据作为生产要素发挥越来越重要的作用,数据安全也得到了前所未有的重视。而随着数据安全能力已经进入了相对体系化建设的阶段,更加智能化、协同化的新一代数据安全管理平台得到了各类企业组织的广泛关注。 本期牛人访谈邀请到…

新火种AI|复旦团队在“冷冻人脑”领域获得重大进展!人工智能是否会对此形成助力?

​在低温医学领域,“冷冻人脑”技术的研究和突破既是重点,也是难点。因为这项技术关乎着人类是否可以取得一个令人瞩目的突破——人类的生命是否能够得到延续。 早几年,诸如“利用人体冷冻技术将身患绝症的病人保存十几年,几十年…

大疆上云API本地部署与飞机上云

文章目录 前言一、安装基础环境1. EMQX 安装(版本4.4.0)2. MySql 安装(版本8.0.26)3. Redis 安装 二、部署后端(JDK必须11及以上)三、部署前端四、成为大疆开发者五、飞机注册上云六、绑定飞机七、无人机状态查看 前言 大疆上云API官方文档有些写的不是…