数据的解析的介绍(1)

news2024/12/26 2:42:42

1.xpath

注意:提前安装xpath插件
(1)打开chrome浏览器
(2)点击右上角小圆点
(3)更多工具
(4)扩展程序
(5)拖拽xpath插件到扩展程序中
(6)如果crx文件失效,需要将后缀修改zip
(7)再次拖拽
(8)关闭浏览器重新打开
(9)ctrl + shift + x
(10)出现小黑框

出现这个表示已经安装好了
请添加图片描述

xpath基本语法:

1.路径查询 //:查找所有子孙节点,不考虑层级关系 / :找直接子节点
2.谓词查询 //div[@id] //div[@id=“maincontent”]
3.属性查询 //@class
4.模糊查询 //div[contains(@id, “he”)] //div[starts‐with(@id, “he”)]
5.内容查询 //div/h1/text() 6.逻辑运算 //div[@id=“head” and @class=“s_down”] //title | //price

1.安装lxml库
pip install lxml ‐i https://pypi.douban.com/simple
2.导入lxml.etree
from lxml import etree
3.etree.parse()
解析本地文件 html_tree = etree.parse(‘XX.html’)
4.etree.HTML() 服务器响应文件
html_tree = etree.HTML(response.read().decode(‘utf‐8’)
5.html_tree.xpath(xpath路径)

2.BeautifulSoup

1.BeautifulSoup简称: bs4
2.什么是BeatifulSoup? BeautifulSoup,和lxml一样,是一个html的解析器,主要功能也是解析和提取数据
3.优缺点? 缺点:效率没有lxml的效率高 优点:接口设计人性化,使用方便
注意:默认打开文件的编码格式gbk所以需要指定打开编码格式

3.JsonPath

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/192922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

王道操作系统笔记(五)———— 经典同步问题

前言:PV 操作题目分析步骤 关系分析: 找出题目中描述的各个进程,分析它们之间的同步、互斥关系。整理思路: 根据各进程的操作流程确定 P、V 操作的大致顺序。设置信号量: 并根据题目条件确定信号量初值。(…

数据结构与算法基础——栈和队列

栈只能在表尾进行插入删除操作 队列先进先出 队列和栈都是线性表,不过是插入和删除的 位置被限制了。 队列头进尾出

Dubbo 入门系列之基于 Dubbo API 开发微服务应用

目标 从零上手开发基于 Dubbo 的微服务 难度 低 环境要求 系统:Windows、Linux、MacOS JDK 8 及以上(推荐使用 JDK17) Git IntelliJ IDEA(可选) Docker (可选) 动手实践 本章将通过手把…

网络编程-UDP数据报套接字

专栏简介: JavaEE从入门到进阶 题目来源: leetcode,牛客,剑指offer. 创作目标: 记录学习JavaEE学习历程 希望在提升自己的同时,帮助他人,,与大家一起共同进步,互相成长. 学历代表过去,能力代表现在,学习能力代表未来! 目录 1. 网络编程基础 1.1 为什么需要网络编程? 1.2 什…

好友关注-Feed流实现方案

9.3 好友关注-Feed流实现方案 当我们关注了用户后,这个用户发了动态,那么我们应该把这些数据推送给用户,这个需求,其实我们又把他叫做Feed流,关注推送也叫做Feed流,直译为投喂。为用户持续的提供“沉浸式”…

简聊商城项目的表设计

零、前言 1、优惠卷设计 电商项目中的优惠券系统这样设计,同事直呼 666 ! 2、SPU和SKU的定义及他们之间的关系 SPU全称Standard Product Unit,即标准化产品单元。 简单理解就是某一种产品。 SKU全称Stock Keeping Unit,即库存量…

ChatGPT官方API可以抢先体验了

ChatGPT官方API目前还在内测当中,OpenAI官网上也没有任何接口介绍和文档。这对于开发和调用来说不怎么方便。但是,比较好的地方在于内测过程中调用是免费的,没有次数限制。此外,API接口调用不需要梯子或代理(使用代理反…

【原创】如何做一张原创8BIT音乐的NES音乐卡片

我陷入了深思。。。。。。 第一步是创作一首8BIT音乐。我介绍两个NES用的音乐工具:FamiTracker 和 FamiStudio。 选FamiTracker的原因是,有完美教程呀。红鸡将他的教程放到B站了:红激教你做音乐 一共11集,非常亲民地道的教学&a…

C++11 lambda表达式

作者:小萌新 专栏:C进阶 作者简介:大二学生 希望能和大家一起进步! 本篇博客简介:介绍C11的lambda表达式 lambda表达式lambda表达式的概念lambda表达式语法lambda表达式交换两个数lambda表达式的底层原理lambda表达式的…

【ChatGPT 中文版小程序】无需注册体验 ChatGPT 的攻略

本文导读什么是ChatGPT?ChatGPT能做什么?功能测试如何解锁有趣功能?我想部署同样的一个小程序,请问如何做?什么是ChatGPT? 最近网上非常火爆的CHATGPT,它是OpenAI开发的一款开源的自然语言处理…

专访量子计算上市公司IonQ CEO

(图片来源:网络)IonQ的CEO Peter Chapma,从70年代中期就从事高科技行业,至今已有45年左右。在接受媒体采访时,Peter Chapman谈到IonQ扩展计算机和提供业务价值的计划、量子客户的最佳应用程序开发合作伙伴、…

DEFCON议题解读|Dll劫持新思路——修改环境变量

简介 在2022年的Defcon大会上,安全研究人员Wietze Beukema通过对进程级环境变量的研究,提出了一种Dll劫持新思路,下面就其中涉及的技术点展开介绍。 **01 **环境变量 每一个进程都有一个环境块,其中包含一组环境变量及其值。有两种类型的环…

RabbitMQ的消息模型

文章目录1、简单队列2、work 模式3、发布/订阅模式4、路由模式FanoutDirect5、主题模式6.工作模式总结7、四种交换器RabbitMQ官方提供了5个不同的Demo示例,对应了不同的消息模型: 1、简单队列 一个生产者对应一个消费者!! publi…

Linux shell 命令行环境下使用阿里云盘

阿里云盘在内测的时候我就在使用,整体体验相当的好,最起码不会限速,比起下载速度只有十几 KB 的某垃圾云盘要强太多了。 当然除了使用各系统的客户端进行下载之外,我还想要在命令行进行操作,主要原因也是我有一台 NAS…

AcWing 487. 金明的预算方案(有依赖的背包问题 + 分组背包问题)

AcWing 487. 金明的预算方案一、问题二、分析三、代码一、问题 二、分析 这道题属于一个背包问题,但是这道题中有一个很神奇的条件。就是我们想要购买某个物品的附件的话,前提是我们要购买这个物品的主件。 因此,我们可以将这道题画成下面这…

Java高手速成 | EL表达式语言

本文主要讲解EL表达式语言的作用、基本语法以及运算符。 01、EL的作用 当需要在JSP页面显示变量以及JavaBean对象时&#xff0c;可以使用JSP的表达式&#xff0c;如<%变量%>的形式&#xff0c;也可以直接使用如<%out.println(变量)%>的Java输出语句。尤其当JSP页…

C语言学习笔记-循环

有的时候&#xff0c;我们可能需要多次执行同一块代码。一般情况下&#xff0c;语句是按顺序执行的&#xff1a;函数中的第一个语句先执行&#xff0c;接着是第二个语句&#xff0c;依此类推。 编程语言提供了更为复杂执行路径的多种控制结构。 循环语句允许我们多次执行一个…

硬核工厂!钢厂远程监管,三维组态监控 HMI

钢铁行业作为我国的支柱产业&#xff0c;也是我国能源消耗的重点行业之一&#xff0c;随着国家节能减排政策的推进&#xff0c;有效实施能源管控是企业提高能源绩效、降低能源成本和提高核心竞争力的重要途径。通过对钢铁企业能耗现状和能源管理模式的分析可以得知&#xff0c;…

GitHub中如何创建自己的存储库?(图文详解)

前言 &#x1f4dc; “ 作者 久绊A ” 专注记录自己所整理的Java、web、sql等&#xff0c;IT技术干货、学习经验、面试资料、刷题记录&#xff0c;以及遇到的问题和解决方案&#xff0c;记录自己成长的点滴 目录 一、创建自己的存储库&#xff1f; 二、详细介绍 1、Reposito…

微前端——一个属于前端的时代

关于微前端为什么需要微前端&#xff1f;What&#xff1f;什么是微前端Why&#xff1f;为什么去使用微前端How&#xff1f;怎样落地微前端Where&#xff1f;在什么场景下使用微前端CSS 隔离方案JavaScript 沙箱机制快照沙箱Proxy 代理沙箱legacySandbox(单例沙箱)proxySandbox(…