Python 解析 html

news2024/9/25 4:20:43

一、场景分析

假设有如下 html 文档:

写一段 python 脚本,解析出里面的数据,包括经度维度。

<div class='storelist'>
    <ul>
        <li lng="100.111111" lat="10.111111">
            <h4>联盟店1</h4>
            <p>
                <br />X市Y区Z街道 1000 号
            </p>
        </li>
        <li lng="101.111111" lat="11.111111">
            <h4>联盟店2</h4>
            <p>
                <br />X市Y区Z街道 1001 号
            </p>
        </li>
        <li lng="102.111111" lat="12.111111">
            <h4>联盟店3</h4>
            <p>
                <br />X市Y区Z街道 1002 号
            </p>
        </li>
    </ul>
</div>

二、步骤

1、安装 BeautifulSoup4 库

pip install bs4
或者
pip install beautifulsoup4

2、脚本内容

store.py 脚本内容如下:

from bs4 import BeautifulSoup

# 官方文档:https://beautifulsoup.readthedocs.io/zh-cn/v4.4.0/#id14

# 输入文档
input_path = r"C:\Users\Administrator\Desktop\py\html\store.html"
# 输出文档
output_path = r"C:\Users\Administrator\Desktop\py\html\data.txt"
# 以 append 追加方式打开输出文档
output_file = open(output_path, 'a', encoding='utf-8')

# 打开 html 输入文档,并使用 Python 标准库 html.parser 解析成 BeautifulSoup 对象
soup = BeautifulSoup(open(input_path, 'r', encoding='utf-8'), 'html.parser')

# 搜索文档树,获取到所有 li TAG 组成的数组
li_array = soup.find_all('li')

# 遍历这个数组,并往输出文档输出信息
for i, li in enumerate(li_array):
      # print(li.contents)
      output_file.write('\n'+str(i+1)+'、'+li.contents[1].text)
      output_file.write('\n 经度:'+li['lng'])
      output_file.write('\n 维度:'+li['lat'])
      output_file.write('\n 名称:'+li.contents[1].text)
      output_file.write('\n 地址:'+li.contents[3].text.strip())

output_file.close()

其中,contents 属性可以将 tag 的子节点以列表的方式输出:

print(li.contents)

 我们可以用列表索引来获取它的某一个元素

li.contents[1] 表示 <h4>联盟店X</h4> 获取标签里面的内容,就是 li.contents[1].text

li.contents[3] 表示 <p></p> 因为 p 后面有换行,所以用 strip() 函数去掉换行符 

不然输出结果就会变成

3、运行

py store.py

4、输出结果

1、联盟店1
 经度:100.111111
 维度:10.111111
 名称:联盟店1
 地址:X市Y区Z街道 1000 号
2、联盟店2
 经度:101.111111
 维度:11.111111
 名称:联盟店2
 地址:X市Y区Z街道 1001 号
3、联盟店3
 经度:102.111111
 维度:12.111111
 名称:联盟店3
 地址:X市Y区Z街道 1002 号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2162348.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

单片机带隙电压基准电路

单片机带隙电压基准电路 一、带隙电压基准电路概述 带隙电压基准电路在单片机中占据着至关重要的地位。它能够为各种模拟集成电路提供稳定的参考电压&#xff0c;确保电路的正常运行。例如&#xff0c;在高精度的比较器中&#xff0c;带隙电压基准电路可以提供一个精确的参考…

电源芯片测试系统如何完成欠压关断/欠压关断滞后?

电源芯片欠压关断测试原理&#xff1a; 在测试芯片的欠压关断过程中我们会测试到芯片的启动电压和欠压关断滞后电压&#xff0c;所以这三个指标可以一起进行测量;而测试这些指标我们需要一台电源和数字万用表。 电源芯片欠压关断的测试需要将电源的接入芯片进行供电&#xff…

稳定为恒定功率负载供电的 DC/DC 转换器

恒定功率负载 (CPL) 存在于电动汽车、电信设备、电力电子设备等各种应用中。这些 CPL 是无论施加的电压或电流如何变化都保持恒定功耗的电气负载。与呈现恒定电阻的电阻负载不同&#xff0c;CPL 具有随电压或电流变化而变化的动态阻抗&#xff0c;即&#xff0c;当负载两端的电…

Vue的工程化和element快速入门

vue项目的创建&#xff1a; vue项目的启动方式&#xff1a; vue项目开发流程&#xff1a; 代码示例&#xff1a; <!-- <script>//写数据export default{data(){return{msg: 上海}}} </script> --><script setup>import {ref} from vue;//调用ref函数&…

网页护眼宝——全方位解析 Chrome Dark Reader 插件

网页护眼宝——全方位解析 Chrome Dark Reader 插件 1. 基本介绍&#xff1a;Chrome 插件的力量与 Dark Reader 的独特之处 随着现代浏览器的功能越来越强大&#xff0c;Chrome 插件为用户提供了极大的定制化能力。从广告屏蔽、性能优化到页面翻译&#xff0c;Chrome 插件几乎…

python如何匹配换行符

如下所示&#xff1a; p1 r(?<<div class"ds_cr">)(.*?)(?<div id"pageurl">) #这样采集html时出错&#xff0c;采集不到数据&#xff0c;正则中.是不能匹配 换行符&#xff0c;改成如下&#xff1a; p1 r(?<<div class"d…

Nanite缺失项目设置问题

今天新建虚幻引擎项目时 , 编辑器右下角收到这个提示 , 缺失项目设置&#xff01; 使用Nanite资产需要Shader Model 6&#xff08;SM6&#xff09;。请在此启用&#xff1a; 项目设置-> 平台-> Windows->D3D12目标着色器格式如未启用&#xff0c;Nanite资产将无法正常…

【研赛F题成品论文】24华为杯数学建模研赛F题成品论文+可运行代码丨免费分享

2024华为杯研究生数学建模竞赛F题精品成品论文已出&#xff01; F 题 X射线脉冲星光子到达时间建模 摘要 X射线脉冲星具有高度稳定的自转周期&#xff0c;被广泛应用于深空导航和时间基准的维护。本文针对Crab脉冲星&#xff0c;建立了光子到达时间的数学模型&#xff0c;并模…

初始MYSQL数据库(7)—— 视图

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a; MYSQL 引言 前面我们学习MySQL数据库时&#xff0c;创建表之后&#xff0c;会在表中插入数据&#xff0c;在需要的时候&#xff0c;也会进行…

Qt-QComboBox输入类控件(31)

目录 描述 核心方法 核心信号 使用 代码方式 界面操作方式 动态使用 如何看待输入输出 String与QString互相转化 描述 一个可以下拉的输入框 核心方法 addItem(constQString&)添加⼀个条⽬currentIndex()获取当前条⽬的下标 从0开始计算.如果当前没有条⽬被选中…

MySQL的msi版本9.0在安装过程总结和需要注意的地方

下载 参考文档 [官方包快速下载]&#xff08;https://dev.mysql.com/downloads/mysql/&#xff09; 使用zip文件安装可参考&#xff0c;这种直接把zip安装包解压到想要放的地方&#xff0c;并安装其中的方式一步步修改数据地址等配置即可。 个人使用了msi的安装文件 msi版本…

Vue3:快速生成模板代码

目录 一.模板代码 1.提供基础结构 2.定义组件名称 3.初始化数据和方法 4.应用样式 5.提高开发效率 二.操作 1.点击右下角设置按钮选择代码片段 2.输入vue.json&#xff0c;打开vue.json文件 3.构造模板 4.模板代码 5.使用 6.效果 一.模板代码 Vue3快速生成模板代…

通过document获取节点元素

1.层级节点 <ul><li id"li1">1</li><li>2</li><li id"li3">3</li><li>4</li><li>5</li></ul><script>//获取id名为li1的元素赋值给li1let li1document.getElementById(li…

为什么越来越多的视频监控AI分析做到了摄像头上?

在安防行业&#xff0c;视频监控已经非常广泛&#xff0c;是无可替代的基础信息化设施。早期的视频监控只是简单的通过摄像机对画面进行记录&#xff0c;然后通过记录的画面服务入侵探测和震慑burglars。随着近年来人工智能技术的兴起&#xff0c;人们越来越希望利用AI计算机的…

【Go】Go 环境下载与安装教程(Windows系统)

引言 Go&#xff0c;也被称为Golang&#xff0c;是一种静态类型&#xff0c;编译型的编程语言&#xff0c;由Google设计和开发。Go语言的设计目标是“解决软件开发中的一些问题”&#xff0c;特别是在大规模软件系统的构建和维护方面。 下载安装包 打开官网下载页面&#xff…

排序----基数排序、桶排序(附排序总结)

一、基数排序 从个位开始往高位不断排序&#xff0c;把各个数字按每一位的顺序排起来。 二、桶排序 建立一个指针数组&#xff0c;指针指向一个链表&#xff0c;然后再对链表排序。永远只建立一个筒&#xff0c;只适用于全是两位数或者全是三位数的排序。 三、总结 归并排序当…

如何把pdf转换成word文档?6种转换方法看完就学会

在日常工作和学习中&#xff0c;PDF文件和Word文档可以说是两种非常常见的文件格式了。然而&#xff0c;PDF文件的不可编辑性常常让我们感到困扰&#xff0c;在遇到需要编辑修改内容的PDF文件时&#xff0c;就需要将其转换成Word文档来便于编辑修改&#xff0c;那么该怎么转换呢…

并发编程。

进程 1.什么是进程&#xff1f; 进程是具有独立功能的程序关于某个数据集合上的一次运行活动&#xff0c;是系统进行资源分配和调度的 独立单位。进程是可与其他程序并发执行的程序&#xff0c;在一个数据集合上的运行过程。它是系统进行 资源分配和调度的一个独立单位。 2.进…

vivado sdk 烧写到SD卡

首先在bd文件中使能SD卡 实际根据实际原理图设置 烧写流程和烧写FLASH一样&#xff0c;产生boot.bin文件&#xff0c;只需要将BOOT.bin文件复制到SD卡里&#xff0c;将SD卡插入板卡&#xff0c;然后设置SD卡启动即可 需要注意的是&#xff1a;SD卡文件系统必须格式化为FAT32…

Stable Diffusion绘画 | XYZ Plot:让对比一目了然

XYZ Plot 是 SD 自带的&#xff0c;无需额外安装。 它的作用&#xff0c;是给我们用来对比不同参数下&#xff0c;生成图片效果的区别。 位置在页面左侧底部&#xff1a; 实操 开启 x轴进行对比&#xff0c;这里面有各种可选的对比参数&#xff1a; 现在 X轴类型 选择「Sampler…