如何利用pandas解析html的表格数据

news2024/10/4 13:53:45

如何利用pandas解析html的表格数据

我们在编写爬虫的过程中,经常使用的就是parsel、bs4、pyquery等解析库。在博主的工作中经常的需要解析表格形式的html页面,常规的写法是,解析table表格th作为表头,解析td标签作为表格的行数据 。循环tr标签生成一个列表,在与th做映射整理称字典的格式,存入list中。那么有一种更为方便的方法就是使用pandas 只需要一行代码就可以完成常见表格的编写。案例如下:

我们现在使用pandas获取这个链接的table信息


import requests

resp = requests.get("https://www.medchemexpress.cn/c18-ceramide.html")

response = resp.text
info = pd.read_html(response,attrs={"id":"con_one_1"})
print(info)
for inf in info:
    print(inf.values)

运行结果如下:表格数据直接就被解析成一个二元列表,每一个列表就是一个tr标签 每个列表值就是一个td.


只需要指定html文件以及指定页面的table;attrs={}用来定位解析的table数据这边是id="con_one_1"的table;

只需要for循环就可以转换成字典了;

更多使用技巧,请查阅pandas文档

今天的分享pandas解析table;

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1793152.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Flutter开发效率提升1000%,Flutter Quick教程之对组件进行拖拽与接收

1,首先,所有可以选择的组件,都在左边的组件面板里。从里面点击任何一个,按住左键,向右边的手机面板上进行拖拽即可。 2,拖拽后,我们要选择一个接收组件。什么时候可以接收组件,就是当…

用Conda配置Pytorch环境 (pytorch==2.2.1)

用Conda配置Pytorch环境 (pytorch==2.2.1) 本文主要讲解: 如何用Conda搭建Pytorch环境,用Conda的方式安装,不需要单独去安装Cuda了。 1. 安装miniconda https://docs.anaconda.com/free/miniconda/index.html 2. 搭建虚拟环境 激活python虚拟环境 conda create -n env…

外界访问docker服务失败

各位i大佬请问一下:我容器起了,但是外网访问不了目标机器的9090端口。 我检查了:1.本机的防火墙已关闭, 2.目标机器的9090端口显示正在被docker监听。 3.外网可以访问目标机器。 4.docker日志,未显示服务报错。 5…

基于细节增强卷积和内容引导注意的单图像去雾

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 摘要Abstract文献阅读:DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾1、研究背景2、方法提出3、相关知识3.1、DEConv3.3、多重卷积的…

ARM32开发--GPIO输入模式

知不足而奋进 望远山而前行 目录 文章目录 前言 浮空输入 上拉输入 下拉输入 模拟输入 总结 前言 在数字电路设计和嵌入式系统开发中,理解输入信号的处理方式对确保系统稳定性和可靠性至关重要。不同的输入处理方式包括上拉输入、下拉输入、浮空输入和模拟输…

VSCode界面Outline只显示类名和函数名,隐藏变量名

参考链接 https://blog.csdn.net/Zjhao666/article/details/120523879https://blog.csdn.net/Williamcsj/article/details/122401996 VSCode中界面左下角的Outline能够方便快速跳转到文件的某个类或函数,但默认同时显示变量,导致找某个函数时很不方便。…

62、 忠北国立大学计算机科学系:FingerNet-专门用于细致MI分类的神经网络模型

本文由泡菜国高校于2024年3月6日发表于arXiv,做了一个专门处理运动想象信号的CNN模型,融合了EEGNet和DeepConvNet。 FingerNet是一种专门用于细致MI分类的网络,利用了时间特征,在相同手部分类任务中表现出比EEGNet和DeepConvNet更…

NetworkX网络分析综合指南

在这个信息过载的世界,我向你保证,本指南是你掌握 NetworkX 强大功能所需的一切。其全面的内容和循序渐进的方法将为你提供宝贵的见解和理解。 在当今互联互通的世界中,了解网络及其结构已成为从社交网络分析到交通系统优化等无数应用的必备…

揭秘VVIC API:开启高效数据交互的密钥,你的项目就差这一步

VVIC API接口概述 VVIC API提供了对VVIC服务的数据访问和操作功能。通过此API,开发者可以集成VVIC服务到他们的应用程序中,实现数据同步、用户认证、资源管理等功能。 点击获取key和secret API端点示例 用户认证 方法:POSTURL:/…

Unity DOTS技术(十) ChunkComponent块组件

文章目录 一.简介二.例子 一.简介 块组件(ChunkComponent),与共享组件类似,但在共用组件时并不会将组件移动到新的块里面去. 当将块组件的值进行修改时.将会把组件中的值进行一个统一的变化,不会产生一个新的组件 二.例子 1.创建ChunkComponent public struct ChunkCompone…

C#操作MySQL从入门到精通(11)——对查询数据使用正则表达式过滤

前言 对于之前提到的使用匹配、比较、通配符等过滤方式能解决大部分的项目问题,但是有时候也会遇到一些比较复杂的过滤需求,这时候就需要正则表达式来实现了,正则表达式使用regexp这个关键字来实现。 本次测试的数据库表的内容如下: 1、基本字符匹配(包含某些字符) 匹…

粒子群+用户舒适度!考虑用户舒适度的楼宇微网改进粒子群优化调度程序代码!

前言 综合能源系统在独立规划运行的模式下,能源利用率低、环境污染高,且当不同种类的能源大规模接入到综合能源网络时,系统难以在经济性和环保性之间取得平衡。因此,如何实现经济性和环保性的双重优化,是当前综合能源…

vulnhub靶机实战_DC-4

下载 靶机下载链接汇总:https://download.vulnhub.com/使用搜索功能,搜索dc类型的靶机即可。本次实战使用的靶机是:DC-4系统:Debian下载链接:https://download.vulnhub.com/dc/DC-4.zip 启动 下载完成后,…

Marvelous Designer中一些棉质布料预设

Marvelous Designer中一些棉质布料预设的解释: Cotton_14_Wale_Corduroy:14条细鲸鱼纹的灯芯绒,适合制作温暖且有质感的服装。Cotton_40s_Chambray:40支精梳针织的府绸布,通常用于制作休闲衬衫。Cotton_40s_Poplin&am…

f-stack和DPDK

GPT-4 (OpenAI) f-stack和DPDK(数据平面开发套件)都是与高性能网络处理相关的技术。它们的目的是提高数据包的处理速度,优化网络I/O的性能。以下是对这两者的简要解释: 1. **DPDK (Data Plane Development Kit):** DPDK 是一个…

SAP PP学习笔记17 - MTS(Make-to-Stock) 按库存生产(策略70)

上几章讲了几种策略,策略10,11,30,40。 SAP PP学习笔记14 - MTS(Make-to-Stock) 按库存生产(策略10),以及生产计划的概要-CSDN博客 SAP PP学习笔记15 - MTS(Make-to-St…

tkinter+火山引擎+python实现语音识别聊天机器人

想要做一款能通过语音识别来聊天的智能机器人,首先需要能通过麦克风录制语音进行识别转换成文字,将文字发送给机器人得到聊天结果,并能将返回的文字转换成语音进行合成,之后再通过本地播放语音实现语音交互。 架构: 实现步骤 一、本地录音 本地录音可以通过pyAudio库实…

外企跨国大数据迁移的注意事项

跨国数据迁移,对汽车行业来说,是一桩大事。跨国公司在进行这一操作时,会遇到不少挑战,比如网络延迟、数据安全、成本控制等等。今天,咱们就聊聊跨国大数据迁移中,跨国车企需要留意的几个关键点。 跨国大数据…

vue3-调用API实操-调用开源头像接口

文档部分 这边使用是开源的API 请求地址: :https://api.uomg.com/api/rand.avatar 返回格式 : json/images 请求方式: get/post 请求实例: https://api.uomg.com/api/rand.avatar?sort男&formatjson 请求参数 请求参数说明 名称必填类型说明sort否strin…

Web3的应用场景分析

Web3,即基于区块链技术的去中心化互联网,正逐渐改变我们与数字世界的互动方式。以下是Web3的一些主要应用场景。Web3技术正在各个领域推动创新,创造更多透明、开放和去中心化的解决方案,为用户带来更高的自主权和安全性。北京木奇…