Python自动化下载指定公开页面文件

Python自动化下载指定公开页面文件

news2026/2/14 14:13:46

示例代码如下，但你拿到本地之需要做两件事才能运行

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# 设置Selenium WebDriver
driver_path = r'C:\Users\……\chromedriver-win64\chromedriver-win64\chromedriver.exe'  # 替换为您的ChromeDriver路径
url = 'https://data.sh.gov.cn/view/detail/index.html?type=cp&&id=AB6002012300'  # 替换为实际的下载页面URL

service = Service(executable_path=driver_path)   
# 初始化WebDriver
driver = webdriver.Chrome(service=service)

try:
    # 打开下载页面
    driver.get(url)
    
    # 等待页面加载完成，这里设置了最长等待时间为10秒
    time.sleep(1)
    

    download_button = driver.find_element(By.CSS_SELECTOR, 'span.filebase.xlsx.docType00xlsx')
    download_button.click()
 
    
    
    # 等待文件下载完成。这里需要根据实际情况设置等待时间或检查下载状态
    time.sleep(1)
    
finally:
    # 关闭浏览器
    driver.quit()

print("Download end!")

1. 需要先下载模拟点击浏览器的软件，并在代码中指定driver_path

Chrome for Testing availabilityhttps://googlechromelabs.github.io/chrome-for-testing/#stable2. 然后安装python库

pip install selenium

然后直接运行就好，xlsx文件就下载到浏览器默认文件夹下了，这是政府公开文件，保存的文件名为

各主要国家贸易经济数据-新.xlsx

3. 如果你有别的需求，要在其他网页下载内容，那么最重要的是找到对应的按钮，这个是整个代码中最难的部分，需要打开浏览器的开发者模式，选中左侧按钮，并找到对应按钮的html代码，如我找到的

<span class="filebase xlsx docType00xlsx">xlsx</span>

这个过程可能需要多尝试才能找到正确的按钮，有必要时多求助AI助手

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1653056.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【电路笔记】-Twin-T振荡器

【电路笔记】-Twin-T振荡器

Twin-T振荡器文章目录 Twin-T振荡器1、概述2、Twin-T振荡器3、Twin-T放大4、Twin-T 振荡器示例5、总结Twin-T 振荡器是另一种 RC 振荡器电路，它使用两个并联的 RC 网络来产生单一频率的正弦输出波形。 1、概述 Twin-T 振荡器是另一种类型的 RC 振荡器，它产生正弦波输出，用…

阅读更多...

已经安装tensorflow，仍报错No module named ‘tensorflow‘

已经安装tensorflow，仍报错No module named ‘tensorflow‘

在安装某些python虚拟环境的教程文章中，经常看到有评论区说安装了但是调用显示无模块，例如pytorch和tensorflow等等。其实跟之前我写过的一篇文章解决方法类似，就是python项目中需要应用哪个虚拟环境，这个项目的python解释器就选…

阅读更多...

LCD驱动IC-抗干扰液晶段码显示屏驱动芯片,液晶显示驱动原厂-VK2C23A/B LQFP64/48

LCD驱动IC-抗干扰液晶段码显示屏驱动芯片,液晶显示驱动原厂-VK2C23A/B LQFP64/48

产品品牌：永嘉微电/VINKA 产品型号：VK2C23A/B 封装形式：LQFP64/48 概述 VK2C23是一个点阵式存储映射的LCD驱动器，可支持最大224点（56SEGx4COM） 或者最大416点（52SEGx8COM）的LCD屏。…

阅读更多...

API开发的必备神器：华为云CodeArts API实用体验入门篇

API开发的必备神器：华为云CodeArts API实用体验入门篇

今天我想给大家推荐一款API全生命周期研发与管理工具：华为云CodeArts API。作为互联网软件的开发者，在软件研发的过程中，API的开发、调试、测试是必不可少的。之前我使用的是Postman这类工具来辅助开发， Postman在接口调试方面确…

阅读更多...

第 8 章电机调速(自学二刷笔记)

第 8 章电机调速(自学二刷笔记)

重要参考： 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 8.3.5 电机调速01_PID控制理论场景： 速度信息可以以m/s为单位，或者也可以转换成转速 …

阅读更多...

第18讲：Ceph集群CrushMap的核心概念、默认规则与完整定义

第18讲：Ceph集群CrushMap的核心概念、默认规则与完整定义

文章目录 1.CrushMap核心概念2.集群默认的CrushMap规则剖析2.1.CrushMap列表显示内容剖析2.2.对默认的CrushMap规则进行深度的剖析2.3.完整的CrushMap定义信息 1.CrushMap核心概念 CrushMap官方文档：https://docs.ceph.com/en/pacific/rados/operations/crush-map/…

阅读更多...

【Alluxio】文件系统锁模型之InodeLockList

【Alluxio】文件系统锁模型之InodeLockList

InodeLockList接口，表示在inode tree里一个加了锁的路径。沿着path，inodes和edges都被加锁了。path可能从edge或inode任意一个开始。锁列表总是包含了一定数量的读锁（0个或多个），随后跟随着一些数量的写锁（0个或多个）。举个例子：对 /a/b/c/d 进行加锁，c->d这…

阅读更多...

QGraphicsItem的prepareGeometryChange 和 update方法区别

QGraphicsItem的prepareGeometryChange 和 update方法区别

prepareGeometryChange 这个函数用于为图形的几何形状变化做准备。在改变一个项目的边界矩形之前调用此函数，以保持 QGraphicsScene 的索引是最新的。如果必要的话，prepareGeometryChange() 会调用 update()。QGraphicsScene认为所有图元的boundingRect…

阅读更多...

ReactFlow的ReactFlow实例事件传参undefined处理状态切换

ReactFlow的ReactFlow实例事件传参undefined处理状态切换

1.问题 ReactFlow的ReactFlow实例有些事件我们在不同的状态下并不需要，而且有时候传参会出现其它渲染效果，比如只读状态下我们不想要拖拉拽onEdgesChange连线重连或删除的功能。 2.思路事件名称类型默认值onEdgesChange(changes: EdgeChange[]) >…

阅读更多...

.NET邮箱API发送邮件的步骤？怎么配置API？

.NET邮箱API发送邮件的步骤？怎么配置API？

.NET邮箱API发送邮件需要注意哪些？如何使用API发信？ 在.NET环境中，使用邮箱API发送邮件是一个常见的需求。无论是企业级的邮件通知，还是个人项目中的邮件验证，都少不了.NET邮箱API的帮助。下面，AokSend将详…

阅读更多...

MT3033 新的表达式

MT3033 新的表达式

代码： #include <bits/stdc.h> using namespace std; bool is_op(char c) {return c & || c |; } int priority(char op) { // 运算优先级。如果有-*/等别的运算符，则这个函数很有必要if (op & || op |){return 1;}return -1; } voi…

阅读更多...

内网渗透（二）

内网渗透（二）

预备知识什么是域？ 域是若干台计算机组成的集合，一个电脑也是。域中的电脑是分等级的，分为域控和成员机。如何安装域？ 在服务器管理中添加服务器角色，添加域服务如何加入域? 首先一定要修改DNS服务器 ip为域…

阅读更多...

Davinci工程CAN模块讲解

Davinci工程CAN模块讲解

CAN模块是用来配置CAN Driver的，里面有CanConfigSet是用来配置驱动内容的，CanGeneral配置参数。涉及四个文件Can_Lcfg.c/Can_Lcfg.h/Can_Cfg.c/Can_Cfg.h CanConfigSet CanControllers CAN控制器，我们这里的CAN控制器只有一个，名…

阅读更多...

Gradle报错Cause: zip END header not found，构建问题解决

Gradle报错Cause: zip END header not found，构建问题解决

问题描述构建报错：Cause: zip END header not found 解决办法 File>>setting>>Build,Execution,Deployment>>Gradle 选择你本地的Gradke路径问题解决

阅读更多...

探索Java的未来

探索Java的未来

探索 Java 的未来是一个非常有趣的话题。Java 是一种广泛使用的编程语言，自 1995 年诞生以来，它已经在软件开发领域占据了重要的地位。尽管有些人担心 Java 可能会因为新技术的出现而变得不再相关，但实际情况并非如此。让我们来看看一些关于 …

阅读更多...

MySQL 依据扫码记录统计人员进出区域的时间

MySQL 依据扫码记录统计人员进出区域的时间

解决这样一个问题： 如下图人员在区域的扫码记录，进出区域的时候都必须扫码，中间扫码的不算，统计每个人员进入区域、出区域的时间。有了人员在区域停留的组号，还差一步group by（在最后）&#xf…

阅读更多...

淘宝订单详情与物流电子面单API接口：提升电商物流效率的利器

淘宝订单详情与物流电子面单API接口：提升电商物流效率的利器

前言在电子商务蓬勃发展的今天，物流作为电商交易的重要环节，其效率和准确性直接关系到消费者的购物体验和商家的运营效率。淘宝作为中国最大的电商平台之一，一直致力于提升物流效率和服务质量。其中，淘宝订单详情与物流电子面单A…

阅读更多...

Flutter-Statewidget 创建State过程State＜XXXX＞ createState() =＞ _XXXXState()的解释

Flutter-Statewidget 创建State过程State＜XXXX＞ createState() =＞ _XXXXState()的解释

文章目录创建widget 的状态对象示例代码解析完整的代码示例总结创建widget 的状态对象今天有个同学问了我下State createState() > _XXXXState()时什么意思。这个代码在flutter开发中一直看到，很多人都不关心这个，直接当模板使用。今天来介绍下这…

阅读更多...

运维自动化工具：Ansible 概念与模块详解

运维自动化工具：Ansible 概念与模块详解

目录前言一、运维自动化工具有哪些二、Ansible 概述 1、Ansible 概念 2、Ansible 特点 3、Ansible 工作流程 4、Ansible 架构 4.1 Ansible 组成 4.2 Ansible 命令执行来源 5、Ansible 的优缺点三、Ansible 安装部署 1、环境部署 2、管理节点安装 Ansible 3、…

阅读更多...

智能商品计划系统：引领未来零售业的革新之路

智能商品计划系统：引领未来零售业的革新之路

随着科技的飞速发展，人工智能（AI）和大数据技术已成为推动各行业革新的关键动力。在零售行业中，智能商品计划系统的出现，正逐步改变着传统的商品规划与管理方式，为品牌注入新的活力与竞争力。本文将对智能商…

阅读更多...

推荐文章

最新文章