Python网络爬虫实战——实验5:Python爬虫之selenium动态数据采集实战

news2024/9/30 3:27:27

【实验内容】

本实验主要介绍和使用selenium库在js动态加载网页中数据采集的作用。

【实验目的】

1、理解动态加载网页的概念
2、学习Selenium库基本使用
3、掌握动态加载数据采集流程

【实验步骤】

步骤1理解动态加载网页
步骤2学习使用Selenium库
步骤3 采集河北政府采购网

步骤1:理解动态加载网页
动态加载网页是指在页面初次加载完成后,通过JavaScript等前端技术,根据用户的交互或其他触发条件,向服务器请求额外的数据并将其加载到已有页面中,而无需刷新整个页面。这种技术使得网页能够更快地响应用户操作,提升用户体验,同时避免了每次交互都重新加载整个页面的开销。以下是一些常见的动态加载网页的情形:
异步加载: 通过AJAX(Asynchronous JavaScript and XML)等技术,网页可以在后台异步加载数据,然后使用JavaScript更新页面的部分内容,而无需重新加载整个页面。
无限滚动: 在一些网页中,当用户滚动页面到底部时,会自动加载更多的内容,实现无限滚动效果。
实时更新: 一些网页需要实时显示最新的信息,例如社交媒体的实时更新流。在这里插入图片描述上图站长之家就是使用js动态渲染网页,在传统的静态网页爬取中,爬虫工具通常只能获取页面初次加载时的静态内容,而无法直接获取动态加载的数据。

步骤2:学习Selenium库基本使用
(1) 介绍
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium本质上是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等…进而拿到网页渲染之后的结果,可支持多种浏览器
(2) 安装Selenium库:
/==============/
(3) 下载浏览器驱动
根据使用的浏览器下载对应版本的浏览器驱动,例如Chrome浏览器需要下载ChromeDriver。将驱动文件保存在一个合适的位置。
下载地址:
/===================================/
在这里插入图片描述(4) 初始化Selenium WebDriver
在Python脚本中使用Selenium库,初始化一个WebDriver,指定浏览器类型和驱动路径。
-***************************************************************
(5) 访问目标网址
使用WebDriver访问需要采集数据的目标网页。
-***************************************************************
(6) 模拟用户行为
/======================================================/
(7) 等待数据加载
由于动态加载可能需要一些时间,需要使用等待机制确保数据加载完成。
-****************************************************
(8) 提取数据
一旦数据加载完成,使用Selenium提取目标数据。
-****************************************************
(9) 关闭浏览器在这里插入图片描述
步骤3 采集河北政府采购网
(1) 分析页面
主页面
地址:http://www.ccgp-hebei.gov.cn/province/cggg/zhbgg/index_1.html


进入主页面后,摁F12打开开发者工具,点击Doc输入关键字学,点击检索按钮,可以出现如上图4步骤所示的接口,preview中可以查看到该接口的返回值。

子页面
/=======================================================================================================/在这里插入图片描述
(2) 解析出子页面信息
导入第三方模块:
在这里插入图片描述
/==================================================================================================/


/==================================================================================================/

(3) 获取子页面源代码
导入模块
-***********************************************************************
首先初始化一个Chrome(options=chrome_options) ,创建了一个新的Chrome WebDriver实例,传入配置参数。


/==================================================================================================================================================/
-******************************************************************
/===============================================================================================================================================/
整个操作是在一个try-except-finally块中进行的,如果出现异常(比如加载超时),会打印一条消息,并在 finally 块中关闭 WebDriver,确保资源被正确释放。

(4) 解析子页面数据在这里插入图片描述下面代码是解析子页面主要标信息字段的代码,使用xpath语法对数据进行提取。
/===================================================================================================================================================/
-****************************************************************
提取的数据字段最终保存为如下图所示。
-*************************************************************************
(5) 保存为json文件
-*******************************************************************
使用with语句打开文件 “hebei -zhong.json”,打开模式为追加模式 a,以UTF-8编码。将JSON格式的字符串 message 写入文件,并添加一个逗号和换行符,以便在后续追加新的JSON数据,这有助于生成一个包含多个JSON对象的有效JSON数组。

生成单个字段完整示例如下:
-*************************************************************************************

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1413776.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

统计学-R语言-8.3

文章目录 前言例题例题一例题二例题三例题四例题五例题六例题七 总结 前言 本篇介绍的是有关方差知识的题目介绍。 例题 例题一 (数据:exercise7_3.RData)为研究上市公司对其股价波动的关注程度,一家研究机构对在主板、中小板和…

PHP伪协议使用姿势

php支持的伪协议 1 file:// — 访问本地文件系统 2 http:// — 访问 HTTP(s) 网址 3 ftp:// — 访问 FTP(s) URLs 4 php:// — 访问各个输入/输出流(I/O streams) 5 zlib:// — 压缩流 6 data:// — 数据(RFC 2397) 7 glob:// —…

YARN介绍

1 概念 YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)。其中,ResourceManager 负责所有资 源…

数据结构——链式二叉树(2)

目录 🍁一、二叉树的销毁 🍁二、在二叉树中查找某个数,并返回该结点 🍁三、LeetCode——检查两棵二叉树是否相等 🌕(一)、题目链接:100. 相同的树 - 力扣(LeetCode&a…

MySQL十部曲之四:MySQL中的数据类型

文章目录 前言概述数字类型数字类型语法数字类型字面量十六进制字面量位字面量布尔字面量 数字类型的属性超出范围和溢出处理 时间和日期类型时间和日期类型语法DATE、DATETIME和TIMESTAMP的异同TIMESTAMP和DATETIME的自动初始化和更新时间和日期字面量 字符串类型字符串类型语…

Android 基础技术——Handler

笔者希望做一个系列,整理 Android 基础技术,本章是关于 Handler 为什么一个线程对应一个Looper? 核心:通过ThreadLocal保证 Looper.prepare的时候,ThreadLocal.get如果不空报异常;否则调用ThreadLocal.set,…

376. 摆动序列 - 力扣(LeetCode)

题目描述 如果连续数字之间的差严格地在正数和负数之间交替,则数字序列称为摆动序列。第一个差(如果存在的话)可能是正数或负数。少于两个元素的序列也是摆动序列。 例如, [1,7,4,9,2,5] 是一个摆动序列,因为差值 (6,…

项目中从需求分析到研发上线

一、背景 应用系统从设想到需求到研发到上线会经历一些列工程化过程。比如经典的瀑布模型工作流,其实就是一个经过很多经验总结下来的工程方法。本节阐述项目中从需求到研发上线的过程。但是也有些根据不同的行业,不同的公司,不同管理者的风…

Cesium加载地图-高德影像

废话不多说&#xff0c;直接上代码 整体代码 <template><div id"cesiumContainer" style"height: 100vh;"></div><div id"toolbar" style"position: fixed;top:20px;left:220px;"><el-breadcrumb><…

【数据结构与算法】5.详解双向链表的基本操作(Java语言实现)

&#x1f4da;博客主页&#xff1a;爱敲代码的小杨. ✨专栏&#xff1a;《Java SE语法》 ❤️感谢大家点赞&#x1f44d;&#x1f3fb;收藏⭐评论✍&#x1f3fb;&#xff0c;您的三连就是我持续更新的动力❤️ &#x1f64f;小杨水平有限&#xff0c;欢迎各位大佬指点&…

Oracle扩展ASM存储

物理增加1T存储到服务器。 , 绑定裸设备 vi /etc/udev/rules.d/99-asmdevice.rules KERNEL"dm-*",ENV{DM_UUID}"mpath-360002ac000000000000001a700006bc6",NAME"asm_arch",OWNER"grid",GROUP"asmadmin",MODE"0660&q…

第二百八十八回

文章目录 1. 概念介绍2. 使用方法2.1 实现步骤2.2 具体细节 3. 示例代码4. 内容总结 我们在上一章回中介绍了"如何获取文件类型"相关的内容&#xff0c;本章回中将介绍如何播放视频.闲话休提&#xff0c;让我们一起Talk Flutter吧。 1. 概念介绍 播放视频是我们常用…

区块空间----流动性铭文

铭文正在改变加密世界&#xff0c;越来越多的人开始关注铭文&#xff0c;并参与进来&#xff01;铭文赛道的未来是非常具有潜力和想象力的&#xff0c;甚至能够达到加密货币的普及水平。当然&#xff0c;这需要更多的基础设施更多的用例支持&#xff0c;但是一切都才刚刚开始。…

Go语言grpc服务开发——Protocol Buffer

文章目录 一、Protocol Buffer简介二、Protocol Buffer编译器安装三、proto3语言指南四、序列化与反序列化五、引入grpc-gateway1、插件安装2、定义proto文件3、生成go文件4、实现Service服务5、gRPC服务启动方法6、gateway服务启动方法7、main函数启动8、验证 相关参考链接&am…

Mysql-日志介绍 日志配置

环境部署 docker run -d -p 3306:3306 --privilegedtrue -v $(pwd)/logs:/var/lib/logs -v $(pwd)/conf:/etc/mysql/conf.d -v $(pwd)/data:/var/lib/mysql -e MYSQL_ROOT_PASSWORD654321 --name mysql mysql:5.7运行指令的目录下新建好这些文件&#xff1a; 日志类型 日…

dhcp服务器的ip池的待分配ip地址是否冲突的检测机制

看到有的资料说&#xff0c;dhcp服务器在分配ip地址时&#xff0c;要检测是否待分配的ip地址是否存在冲突&#xff0c;会向广播域发出&#xff0c;对应ip发出icmp的ping消息来验证是否冲突。特地用自己的公司的交换机验证一下&#xff0c;在交换机上镜像抓包观察一下。 wiresha…

社交媒体与新闻:Facebook在信息传播中的角色

社交媒体的崛起不仅改变了人们的日常交流方式&#xff0c;也对新闻传播产生了深远的影响。在众多社交媒体平台中&#xff0c;Facebook以其庞大的用户基础和强大的社交网络机制&#xff0c;成为信息传播的中流砥柱。本文将深入探讨Facebook在社交媒体与新闻传播的交汇点上扮演的…

Qt应用开发(安卓篇)——调用java代码,使用安卓api

一、前言 在Qt on Android开发的时候&#xff0c;它不像在嵌入式linux&#xff0c;几乎全部的操作都是可以通过文件来完成。很多场景下的功能都需要使用安卓的API去实现&#xff0c;开发人员需要通过这些API进行编程&#xff0c;无需访问源码&#xff0c;或者理解内部的机制。比…

IP报文格式

IP报文格式 报文格式 图1 IP头格式 表1 IP头字段解释 字段长度含义Version4比特 4&#xff1a;表示为IPV4&#xff1b;6&#xff1a;表示为IPV6。IHL4比特首部长度&#xff0c;如果不带Option字段&#xff0c;则为20&#xff0c;最长为60&#xff0c;该值限制了记录路由选项。…

阅读go语言工具源码系列之gopacket(谷歌出品)----第二集 layers-巧妙的抽象与无聊的协议包

上一集中我们讲到了wpcap.dll的go封装方法&#xff0c;对于linux系统下libpcap的go封装采用的是常用的cgo方式&#xff0c;想了解的可以看看pcap文件夹中的pcap_unix.go。 我们得到了wpcap.dll的go调用&#xff0c;就可以利用它来进行列举所有网络设备&#xff0c;例如以下代码…