利用 Selenium 和 Python 实现网页新闻链接抓取

news2024/9/21 4:37:25

在这里插入图片描述

在网络数据分析和信息检索中,爬虫是一项非常重要的技术。爬虫可以自动化地从网页中提取信息,极大地提升数据收集的效率。本文将以一个具体的代码实例,讲解如何使用 Selenium 库进行网页新闻链接的抓取。

前期准备

在开始之前,需要确保系统已经安装了 Python 以及 Selenium 库。可以通过以下命令进行安装:

pip install selenium

此外,还需要下载适用于浏览器的驱动程序。本文示例中使用的是 Firefox 驱动程序。如果使用的是 Chrome 浏览器,需要下载相应的 Chrome 驱动程序。下载完成后,将驱动程序放在系统的 PATH 路径中。

代码实现

以下是实现从网页中抓取新闻链接的完整代码:

from selenium import webdriver  
import time

# 此处下载的是Firefox驱动,所以用Firefox()函数打开浏览器,
# 若下载的是Chrome驱动,则利用Chrome()函数打开浏览器
driver = webdriver.Firefox()  
  
# 将提取的新闻链接保存在listhref列表中
listhref = []  
url = "https://www.163.com/search?keyword=中国芯片"  

# 通过分析网页结构可知,网页的所有新闻都存放在”class”=”keyword_list”的节点下,
# 右键复制该节点XPath路径,为”/html/body/div[2]/div[2]/div[1]/div[2]”,
# 再对某一个新闻进行分析,得到新闻链接存放的节点a的XPath路径,
# 此时不用添加标号,就可以查询到所有满足条件的新闻链接
xpath_name = "/html/body/div[2]/div[2]/div[1]/div[2]/div/h3/a"  
  
# 根据网页链接打开浏览器
driver.get(url=url)  
  
# 这里设计了两个临时变量,分别保存现在滚动条距离页面顶层的高度和上一次滚动条的高度,
# 用来判断是否滚动条已经到达页面底部,无法继续下滑
nowTop = 0  
tempTop = -1  

# 不断向下滚动滚动条并且保存新闻链接
while True:  
  # 保存网页链接存取在的位置节点
  name = driver.find_elements_by_xpath(xpath_name)  
  # 遍历各个节点
  for j in range(len(name)):  
    # 判断当前下标有没有文本  
    if name[j].text:  
      # 有则添加进列表,通过get_attribute函数获得’href’属性的值,获得新闻链接 
      listhref.append(name[j].get_attribute('href'))  
    else:  
      pass  

  # 执行下拉滚动操作
  driver.execute_script("window.scrollBy(0,1000)")  
  # 睡眠让滚动条反应一下
  time.sleep(5)  
	  
  # 获得滚动条距离顶部的距离
  nowTop = driver.execute_script("return document.documentElement.scrollTop || window.pageYOffset || document.body.scrollTop;")  
  
  # 如果滚动条距离顶部的距离不再变化,意味着已经到达页面底部,可以退出循环
  if nowTop == tempTop:  
    break  
  tempTop = nowTop  
     
# 完成后关闭浏览器  
driver.close()  

# 检查新闻链接是否保存成功
print(listhref)

代码讲解

1. 初始化浏览器驱动

首先,通过 webdriver.Firefox() 初始化 Firefox 浏览器驱动。如果使用 Chrome 浏览器,可以替换为 webdriver.Chrome()

2. 设置目标 URL 和 XPath

目标 URL 设置为网易新闻的搜索页面,通过关键词“中国芯片”进行搜索。通过分析网页结构,确定新闻链接的 XPath 路径。

3. 打开浏览器并加载网页

使用 driver.get(url) 方法打开目标网页。

4. 滚动页面并提取链接

为了提取所有的新闻链接,需要不断向下滚动页面。通过 driver.execute_script("window.scrollBy(0,1000)") 实现页面滚动,并通过 time.sleep(5) 暂停 5 秒,等待页面加载新内容。

5. 判断是否到达页面底部

利用两个变量 nowToptempTop 判断是否到达页面底部。如果滚动条距离顶部的高度不再变化,说明已经到达页面底部,此时退出循环。

6. 关闭浏览器并输出结果

循环结束后,关闭浏览器,并输出抓取到的新闻链接列表 listhref

注意事项

  1. 浏览器驱动:确保浏览器驱动与浏览器版本匹配,并将驱动程序放在系统的 PATH 路径中。
  2. 页面加载时间:根据网络环境和页面复杂度,适当调整 time.sleep() 的时间。
  3. 反爬虫机制:一些网站可能有反爬虫机制,如频繁访问可能导致 IP 被封禁。可以通过设置代理、调整访问频率等方式进行规避。

通过本文的实例,可以帮助读者了解如何使用 Selenium 库进行网页数据抓取,并应用于实际的爬虫项目中。希望这篇文章对你有所帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1911569.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3-7 使用深度学习解决温度即示数问题

3-7 使用深度学习解决温度即示数问题 直接上代码 %matplotlib inline import matplotlib.pyplot as plt import numpy as np import torch torch.set_printoptions(edgeitems2, linewidth75)设置Jupyter Notebook在单元格中内嵌显示图像,导入所需库并设置PyTorch的…

实时温湿度监测系统:Micropython编码ESP32与DHT22模块的无线数据传输与PC端接收项目

实时温湿度监测系统 前言项目目的项目材料项目步骤模拟ESP32接线连接测试搭建PC端ESP32拷录环境对ESP32进行拷录PC端搭建桌面组件本地数据接收桌面小组件部分 实验总结 前言 人生苦短,我用Python。 由于我在日常工作中经常使用Python,因此在进行该项目…

物流工业三防平板实时跟踪货物位置和状态

在当今全球化和高度数字化的商业环境中,物流行业的高效运作对于企业的成功和经济的繁荣至关重要。货物的准确、实时跟踪不仅能提高物流效率,还能增强客户满意度,降低运营成本。物流工业三防平板的出现,为实现货物位置和状态的实时…

使用redis进行短信登录验证(验证码打印在控制台)

使用redis进行短信登录验证 一、流程1. 总体流程图2. 流程文字讲解:3.代码3.1 UserServiceImpl:(难点)3.2 拦截器LoginInterceptor:3.3 拦截器配置类: 4 功能实现,成功存入redis (黑…

2017年,我成为了技术博主

2017年9月,我已经大三了。 >>上一篇(爪哇,我初窥门径) 我大二学了很多java技术,看似我一会就把javaweb/ssh/ssm这些技术栈给学了。 这些技术确实不难,即便是我,我都能学会,…

深入理解 LXC (Linux Containers)

目录 引言LXC 的定义LXC 的架构LXC 的工作原理LXC 的应用场景LXC 在 CentOS 上的常见命令实验场景模拟总结 1. 引言 在现代 IT 基础设施中,容器技术已经成为一种重要的应用和部署方式。与虚拟机相比,容器具有更高的效率、更轻量的特性和更快的启动速度…

MySQL GROUP_CONCAT 函数详解与实战应用

提示:在需要将多个值组合成一个列表时,GROUP_CONCAT() 函数为 MySQL 提供了一种强大的方式来处理数据 文章目录 前言什么是 GROUP_CONCAT()基本语法 示例使用 GROUP_CONCAT()去除重复值排序结果 前言 提示:这里可以添加本文要记录的大概内容…

第一次作业--数据库-搭建MySQL环境

一、下载 二、进入安装向导 1.选择Custom ,然后点击next 2.选择安装地址 点击第一个MySQL Servers然后依次点击打开到MySQL Server 8.0.37-X64 点击向右的绿色箭头 点击MySQL Server 8.0.37-X64 然后看到下面的蓝色Advanced Options 更改安装路径 然后点击next …

刷题(day02)

1、leetcode136.删除链表的结点 给定单向链表的头指针和一个要删除的节点的值,定义一个函数删除该节点。 返回删除后的链表的头节点。 示例 1: 输入: head [4,5,1,9], val 5 输出: [4,1,9] 解释: 给定你链表中值为 5 的第二个节点,那么在调用了你的函数…

说说iOS苹果的“开发者模式”什么时候需要打开 需不需要提前打开

在 iOS 开发过程中,开发者模式(Developer Mode)是一个非常重要的功能,它允许开发者在设备上运行和调试自己的应用程序。 经常有人私信或在群里问到,“我没有开发者模式,怎么办”,“开发者模式是…

优秀策划人必逛的地方,你不会还不知道吧?

道叔今天依然记得当初刚入行的时候,每天为完成策划任务,焦虑的整晚睡不着觉的痛苦。 但其实……很多时候,选择比努力更重要 优秀的策划和文案,也从来不是天生,你要走的路,前人都已经走过,你要做的仅仅是整…

windows JDK11 与JDK1.8自动切换,以及切换后失效的问题

1.windows安装不同环境的jdk 2.切换jdk 3.切换失败 原因:这是因为当我们安装并配置好JDK11之后它会自动生成一个环境变量(此变量我们看不到),此环境变量优先级较高,导致我们在切换回JDK8后系统会先读取到JDK11生成的…

Windows11配置WSL2支持代理上网

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、安装WSL2分发版二、配置步骤三、测试总结 前言 说起来本来这个功能我也不需要的,只是最近突然有个需求就顺便研究了下,WSL2默认的网…

【漏洞复现】29网课交单平台 SQL注入

声明:本文档或演示材料仅用于教育和教学目的。如果任何个人或组织利用本文档中的信息进行非法活动,将与本文档的作者或发布者无关。 一、漏洞描述 29网课交单平台是一个在线学习平台,用于帮助学生完成网络课程的学习任务。这个平台提供了包括…

泛微E9开发 控制Radio框字段打印是否仅显示选中项文字

控制Radio框字段打印是否仅显示选中项文字 1、需求说明2、实现方法3、扩展知识点控制Radio框字段打印是否仅显示选中项文字格式参数说明样例 1、需求说明 当我们对单选框进行打印时,往往会把所有的选项一起打印出来(如下图所示),现…

【Linux进阶】文件系统4——文件系统特性

1.磁盘组成与分区的复习 首先说明一下磁盘的物理组成,整块磁盘的组成主要有: 圆形的碟片(主要记录数据的部分);机械手臂,与在机械手臂上的磁头(可擦写碟片上的数据);主轴马达,可以…

Redis学习 - 基础篇

Redis学习 - 基础篇 一. 简介 Redis 是一个高性能的key-value数据库,常用的数据类型如下:string,list,set,zset,hash 二. 安装 Widows和Linux下如何安装Redis-CSDN博客 三. 常用命令 配置及数据库操作…

[ TOOLS ] JFLASH 使用说明

一、使用everything查找JFLASH everything是指这个软件,使用这个方便查找想要的文件 二、创建一个工程并配置 创建完后进行配置: Target devic: 板子的芯片型号,比如R7FA6M4Target interface: 一般是SWDSpeed: 一般是4000kHz, 不能下载则将Sp…

数学建模美赛入门

数学建模需要的学科知识 高等数学线性代数 有很多算法的掌握是需要高等数学和线代的相关知识 如:灰色预测模型需要微积分知识;神经网络需要用到导数知识;图论和层次分析法等都需要用到矩阵计算的相关知识等; 概率论与数理统计&am…

基于SpringBoot构造超简易QQ邮件服务发送 第二版

目录 追加 邮箱附件 添加依赖 编码 测试 第二版的更新点是追加了 邮箱附件功能 ( 后期追加定时任务 ) 基于SpringBoot构造超简易QQ邮件服务发送(分离-图解-新手) 第一版 追加 邮箱附件 添加依赖 <!-- 电子邮件 --><dependency><groupId>org.spri…