Selenium实战案例2:东方财富网股吧评论爬取

news2025/2/22 14:26:54

        上一篇文章,我们使用Selenium完成了网页内文件的自动下载,本文我们将使用Selenium来爬取东方财富网股吧内笔记的评论数据。

网页内容分析

         网页内容的分析是web自动化中的关键一步。通过分析网页结构,我们可以确定需要抓取的数据位置以及操作元素的方式。

        与爬虫不同的是,web自动化通常是对浏览器渲染后的html网页直接进行操作,因此,我们不需要像爬虫那样进行抓包分析,只需要在原网页中定位元素并进行相应的操作即可。


登录弹窗关闭       

 这里,我们在东方财富网的网页端随机进入一支股票的股吧,Edge浏览器ctrl+shift+i,Chrome浏览器F12一键打开开发者工具后,进行分析。

        首先,进入后,引入眼帘的便是广告弹窗,对于这种弹窗我们直接使用XPATH定位到右上角的XX,然后点击关闭即可。

单页评论定位

         每一页的评论,都被放在了一个table内,并且tabel内 <tr>class=listitem</tr> 每一个名为listitem的行,即是该页内每条评论存放的位置。

那么在代码中,我们只需要这样写变可以将改页内所有评论爬取下来:

trs=webdriver.find_elements(By.CLASS_NAME,'listitem')
comments=[tr.text for tr in trs]

多页评论定位

       当我们切换页面的时候,观察网页url,发现:

第1页内评论 

第2页内评论

        在切换页数时,url唯一变换的是查询参数,而查询参数实际上就是由 股票代码_页数构成,当然第一页除外,所以,当我们想要爬取一支股票多页的评论时,便可以简单的在一个页数循环内,让webdriver打开新的一个网页,接着重复之前的工作即可。


源代码

import time
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
class 东方财富网():
    def __init__(self,StockCode:str,pages:int=1,headless:bool=False):
        '''
        Args:
            pages:爬取评论页数。
            headless:是否开启无头模式。
            StockCode:股票代码。
        '''
        self.StockCode=StockCode
        self.pages=pages
        self.headless=headless
        self.urls=[f'https://guba.eastmoney.com/list,{self.StockCode}.html']
        self.comments={page:[] for page in range(1,self.pages+1)}#构建一个字典格式为{页数i:[第i页的评论列表]}
    def comments_scraper(self):
        #根据股票代码和页数构建所有待爬取的url
        for page in range(2,self.pages+1):
            self.urls.append(f'https://guba.eastmoney.com/list,{self.StockCode}_{page}.html')
        #配置webdriver的options
        self.Options=Options()
        self.Options.add_argument('--disable-blink-features=AutomationControlled')#隐藏自动化控制
        self.Options.add_argument('--ignore-ssl-errosr')#忽略ssl错误
        self.Options.add_argument('--ignore-certificate-errors')#忽略证书错误
        self.Options.add_experimental_option('excludeSwitches', ['enable-logging'])#隐藏自动化控制
        self.Options.add_experimental_option('excludeSwitches',['enable-automation'])#隐藏自动化控制
        if self.headless:#无头模式运行自动化代码
            self.Options.add_argument('--headless')
            self.Options.add_argument('--disable-gpu')
        self.browser=webdriver.ChromiumEdge(self.Options)
        
        for i in range(self.pages):
            self.browser.get(self.urls[i])
            self.browser.maximize_window()#webdriver全屏
            self.browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {#执行一段js代码,隐藏自动化控制
            "source": """
            Object.defineProperty(navigator, 'webdriver', {
                get: () => undefined
            })
            """})
            time.sleep(2)
            #登录弹窗只在第一页弹出,我们在第一页弹出点击关闭后就不痛再点击了,因此第二页之后是不存在关闭弹窗的按钮的
            #因此这里使用try来捕获第二页及以后的NosuchelementException,先尝试点击关闭按钮,如果存在点击,不存在引发异常直接pass什么也不用管
            #接着怕我们的数据就行
            try:
                close=self.browser.find_element(By.XPATH,'/html/body/div[5]/img[1]')
                close.click()
            except NoSuchElementException:
                pass
            comments=self.browser.find_elements(By.CLASS_NAME,'listitem')
            comments=[comment.text for comment in comments]
            self.comments[i+1]=comments
            print(f'共计爬取{self.pages}页评论,第{i+1}页评论已爬取完毕')
        self.browser.quit()
        with open(f'{self.StockCode}股评爬取.txt','w',encoding='utf-8') as f:
            for i in range(1,self.pages+1):
                f.write(f'第{i}页股评\n{self.comments[i]}\n\n')
东方财富网(headless=False,pages=5,StockCode='600600').comments_scraper()

爬取结果

总结

本文介绍了Selenium爬取页面内容的实例,通过上述实例我们不难总结出一个Selenium爬虫的基本思路:

1.开发者工具定位爬取内容在源代码中区域。

2.使用合适的合适的selenium定位方式定位爬取内容。

3.选择合适的等待机制与异常处理机制(可能非必须)。

4.根据爬取内容的特性,选择适当的处理方式:对于文字内容,我们通常使用text属性获取其文字内容。

总重要的是,所有的操作必须要考虑到各种情况,并且合乎逻辑!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2303454.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

webmin配置终端显示样式,模仿UbuntuDesktop终端

webmin配置终端显示样式&#xff0c;模仿UbuntuDesktop终端 在webmin中&#xff0c;默认情况下是没有图形化桌面的&#xff0c;因此终端界面也不会像 Ubuntu Desktop 那样有预设的紫色背景和颜色主题。不过&#xff0c;你可以通过修改 ~/.bashrc 文件&#xff0c;并结合安装和…

移动通信发展史

概念解释 第一代网络通信 1G 第二代网络通信 2G 第三代网络通信 3G 第四代网络通信 4G 4g网络有很高的速率和很低的延时——高到500M的上传和1G的下载 日常中的4G只是用到了4G技术 运营商 移动-从民企到国企 联通-南方教育口有人 电信 铁通&#xff1a;成立于 2000 年…

OutOfMemoryError unable to create new native thread

现象 生产环境大量的报OutOfMemoryError: unable to create new native thread Caused by: java.lang.OutOfMemoryError: unable to create new native threadat java.lang.Thread.start0(Native Method) [na:1.8.0_291]at java.lang.Thread.start(Thread.java:717) [na:1.8.…

探索无网用Deepseek+qwen来助力Solidworks二次开发

在本教程中&#xff0c;我们将详细介绍如何在本地环境中使用 DeepSeek 和 Qwen 模型&#xff0c;结合 AnythingLLM&#xff0c;构建一个用于 SolidWorks 二次开发的私有化智能知识库。 目录 前言 环境准备 2.1 安装 Ollama 2.2 安装 Docker Desktop DeepSeek 本地部署 3.1…

MAC快速本地部署Deepseek (win也可以)

MAC快速本地部署Deepseek (win也可以) 下载安装ollama 地址: https://ollama.com/ Ollama 是一个开源的大型语言模型&#xff08;LLM&#xff09;本地运行框架&#xff0c;旨在简化大模型的部署和管理流程&#xff0c;使开发者、研究人员及爱好者能够高效地在本地环境中实验和…

deepseek清华大学第二版 如何获取 DeepSeek如何赋能职场应用 PDF文档 电子档(附下载)

deepseek清华大学第二版 DeepSeek如何赋能职场 pdf文件完整版下载 https://pan.baidu.com/s/1aQcNS8UleMldcoH0Jc6C6A?pwd1234 提取码: 1234 或 https://pan.quark.cn/s/3ee62050a2ac

ResponseUtil.out 方法分析

文章目录 1. 问题背景2. ResponseUtil.out 方法分析a. 方法功能b. 序列化过程c. 注解 JsonInclude(JsonInclude.Include.NON_NULL) 的作用 3. Java 对象如何被序列化为 JSON4. 序列化的时机5. 谁操作序列化6. 自动序列化的条件7. 总结8. 可能的问题和注意 1. 问题背景 在 Admi…

基于Flask框架的食谱数据可视化分析系统的设计与实现

【Flask】基于Flask框架的食谱数据可视化分析系统的设计与实现 &#xff08;完整系统源码开发笔记详细部署教程&#xff09;✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 在当今数字化时代&#xff0c;信息可视化已成为一种高效的数据理解和传播手段。…

java后端开发day18--学生管理系统

&#xff08;以下内容全部来自上述课程&#xff09; 1.业务分析并搭建主菜单 1.需求 采取控制台的方式去书写学生管理系统 2.分析 1.初始菜单 2.学生类 属性&#xff1a;id&#xff0c;姓名&#xff0c;年龄&#xff0c;家庭住址 3.添加功能 键盘录入每一个学生信息并添…

工厂车辆排队系统

工厂车辆排队系统是一种智能化调度管理系统&#xff0c;用于管理工厂内部所有车辆的进出和排队方式。采用JAVA语言开发&#xff0c;对接了仰邦控制卡硬件。 工厂车辆排队系统是一种智能化调度管理系统&#xff0c;用于管理工厂内部所有车辆的进出和排队方式。该系统可以提高车…

深度理解多态的底层实现

前言 首先先回顾一下上次的知识 一、多态的概念 多态(polymorphism)的概念&#xff1a;通俗来说&#xff0c;就是多种形态。多态分为编译时多态(静态多态)和运⾏时多态(动态多态)&#xff0c;这⾥我们重点讲运⾏时多态&#xff0c;编译时多态(静态多态)和运⾏时多态(动态多态…

空字符串““、空白字符串“ “和 null 三者的区别

空字符串、空白字符串和 null 三者的区别表格&#xff1a; 类型定义示例长度是否有值空字符串字符串长度为 0&#xff0c;但不是 null&#xff0c;即存在一个有效的空字符串对象。""0有值&#xff08;空值&#xff09;空白字符串字符串包含空格、制表符等空白字符&a…

在mfc中使用自定义三维向量类和计算多个三维向量的平均值

先添加一个普通类, Vector3.h, // Vector3.h: interface for the Vector3 class. // //#if !defined(AFX_VECTOR3_H__53D34D26_95FF_4377_BD54_57F4271918A4__INCLUDED_) #define AFX_VECTOR3_H__53D34D26_95FF_4377_BD54_57F4271918A4__INCLUDED_#if _MSC_VER > 1000 #p…

多线程和并发篇

多线程和并发篇 创建一个对象时底层汇编指令实现步骤&#xff08;cpu可能会进行指令重排序&#xff09;&#xff1a;一、二、三级缓存的实现&#xff1a;并发编程三要素&#xff1a;线程的五大状态&#xff1a;创建线程的三种方式&#xff1a;线程的特征和状态&#xff1a;Thre…

【3.5JavaScript】JavaScript字符串对象

文章目录 1.获取字符串长度2.大小写转换3.获取某一个字符4.截取字符串5.替换字符串6.分割字符串7.检索字符串位置8.例题&#xff1a;统计某一个字符的个数 在 JavaScript 中&#xff0c;对象是非常重要的知识点。对象分为两种&#xff1a;一种是 ”自定义对象“&#xff0c;另…

路由基本配置

学习目标 • 根据拓扑图进行网络布线。 • 清除启动配置并将路由器重新加载为默认状态。 • 在路由器上执行基本配置任务。 • 配置并激活以太网接口。 • 测试并检验配置。 • 思考网络实施方案并整理成文档。 任务 1&#xff1a;网络布线 使用适当的电缆类型连接网络设备。…

windows上vscode cmake工程搭建

安装vscode插件&#xff1a; 1.按装fastc&#xff08;主要是安装MinGW\mingw64比较方便&#xff09; 2.安装C&#xff0c;cmake&#xff0c;cmake tools插件 3.准备工作完成之后&#xff0c;按F1&#xff0c;选择cmake:Quick Start就可以创建一个cmake工程。 4.设置Cmake: G…

VUE3+TS+element-plus项目从0开始入门 - 创建项目、认识基本结构

文章目录 写在前面1、创建vue3项目npm create vuelatestnpm i 2、项目结构.vscodevue3结构a、项目树结构b、package.jsonc、tsconfig.jsond、index.htmld、srce、main.tsf、App.vue 写在前面 开前请自行下载vs code、node.js, 在vs code里面安装Vue - Official插件。本文使用的…

shared_ptr 不析构的问题记录

片段1&#xff1a; 片段2&#xff1a; 你们猜 哪个有问题 &#xff1f;

原生稀疏注意力机制(NSA):硬件对齐且可原生训练的稀疏注意力机制-论文阅读

摘要 长上下文建模对于下一代语言模型至关重要&#xff0c;但标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力提供了一种在保持模型能力的同时提高效率的有前途的方向。本文提出了一种名为 NSA&#xff08;原生可训练稀疏注意力机制&#xff09; 的方法&#xff…