【小5聊】Python3 使用selenium模块实现简单爬虫系列一

news2025/2/2 15:02:46

第一次听说Python还是在工作的时候,还是一位女生在用,当时她说可以用来处理excel文档,特别是一些统计分析。第二次让我真正进入python世界,还是在一次C站举办的大赛上。聊聊你是因为什么机缘巧合进入到python圈的呢?不妨留言说说

本期主要是聊聊,我接触到的selenium模块实现简单的爬虫效果

爬虫输出标题效果

 

 

1、开发环境

1)windows 11 家庭中文版

说实在的,win11真心不够稳定和好用,特别是改了那个鼠标右键出菜单那个,非常不习惯

 

 2)Visual Studio 2022 社区版

3)Python 3.9

 2、爬虫场景

1)什么是爬虫

一般指网络爬虫,自动获取网页内容的程序

2)先简单设置一个爬虫场景

当程序运行后,能够爬取C站首页推荐区域的前10条资讯标题

3、小知识点

1)函数和模块

python本身内置了一些常用函数,以及一些内置的模块,模块下又有很多函数方法

比如:math和random模块分别包含了数学运算相关的函数以及随机数相关的函数

2)引入模块必不可少

3)import和from import的区别

两者都可以为导入目标重新命名

import 具体到模块,不能具体到函数和类等

from import可以具体到类、函数

4、爬虫编码分析

1)Selenium

主要用于Web应用程序的自动化测试工具包

2)Webdriver

调用浏览器的API(程序接口),并返回响应结果的工具,这个工具包在Selenium包里面

3)安装模块

 

 4)对目标内容进行分析

爬虫目标的标题为span标签,且class为blog-text

 

5)下载chromedriver.exe

点击下载-chromedriver.exe,尽量放到英文目录

6)常见问题 - 编码无法识别

在脚本开头写上:# coding=gb2312 或者 # coding=utf-8

7)'WebDriver' object has no attribute 

可能已经使用了新的写法

5、完整代码

# coding=gb2312
from selenium import webdriver
from selenium.webdriver.common.by import By
# 导入selenium自动化模块的子模块-webdriver-浏览器驱动模块

# chrom谷歌浏览器方式打开指定网站
driver = webdriver.Chrome()
driver.get("https://blog.csdn.net")
 
# 获取返回多个span标签对象
spans = driver.find_elements(by=By.CLASS_NAME,value='blog-text')

for span in spans:
    # 标题文本
    print(span.text)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/104022.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

金盾杯2022-AGCTFS战队 wp

文章目录Web图书馆EzPHPeZphp2SQLSkip有来无回反败为胜Crypto小菜一碟RRSSAAsimpleRrandMISC盗梦空间qianda0_Sudoku数据泄露01-账号泄露追踪数据泄露02-泄露的密码数据泄露03-泄露的密钥ReverseTeaPwnLoginWtfWeb 图书馆 根据提示找到 干货|最全的Tomcat漏洞复现…

Qt5 网页标题、关键词提取工具Findyou

Qt5 网页标题、关键词提取工具Findyou 一、程序运行 运行界面 辅助功能,可用于将扫描器的扫描结果转换为url 二、所涉及的重要知识点 1、Qt爬取https的网页 来自宇龍_ https://blog.csdn.net/qq_45809384/article/details/122049295?spm1001.2014.3001.5506 打…

Foxmail客户端添加163账号和邮件备份163邮箱

文章目录一、Foxmail添加163账号1. 点击图标2. 账号管理3. 新建4. 手动设置5. 填写信息6. 创建二、邮件转移备份2.1. 邮件折叠2.2. 选择目标邮箱2.3. 同步服务端Foxmail客户端添加163账号的具体步骤如下:一、Foxmail添加163账号 1. 点击图标 首先打开Foxmail客户端…

51寻找数组中出现次数超一半的数

51寻找数组中出现次数超一半的数 一看题目就想用hash表,但是要求空间复杂度为1,说明不可以用哈希表去存。一直在原地数组上思考,类似桶排序,可是这取决于数值的大小,最后还是看了题解,学到了。 思想是&…

外汇天眼:一笔赚了12600美元 你羡慕吗?

在外汇投资中,黑平台一直是外汇投资圈的一枚毒瘤,不能顺利出金也是外汇投资面临的最大风险之一。 对于外汇投资者而言,外汇交易平台的选择至关重要。 选择好的外汇交易平台,最重要的是:选择安全可靠的平台&#xff0…

Blackmagic黑魔法摄像机braw视频帧损坏文件修复方法

Blackmagic是全球知名的影视级产品供应商,其高清摄像机是国内外各种剧组的最爱。Blackmagic的新产品目前使用braw格式,其编码采用自定义的raw编码,视频的效果和阿莱不相上下。之前我们已经多次介绍过这种braw文件的修复,近期我们处…

grpc的使用

GRPC学习 本文包括grpc的入门使用和四种实现方式 文章目录一、GRPC 安装和hello world1、什么是GRPC2、安装grpc和代码3、服务端3.1、取出 server3.2、挂载方法3.3、注册服务3.4、创建监听4、客户端二、protobuf语法三、GRPC server 的使用1、普通服务2、流式传入(客…

通达信破解接口怎么委托下单?

通达信破解接口主要是利用数学公式建立模型,通过大量数据判断未来价格走势,通过程序选股。虽然选股也比较广泛,但也能覆盖A股市场的四千多只股票,能排除强行涨跌等人为因素,执行的纪律性强。所以对于通达信破解接口对股…

【笔记】git 修改之前的提交记录信息(git commit -m ‘...‘)

文章目录一、修改最后一条提交记录信息二、修改前面某条或某几条提交记录信息一、修改最后一条提交记录信息 git commit --amend进入vi编辑器后: 按i下方出现’- - 插入 - -‘的提示时,便可编辑提交记录信息按ESC,输入:wq保存退出&#xff0…

ICG衍生物ICG-Sulfo-OSu的产品描述及保存建议

中文名称 ICG-Sulfo-OSu 英文名字 ICG-Sulfo-OSu 凯新生物描述: (ICG)是一种用于医学诊断的菁染料它用于测定心输出量、肝功能和肝血流,以及眼科血管造影它的峰值光谱吸收接近800 nm这些红外频率穿透视网膜层,使ICG血管造影能够比…

【STA】(2)概念

目录 1.CMOS逻辑设计 1.1 基本MOS结构 1.2 COMS逻辑门 1.3 标准单元 2.CMOS单元建模 3.电平翻转波形 4.传播延迟 5.波形的转换率 6.信号之间的偏移 7. 时序弧和单调性 8.最小和最大时序路径 9.时钟域 10.工作条件 1.CMOS逻辑设计 1.1 基本MOS结构 MOS(Metal Oxide…

2022年Python笔试选择题及答案(秋招)

2022年Python笔试选择题及答案(秋招) 🏠个人主页:编程ID 🧑个人简介:大家好,我是编程ID,一个想要与大家共同进步的程序员儿 🧑如果各位哥哥姐姐在准备面试,找…

【Redis-11】Redis事务实现原理

Redis通过MULTI、EXEC、WATCH等命令来实现事务的功能,事务提供了一种将多个命令请求打包,然后一次性,顺序性的执行多个命令的机制。在事务执行期间,服务器不会中断事务去执行其他客户端的命令,他会讲事务中所有命令执行…

谈主成分分析/因子分析中的特征值“矩阵近似”

主成分分析和因子分析是数据降维的常用手段,其中以特征值为载体,在不断降维“近似”原本的协方差矩阵。 CSDN中一些文章在介绍这个问题或者叫“特征值分解”时,讲得都比较学术化,今天用一个小例子,还是面向新人&#…

Redis高可用之哨兵机制实现细节

Redis高可用之哨兵机制实现细节 本文来自我的 technotes [1] Redis篇,欢迎你常来逛逛。 正文 在上一篇的文章《Redis高可用全景一览》中,我们学习了 Redis 的高可用性。高可用性有两方面含义:一是服务少中断,二是数据少丢失。主…

【树莓派不吃灰】兄弟连篇⑥ Linux系统进程管理

目录1、进程查看1.1 ps1.2 top1.3 pstree2、终止进程2.1 kill2.2 killall2.3 pkill3、工作管理4、系统资源查看4.1 vmstat 监控系统资源4.2 dmesg 开机内核检测信息4.3 free 查看内存使用4.4 查看cpu信息4.5 uptime4.6 uname4.7 判断当前系统位数4.8 查询当前linux发行版本4.9 …

Windows及Kail安装配置

apache在kali环境搭建 Kali虚拟机中是包含有Apache的,在/etc目录下ls即可显示出来, 所以这里只需要进行配置就可以了。 图1.1 Apache2目录 打开Apache服务,开启后可以使用status命令查看服务状态。 /etc/init.d/apache2 start /etc/init.d…

【5】控制语句

指针 Go中不用“->”运算符,用的是 “.” 选择符“&”:取地址符“*”:访问目标对象符默认值为:nil (不是NULL)、- -:作为语句,只可以自己放一行,而且放在右边(不是表达式) …

一款强大的API接口文档管理工具(Smart-Doc + Torna)

【本文由龙飞同学供稿】 在团队协作开发项目的时候,接口文档承担着向其他开发人员说明接口相关信息的重要任务,因此,一份清晰而又相近的接口文档至关重要。 但是,写接口文档的痛苦想必各位开发人员都体验过,明明写接…

在职读研有意义么?来社科院与杜兰大学金融管理硕士项目探寻答案

在职场当我们遇到变化,尤其是发展上有瓶颈期的时候,我们会寻找向内突破,通过提升自己的核心竞争力来应对,通过再学习来增加自身的优势。那么在职读研有意义吗?我们来社科院与杜兰大学金融管理硕士项目来探寻。 一、读在…