爬虫内容学习-工具类---Selenium

news2024/9/24 19:17:18

 

一、爬虫学习建议:
在编写python爬虫程序时,只需要做以下两件事:

发送GET请求,获取HTML   [第一类]
解析HTML,获取数据           [第二类]
这两件事,python都有相应的库帮你去做,你只需要知道如何去用它们就可以了。

爬虫目前涉及两种一是获取网页类的如urllib库,requests库,对网页进行获取,获取内容,保存,响应等。

二、解析网页内容:

是网页中有很多内容,爬虫的本质是选择我需要的内容,例如我只想网页中的一部分图片,一部分视频或者一部分特殊的内容,这个选择的“部分”主要有:

1.正则表达式  

2.xpath

3.BeautifulSoup

4.jsonparh  

5.selenium

前期练习的时候,可以使用requests库+正则表达式  进行练习

后期使用的过程中,建议requests库+xpath库+Xpath Helper【浏览器工具】

工作中建议重点:requests库+xpath库+Xpath Helper【浏览器工具】+selenium结合使用


三、本次重点梳理关于selenium的事项--浏览器的下载对应驱动

3.1查看自己电脑的chrome的版本号码

python中使用chrome,首先自己的电脑的安装chrome浏览器,并且查看版本号码,然后去下载对应的驱动程序

 

 

3.2驱动的下载chromedriver

https://registry.npmmirror.com/binary.html?path=chromedriver

 查找与自己电脑最接近的浏览器的版本号码进行下载

 

 

 3.3把下载的压缩包解压放入你的python的程序的目录下

 

四、code代码

4.1selenium背景内容

随着爬虫的反扒措施加强,原来的受限,能不能利用现在的浏览器方式进行数据获取就是放在研究的地方,seleniu也是自动化测试工具

可以打开浏览器,然后相认一样操作浏览器,可以直接获取网页上的各种信息

4.2python中安装selenium

 pip install selenium

4.3验证是否可以使用


#让selenium启动谷歌浏览器的导入工作
from selenium.webdriver import Chrome
#1.创建浏览器对象
web=Chrome(executable_path="./chromedriver")

#2.打开一个网址
web.get("http://www.baidu.com")

#3.获取网页的title--验证是否驱动以及程序的是否可以使用
print(web.title)

4.4selenium+xpath联合使用的小实例


#让selenium启动谷歌浏览器的导入工作
from selenium.webdriver import Chrome
from lxml import etree

#1.创建浏览器对象,并且指定程序的驱动存在位置
web=Chrome(executable_path="./chromedriver")

#2.打开一个网址
web.get("https://sc.chinaz.com/tupian/huacaotupian.html")

#3.page_source获取浏览器当前页面的源码数据
html_text=web.page_source

#4.打印数据
# print(html_text)

#5.小实例,获取站长之家的一些图片地址链接地址

tree=etree.HTML(html_text)

# xpath的规则
xpathguize='//div[@class="tupian-list com-img-txt-list masonry"]//img/@src'
jpgslists=tree.xpath(xpathguize)
for jpgurl in jpgslists:
    print(jpgurl)
# #.获取网页的title--验证是否驱动以及程序的是否可以使用
# print(web.title)

4.5使用工具获取xpath规则的步骤以及方法

 


五、selenium的常用功能:

 5.1实例 通过自动通过百度搜索 内容

 


#让selenium启动谷歌浏览器的导入工作
from time import sleep

from selenium import webdriver


#1.创建浏览器对象,并且指定程序的驱动存在位置
from selenium.webdriver.common.by import By

bro=webdriver.Chrome(executable_path="./chromedriver")

#2.打开一个网址
bro.get("https://www.baidu.com/")

#3.标签定位

# 语法:find_element(by, value)
# by:查找的依据(根据什么属性来找),比如"id", "class name"
# value:属性或者标签名称具体的值,比如"a",

# .find_element()和find_elements()的区别
#
#         (1)find_element()的返回结果是一个WebElement对象,如果符合条件的有多个,默认返回找到的第一个,如果没有找到则抛出NoSuchElementException异常。
#
#         (2)find_elements()的返回结果是一个包含所有符合条件的WebElement对象的列表,如果未找到,则返回一个空列表。

# (1)通过webdriver对象的find_element("属性名","属性值")
# 获取百度的搜索框对象
# search_input_baidu=bro.find_element("id","kw")
# search_input_baidu=bro.find_element(by="id",value="kw")
# t通过id属性查找带标签
search_input_baidu=bro.find_element(By.ID,"kw")

# 在输入框中输入搜索条件"站长之家"
search_input_baidu.send_keys("站长之家")

sleep(1)


# 点击搜索按钮
# 通过类属性查找定位到标签
btn_baidu=bro.find_element(By.CLASS_NAME,"bg s_ipt_wr new-pmd quickdelete-wrap")

# 单击搜索按钮
btn_baidu.click()
sleep(5)
# 浏览器退出
bro.quit()
# #标签交互


5.2补充信息:

执行js程序代码:

# 执行js代码,js代码移动到屏幕的最低端
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
# 回退
bro.back()
# 前进
bro.forward()
# 浏览器退出
bro.quit()
# #标签交互

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/137414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

关乎你我,2022年都经历了哪些安全事件?|上云那些事

2022年,网络安全跟人们的工作生活关联愈发紧密。腾讯安全联合南方日报、南方,携手共建《上云那些事》栏目,为企业提供网络安全建设新思路,帮助大家及时发现身边的网络安全陷阱,提升安全意识和防范能力,减少…

论文阅读-虚假信息检测综述 - Fake News Detection on Social Media: A Data Mining Perspective

论文链接:https://arxiv.org/pdf/1708.01967.pdf 目录 摘要 1 引言 2. 假新闻定义 2.1 假新闻的定义 2.2 传统新闻媒体上的假新闻 2.3社交媒体上的假新闻 3.假新闻检测 3.1问题定义 3.2 特征提取 3.2.1 新闻内容特征 3.2.2 社会语境特征 3.3 模型构建 …

浅谈DNS域名解析的过程

用户在浏览器输入www.baidu.com时,DNS域名解析大致分为以下几个过程: 浏览器客户端检查自身有没有该域名的缓存: 如果浏览器有命中,直接返回该域名对应的IP地址,解析结束; (这个缓存可以设置TTL来控制有效时间,有点像A…

用C++求两个数的最大公约数和最小公倍数。(数论的基础思想)

目录原理最大公约数最小公倍数代码运行结果原理 最大公约数 有两个数字n和m。现在要求两个数字的最大公约数。 例如:n为18,m为4. 正常我们的思路求解最大公约数是暴力破解,遍历一遍公约数,取最大的那个,但是这样有一…

关闭Mac的Microsoft AutoUpdate弹框提示

macOS安装Microsoft Office for Mac之后,有时候会弹出Microsoft Auto Update微软应用自动更新工具。就像下面这样:(我不知道您会不会烦,我是烦了) 如果您也和我一样,不喜欢这样不经过允许就自动弹框的提示&…

【uiautomator2】 Android自动化测试框架

UiAutomator是Google提供的用来做安卓自动化测试的一个Java库. Uiautomator工作流程 1.在移动设备上安装atx-agent(守护进程),随后atx-agent启动uiautomator2服务(默认7912端口)进行监听 2.在PC上编写测试脚本并执行(相当于发送HTTP请求到移动设备的server端) 3.移动设备通过Wi…

python import失败解决方案

错误从何而起? 此时有这么一个目录结构 我们从a/b下执行python.exe ./main.py命令开始 案例: a/b/main.py导入a/package if __name__ "__main__":# 报错 ModuleNotFoundError: No module named packageimport package # 报错 ImportError: attempted relative…

Netty网络编程 - NIO基础

一. NIO 基础 non-blocking io 非阻塞 IO 1. 三大组件 1.1 Channel & Buffer channel 有一点类似于 stream,它就是读写数据的双向通道,可以从 channel 将数据读入 buffer,也可以将 buffer 的数据写入 channel,而之前的 st…

时间序列分析之auto_arima自动调参

背景 我们在进行ARIMA建模时,有一个非常重要的事情就是确定其中超参数p, d, q。 一般的流程需要先根据平稳性来确认差分的阶数d,然后根据平稳序列来观察ACF图和PACF图来确认p和q,当然中间还要根据网格训练查看AIC的值来确认,真个…

软件设计模式-行为型模式

行为型模式 行为型模式是对在不同的对象之间划分责任和算法的抽象化通过行为型模式,可以更加清晰地划分类与对象的职责,并研究系统在运行时实例对象之间的交互。在系统运行时,对象并不是孤立的,他们可以通过相互通信与协作完成某…

数据赋能的未来,看向嵌入式BI

数据分析能力越来越成为消费者和企业的必备品应用程序,复杂程度各不相同,从简单地一个网页或门户上托管一个可视化或仪表板,到在一个云服务上实现数据探索、建模、报告和可视化创建的应用程序。BI的实现方式越来越多,无论规模大小…

南京晓庄操作系统期末复习【大题】

操作系统期末复习大题第六章磁盘调度寻道时间与移动次数转换I/O中断请求第五章地址转换页面置换第四章动态分区地址转换第三章银行家算法处理机调度算法第二章进程同步第一章多道运行时间第六章 磁盘调度 前提小知识: 1.先来先服务(FCFS):…

ros版本apollo7.0.0规划控制算法

apollo.ros-7.0.0 上次给大家带来了之前学习apollo时开发的内容apollo.ros-1.0.0和apollo.ros-3.0.0,主要是针对apollo 1.0.0和3.0.0版本进行了ros1下的移植和规划控制算法的学习。本次在之前工作的基础上,针对apollo 7.0.0版本,进行了ros1下…

第二章:Linux常见指令以及权限理解

系列文章目录 文章目录系列文章目录前言一、Linux下基本概念指令操作操作系统的概念命令选项文件的概念Linux文件结构文件路径Linux下一切借文件二、Linux下基本指令ls: 显示当前目录下的文件名mkdir/rmdir:在当前路径下创建或删除目录pwd: 显…

国产智能2/4DIN+2/4 继电器输入输出MODBUS RTU数据采集IO模块

MODBUS RTU数据采集IO模块简介 DAMx 系列模块为 2/4 路开关量输入监测、2/4 路继电器输出控制模块。通讯接口为 1 路 RS-485 口,MODBUS-RTU 通讯协议。DC9~36V 电源供电。 DAM 系列模块可应用于各种工业自动化测量与控制系统中。开关量输出可控制中间继电…

educoder头歌数据结构 查找 第2关:实现散列查找(答案无错AC版)

本文已收录于专栏 🌲《educoder数据结构与算法_大耳朵宋宋的博客-CSDN博客》🌲 任务描述 本关要求通过补全函数ILH_InsKey和ILH_DelKey来分别实现插入和删除操作。 相关知识 本关讨论散列存储,散列函数使用除留余数法,冲突解决…

shell第六天作业——正则表达式与grepsed

题目 一、正则表达式与grep 1、显示/etc/rc.d/init.d/README文件中以不区分大小的h开头的行; 2、显示/etc/passwd中以sh结尾的行; 3、显示/etc/fstab中以#开头,且后面跟一个或多个空白字符,而后又跟了任意非空白字符的行; 4、…

Lemon LemonLime 中 SPJ Special Judge 使用 实践 入门 a

入门:题目,以整数形式给定圆的半径,输出该圆的周长,该圆的面积。比赛目录如下:标准输入输出数据如下:circle1.in1circle1.ans6.283185 3.141593circle2.in2circle2.ans12.566370 12.566370circle3.in3circl…

【IIC/I2C--温湿度传感器——GPIO模拟IIC协议】

IIC/I2C--温湿度传感器——GPIO模拟IIC协议IIC总线时序起始信号停止信号数据传输信号应答和非应答信号寻址IIC协议1.开始传输:2.发送您的数据:3.结束传输:4.注意:编写代码实验结果IIC总线时序 起始信号 1)起始信号和停…

装饰器模式

装饰器模式 1.装饰器模式介绍 初看上图感觉装饰器模式有点像俄罗斯套娃、某众汽车🚕,而装饰器的核心就是再不改原有类的基础上给类新增功能。不改变原有类,可能有的小伙伴会想到继承、AOP切面,当然这些方式都可以实现&#xff0c…