Selenium用法详解【Options选项】【JAVA爬虫】

news2024/11/16 0:41:56

简介

本文主要讲解如何使用java代码利用selenium控制浏览器的启动选项Options的代码操作教程。

Options选项

这是一个Chrome的参数对象,在此对象中使用addArgument()方法可以添加启动参数,添加完毕后可以在初始化Webdriver对象时将此Options对象传入,则可以实现以特定参数启动Chrome。

设置浏览器后台运行

后台运行浏览器,通过selenium取到,洛阳泰山博客的,博主名字。

代码如下:


import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;


/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        // 设置后台静默模式启动浏览器
        chromeOptions.addArguments("--headless");
        WebDriver driver = new ChromeDriver(chromeOptions);
        driver.get("https://blog.csdn.net/weixin_40986713");
        WebElement element= driver.findElement(By.xpath("//div[@class='user-profile-head-name']/div[1]"));
         //输出元素里的文本内容
        System.out.println(element.getText());
    }
}

代码中还提供了另一种后台运行的方法,和上面的效果一样。

 // 设置后台静默模式启动浏览器
   chromeOptions.setHeadless(true);

设置浏览器最大化


import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;


/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        //设置浏览器启动最大化(windows写法)
        chromeOptions.addArguments("start-maximized");
         //mac写法
        //chromeOptions.addArguments("--start-fullscreen");
        WebDriver driver = new ChromeDriver(chromeOptions);
        driver.get("https://blog.csdn.net/weixin_40986713");
    }
}

自定义浏览器大小

     //自定义浏览器窗口大小
        chromeOptions.addArguments("--window-size=1366,768");

加载用户配置

我们在登录网站的时候,通常需要输入用户名、密码和验证码,那么有没有办法绕过登录环节呢?

有两种方法可以解决这个问题,一种是利用cookie,一种是利用chrome浏览器的用户配置,这里主要讲下利用chrome浏览器的用户配置的实现。


import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;


/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        //加载用户配置
        chromeOptions.addArguments("--user-data-dir=C:\\Users\\Lenovo\\AppData\\Local\\Google\\Chrome\\User Data");
        WebDriver driver = new ChromeDriver(chromeOptions);
        driver.get("https://blog.csdn.net/weixin_40986713");
    }
}

如何查看User Data的路径,chrome浏览器里输入chrome://version,即可查看User Data的路径

隐藏指纹特征

selenium 对于部分网站来说十分强大,但它也不是万能的,实际上,selenium 启动的浏览器,有几十个特征可以被网站检测到,轻松的识别出你是爬虫。

不相信?接着往下看,首先你手动打开浏览器输入https://bot.sannysoft.com/,在网络无异常的情况下,显示应该如下:

下面通过 selenium 来打开浏览器。

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;


/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        WebDriver driver = new ChromeDriver();
        driver.get("https://bot.sannysoft.com/");
    }
}

通过 webdriver:present 可以看到浏览器已经识别出了你是爬虫,我们再试一下无头浏览器。


import org.apache.commons.io.FileUtils;
import org.openqa.selenium.OutputType;
import org.openqa.selenium.TakesScreenshot;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;

import java.io.File;
import java.io.IOException;


/**
 * @author tarzan
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException, IOException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        //后台运行
        chromeOptions.setHeadless(true);
        WebDriver driver = new ChromeDriver(chromeOptions);
        driver.get("https://bot.sannysoft.com/");
        Thread.sleep(1000);
        // 截图操作
        File sourceFile = ((TakesScreenshot) driver).getScreenshotAs(OutputType.FILE);
        // 截图存储
        FileUtils.copyFile(sourceFile, new File("E:\\screenshot\\"+driver.getTitle()+".png"));
    }
}

没错,就是这么真实,对于常规网站可能没什么反爬,但真正想要抓你还是一抓一个准的。

说了这么多,是不是 selenium 真的不行?别着急,实际还是解决方法的。关键点在于如何在浏览器检测之前将这些特征进行隐藏,事实上,前人已经为我们铺好了路,解决这个问题的关键,只需要配置chromeOptions设置特征隐藏就行。

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;


/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        //禁用WebDriver特征
        chromeOptions.addArguments("--disable-blink-features");
        chromeOptions.addArguments("--disable-blink-features=AutomationControlled");
        //隐身模式
        chromeOptions.addArguments("--incognito");
        WebDriver driver = new ChromeDriver(chromeOptions);
        driver.get("https://bot.sannysoft.com/");
    }
}

隐身模式 意思是 Web 浏览器上的一个设置,允许您在浏览互联网时隐藏起来。隐身模式的工作原理是从 Web 浏览会话中删除本地数据。这意味着您的本地搜索历史记录中不会记录任何浏览;网站试图上传到您计算机的任何 cookie 都将被删除或阻止。其他跟踪程序、临时文件和第三方工具栏也被禁用。

禁用浏览器正在被自动化程序控制的提示

//chrome 76版本以前的写法
chromeOptions.AddArgument("disable-infobars");
//chrome 76版本以后的写法
 chromeOptions.setExperimentalOption("excludeSwitches", new String[]{"enable-automation"});

模拟移动设备

//模拟iPhone 6
chromeOptions.addArguments("user-agent=\"Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1");
 //模拟 android QQ浏览器
chromeOptions.addArguments("user-agent=\"MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1");

添加代理

这个地方尤其需要注意的是,在选择代理时,尽量选择静态IP,才能提升爬取的稳定性。因为如果选择selenium来做爬虫,说明网站的反爬能力比较高(要不然直接上scrapy了),对网页之间的连贯性,cookies,用户状态等有较高的监测。如果使用动态匿名IP,每个IP的存活时间是很短的(1~3分钟)


import org.openqa.selenium.Proxy;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;


/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        Proxy proxy=new Proxy();
        //示例
        proxy.setHttpProxy("http://D37EPSERV96VT4W2:CERU56DAEB345HU90@proxy.abuyun.com:9020");
        chromeOptions.setProxy(proxy)
        WebDriver driver = new ChromeDriver(chromeOptions);
    }
}

设置chrome的下载路径


import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;



/**
 * @author Lenovo
 */
public class SeleniumDemo {
    private final static String webDriverName = "webdriver.chrome.driver";
    private final static String webDriverPath ="E:\\chromedriver\\chromedriver.exe";

    public static void main(String[] args) throws InterruptedException {
        System.setProperty(webDriverName, webDriverPath);
        ChromeOptions chromeOptions = new ChromeOptions();
        chromeOptions.addArguments("download.default_directory", "D://download");
        WebDriver driver = new ChromeDriver(chromeOptions);
    }
}

设置编码格式

        //设置浏览器编码为UTF-8
        chromeOptions.addArguments("lang=zh_CN.UTF-8");

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/150966.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

minio分布式存储的go语言开发衔接

minio是分布式存储,可集群部署,阵列磁盘,纠错码等大数据存储必备的技术。由于它是go语言开发的,我们用go来与它衔接:上传文件,比如图片,然后预览。这里涉及几个重要的知识点。一是minio永久路径…

Vue学习笔记(二)

Vue学习笔记二脚手架利用脚手架软件生成项目包脚手架 随着时代的发展, WEB开发逐渐出现了 工程化 特征: 流水线作业! 脚本方式: 到饭店 自选点餐… 脚手架方式: 点 套餐, 一套完善的配置,扩展, 各种易用功能… 脚手架: 就是一款软件, 可以按照用户需求自动生成 开发环境: 包含…

[博士论文]基于图数据的可信赖机器学习

密歇根大学Towards Trustworthy Machine Learning on Graph Datahttps://deepblue.lib.umich.edu/handle/2027.42/174201摘要机器学习已经被应用于越来越多影响我们日常生活的与社会相关的场景,从社交媒体和电子商务到自动驾驶汽车和刑事司法。因此,为了…

7-2 洛希极限

科幻电影《流浪地球》中一个重要的情节是地球距离木星太近时,大气开始被木星吸走,而随着不断接近地木“刚体洛希极限”,地球面临被彻底撕碎的危险。但实际上,这个计算是错误的。 洛希极限(Roche limit)是一…

用Python实现十大经典排序算法(附动图)

排序算法是《数据结构与算法》中最基本的算法之一。 排序算法可以分为内部排序和外部排序,内部排序是数据记录在内存中进行排序,而外部排序是因排序的数据很大,一次不能容纳全部的排序记录,在排序过程中需要访问外存。常见的内部排…

69、CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields

简介 官网:https://cassiepython.github.io/clipnerf/ 利用对比语言-图像预训练(CLIP)模型的联合语言-图像嵌入空间,提出了一个统一的框架,可以用短文本提示或示例图像以用户友好的方式操纵NeRF。改论文结合NeRF的新视图合成能力和生成模型潜…

【自学Python】Python缩进规则

Python缩进规则 Python缩进规则教程 Python 和其它程序设计语言采用大括号 {} 分隔代码块不同,Python 采用代码缩进和冒号来区分代码块之间的层次。 在 Python 中,对于 类定义、函数定义、流程控制语句、异常处理语句 等,行尾的冒号和下一…

【Linux篇】之TFTP服务配置

tftp是基于UDP协议的简单文本文件传输协议; 用途:使用网络的方式将文件传输(下载)到开发板中。 具体的tftp服务的安装步骤: 1> 安装tftp服务 (ubuntu必须可以上网) sudo apt-get update ----> 更新源 sudo apt-get install tftpd-hpa…

【MyBatis】如何使用“动态SQL”(不用找了,这一篇足矣)

目录 一、if标签 二、where标签 三、trim标签 四、choose、when、otherwise 五、foreach标签 六、sql标签 一、if标签 if,通过test属性中的表达式判断标签中的内容是否有效(有效才将if里面的内容拼接到sql中);一般用于用户在…

Authing 通过中国信通院「身份治理系统和工具能力」全面级评估

Authing 通过中国信通院「身份治理系统和工具能力」全面级评估 近期,Authing 荣获由中国信通院颁发的「身份治理系统和工具能力」全面级评估。在统一身份管理、统一认证管理、开发集成管理以及统一安全管理四个模块满足身份治理系统和工具支撑能力全面级要求。 评估…

Java--main()方法

文章目录一、main()方法使用二、mian()方法调用一、main()方法使用 1、访问控制权限是公有的(public) 2、main() 方法是静态的。如果要在 main() 方法中调用本类中的其他方法,则该方法也必须是静态的,否则需要先创建本类的实例对…

进程间通信【共享内存】

共享内存共享内存共享内存原理创建共享内存关联共享内存去关联共享内存控制共享内存使用共享内存代码共享内存 进程间通信的前提是:先让不同的进程,看到同一份资源 之前,管道进程通信是采用看到同一个文件,那么共享内存就是看到同…

审查 Git 仓库的绝佳工具Tig

简介 Tig 是一个 基于 ncurses 的 Git 文本模式界面,它允许你浏览 Git 仓库中的更改。它还可以充当各种 Git 命令输出的分页器。使用这个工具可以让我很好地了解在哪个提交中发生了哪些更改,最新的提交合并是什么等等。 git工作原理:https:…

黑马学ElasticSearch(三)

目录: (1)RestClient-操作索引库-导入demo (2)RestClient操作索引-hotel数据结构分析 (3)RestClient操作索引库-初始化RestClient (4)RestClient操作索引库-创建索引库…

如何掌握TikTok广告投放技巧,玩转“TikTok+独立站”新模式?

导读:TikTok已经发展成为全球第六大社交媒体网络,这使其成为一个非常富饶的广告目的地。 跨境卖家如何在 TikTok 上投放广告?在“TikTok独立站”模式中,卖家在 TikTok ads 上投放电商广告,用户点击后将跳转到独立站落地…

21. 合并两个有序链表(链表)

文章目录题目方法一 暴力法:创建头结点,比较拼接方法二 递归法参考文献题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,…

【从零开始学习深度学习】42. 算法优化之AdaDelta算法【基于AdaGrad算法的改进】介绍及其Pytorch实现

除了上一篇文章介绍的RMSProp算法以外,另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 。比较有意思的是,AdaDelta算法没有学习率这一超参数。 目录1. AdaDelta算法介绍2. 从零实现AdaDelta算法3. Pytorch…

UDS诊断系列介绍04-10会话服务

本文框架1. 系列介绍10服务概述2. 10服务请求与应答2.1 10服务请求2.2 肯定应答2.3 否定应答1. 系列介绍 UDS(Unified Diagnostic Services)协议,即统一的诊断服务,是面向整车所有ECU的一种诊断通信方式,是基于ISO 14…

Linux学习笔记——集群化环境前置准备

5.7、集群化环境前置准备 5.7.1、介绍 在前面,我们所学习安装的软件,都是以单机模式运行的。 后续,我们将要学习大数据相关的软件部署,所以后续我们所安装的软件服务,大多数都是以集群化(多台服务器共同…

使用OpenCV读取视频、图片并做简单处理

1.OpenCV的安装与卸载 在conda中安装opencv,打开Anaconda Prompt 使用国内镜像源安装opencv,命令如下: pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple 也可以安装opencv的另一个扩展包opencv-contrib-python&am…