cdp4j爬虫自动化学习
- cdp4j介绍
- 依赖
- 通过识别本地文件进行调试
cdp4j介绍
cdp4j是一个Java库,它提供了高级API来通过DevTools协议控制Chrome或Chromium。它可以用于自动使用网页和测试网页。cdp4j默认情况下可以完全运行,但可以配置为运行无头Chrome或Chromium。
使用cdp4j,要求必须有谷歌浏览器
依赖
<!--cdp4j-->
<!-- https://mvnrepository.com/artifact/io.webfolder/cdp4j -->
<dependency>
<groupId>io.webfolder</groupId>
<artifactId>cdp4j</artifactId>
<version>3.0.15</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.jvnet.winp/winp -->
<dependency>
<groupId>org.jvnet.winp</groupId>
<artifactId>winp</artifactId>
<version>1.28</version>
</dependency>
通过识别本地文件进行调试
进行学习时,准备一个本地静态页面,该文件有一定要求,需要包含一些动态js进行加载后动态操作页面,目的为学习cdp4j的动态html获取能力,保存该文件为hello.html,后面代码会进行读取执行
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>海鸥的快乐一天</title>
<meta name="viewport" content="width=device-width,initial-scale=1.0,maximum-scale=1.0,user-scalable=no">
<meta name="apple-mobile-app-capable" content="yes">
<meta name="apple-mobile-app-status-bar-style" content="black">
<meta name="description" content="description">
<meta name="keywords" content="keywords">
<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="author" content="cononico">
<meta name="application-name" content="Cononico" >
</head>
<body>
<h1>hello world!</h1>
<p class="txt">这是一段普通文本, 属性为class="txt"</p>
<input class="test" name="test" type="text" value="白日依山尽,黄河入海流,欲穷千里目,更上一层楼。" style="width: 400px;"/>
</body>
<script>
window.onload = function() {
document.body.append("<div class='insert'>这是一段插入的div标签内容</div>");
var div = document.createElement("div");
div.setAttribute("class", "insert");
div.setAttribute("id", "dynamic_div");
div.innerHTML = "这是另外一段用js插入的div标签内容,用来测试动态js加载内容抓取,元素的id为dynamic_div";
document.body.appendChild(div);
}
</script>
</html>
用chrome打开后页面是这样:
操作页面的java代码:
public class Hello {
public static void main(String[] args) throws Exception {
// 这里是访问本地磁盘文件
// 如果需要访问互联网地址,直接改为该地址就行了,例如访问百度主页https://www.baidu.com
URL url = new URL("file:///D:/xx/xx/crawler-study/hello.html");
// 创建浏览器启动器
Launcher launcher = new Launcher();
try (SessionFactory factory = launcher.launch();
Session session = factory.create()) {
session.navigate(url.toString());
session.waitDocumentReady();
/*获取内容进行测试*/
String value = session.getText(".test", "value");
System.out.println("旧内容为: " + value);
Thread.sleep(666);
session.setAttribute("input", "value", "测试插入内容");
value = session.getAttribute("input", "value");
System.out.println("新内容为: " + value);
Thread.sleep(666);
/*点击测试输入框*/
session.click("input[name=test]");
Thread.sleep(666);
// 获取动态插入内容
String txt = session.getText("#dynamic_div");
System.out.println("txt = " + txt);
String className = session.getAttribute("#dynamic_div", "class");
System.out.println("className = " + className);
Thread.sleep(666);
// 动态修改输入框 内容
session.setAttribute("input", "value", txt);
Thread.sleep(3000);
}
}
}
总结:cdp4j有很多api可以使用,足以满足各式各样的数据获取需求,并且可以和jsoup进行配合获取数据,有这个需求的可以自己多琢磨琢磨,比如注入js代码,动态执行自己的js脚本,就一个字:强!