Java通过URL对象实现简单爬虫功能

news2024/10/7 18:25:23

目录

一、URL类

1. URL类基本概念

2. 构造器

3. 常用方法

二、爬虫实例

1. 爬取网络图片(简易)

2. 爬取网页源代码

3. 爬取网站所有图片


一、URL类

1. URL类基本概念

URL:Uniform Resource Locator 统一资源定位符

  1. 表示统一资源定位符,指向万维网上的“资源”的指针。用于区分、定位资源
  2. 一个标准的URL必须包括:protocol(方案或协议)、host(主机)、port(端口)、path(路径)、parameter(查询参数)、anchor(锚点)
  3. 通过URL我们可以访问Internet上的各种网络资源,比如最常见的WWW,FTP站点。浏览器通过解析给定的URL可以在网络上查找相应的文件或其他资源。
  4. 如 :http://www.goole.com:80/index.html , 分四部分组成:协议、存放资源的主句域名、端口号、资源文件名

2. 构造器

构造器说明
URL(String spec)从String表示形成一个UL对象

3. 常用方法

常用方法说明
String getProtocol()获取此URL的协议名称
String getHost()获取此URL的主机名
Int getPort()获取此URL的端口号
String getPath()获取此URL的路径部分
String getFile()获取此URL的文件名
String getQuery()获取参数
String getRef()获取锚点

二、爬虫实例

1. 爬取网络图片(简易)

第一步:也是最重要的一步!首先找到一张非常man的图片然后赋值图像路径

 第二步:编码

/** 通过URL对象完成简单的爬虫功能(保存网络图片) */
		try {// 创建URL对象 , 将网络资源路径传递到对象进行绑定
			URL url = new URL("https://pic3.zhimg.com/v2-41d65e3171d35d24f3fda527377ab2b6_r.jpg");
			// 通过ur1对象打来并且激活网络流来获取该图片资源
			// 同字节输入流(边读边写操作)
			InputStream is = url.openStream();
			// 创建爬虫后要写入的文件
			FileOutputStream fos = new FileOutputStream(new File("E:\\man.jpg"));
			int len = 0;
			while ((len = is.read()) != -1) {
				fos.write(len);
			}
			// 关团资源
			fos.close();
			is.close();
		} catch (Exception e) {
			e.printStackTrace();
		}

最后运行代码就可在指定爬到磁盘找到文件啦

2. 爬取网页源代码

第一步:先在指定磁盘新建一个txt文件用于保存爬下的资源

第二步:找到一个网站将网站路径赋值下来

第三步:编码

/** 通过URL对象完成简单的爬虫功能(保存网页源代码) */
		try {
			// 创建URL对象,将网络资源路径传递到该对象进行绑定
			URL url2 = new URL("https://blog.csdn.net/Justw320/article/details/131817953");
			// 通过ur1对象打开并且激活网络流来获取网页资源
			InputStream openStream = url2.openStream();
			InputStreamReader read = new InputStreamReader(openStream, "UTF-8");
			BufferedReader br = new BufferedReader(read);
			// 创建爬虫后要写入的文件
			FileOutputStream fos = new FileOutputStream(new File("E:\\url.txt"));
			OutputStreamWriter osw = new OutputStreamWriter(fos);
			BufferedWriter bw = new BufferedWriter(osw);
			// 定文空变量来储存爬下来的内容
			String str = "";
			while ((str = br.readLine()) != null) {
				bw.write(str);
				bw.newLine();
				bw.flush();
			}
			// 关团资源
			bw.close();
			osw.close();
			fos.close();
			br.close();
			read.close();
			openStream.close();
		} catch (Exception e) {
			e.printStackTrace();
		}

最后运行代码找到之前新建的txt文件:

3. 爬取网站所有图片

        首先找个没有动态源代码的的网页就是不是通过js传值的,很难找,小编也是找了自己的博客网站进行爬取,现在大多数网站都有反爬虫技术😭,有兴趣的可以去自行扩展都是可刑的👍,这里只是一个案例供参考!

package com.net;

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 
 * @author 云村小威
 *
 * @2023年7月21日 上午10:48:54
 */
public class Getphoto {
	public static void main(String[] args) throws Exception {
		// 定义URL对象,传入网络资源路径
		URL url = new URL("https://blog.csdn.net/Justw320/article/details/131817953");
		// 通过url对象打开网络流来获取网络资源
		InputStream openStream = url.openStream();
		// 转换字符流并优化缓冲
		BufferedReader br = new BufferedReader(new InputStreamReader(openStream, "UTF-8"));
		// 每次读取一行,拼接到变量中
		StringBuffer sb = new StringBuffer(); // 保存源码信息
		String str = "";
		while ((str = br.readLine()) != null) {
			// 每次读取一行拼接到sb变量中
			sb.append(str + "\n");
		}
		// 关闭流
		br.close();
		openStream.close();

		/**
		 * 获取源码内容,进行正则处理 拿到源码所有img内容
		 */
		// 将源码信息转成字符串进行保存
		String count = sb.toString();
		// 定义正则表达式
		//<img src="https://csdnimg.cn/identity/nocErtification.png" alt="">
		String zheng = "<img\\ssrc=\"https://([^>\"]+)\">";
		// 给正则表达式一个匹配模式
		Pattern compile = Pattern.compile(zheng);
		Matcher matcher = compile.matcher(count);
		// 循环所有正则规定的表达式路径
		while (matcher.find()) {
			// 1.构建URL
			URL imgUrl = new URL("http://" + matcher.group(1));
			/* 取到子字符串中的src分组中的值(图片地址) */
			String group = matcher.group(1);
			/* 取到图片的名字 */
			String fileName = group.substring(group.lastIndexOf("/"));
			// 2.打开网络流 并将字节转成缓冲字节流
			InputStream openStream2 = imgUrl.openStream();
			BufferedInputStream bis = new BufferedInputStream(openStream2);
			// 输出流 将图片写入到指定文件中
			BufferedOutputStream bos = new BufferedOutputStream(
					new FileOutputStream(new File("E:\\imgs" + fileName)));
			// 每次读取一个字节数组
			byte[] bytes = new byte[1024];
			int len = 0;
			while ((len = bis.read(bytes)) != -1) {
				// 写入到文件中
				bos.write(bytes);
				bos.flush();
			}
			// 关闭资源
			bos.close();
			bis.close();
			openStream2.close();
		}
	}

}

1. 通过代码打印count变量(这里就一个一个运行了,可参考代码这里的count是通过url爬取到的所有源代码)

2. 找到img(图片标签), 找到它们的规律设置正则这里很重要!

最后运行代码,就可在指定爬取路径查看爬取到的图片了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/783694.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

动态规划--回文串问题

一)回文子串: 647. 回文子串 - 力扣&#xff08;LeetCode&#xff09; 思路1:暴力枚举: for(int i0;i<array.length;i) for(int ji;j<array.length;j) 我们的中心思路就是枚举出所有的子字符串&#xff0c;然后进行判断所有的子串是否是回文串 思路2:中心扩散: 我们从左向…

​MySQL高阶语句(三)

目录 1、内连接 2、左连接 3、右连接&#xff1a; 二、存储过程⭐⭐⭐ 4. 调用存储过程 5.查看存储过程 5.1 查看存储过程 5.2查看指定存储过程信息 三. 存储过程的参数 3.1存储过程的参数 3.2修改存储过程 四.删除存储过程 MySQL 的连接查询&#xff0c;通常都是将来…

ElasticSearch学习--RestClient及案例

目录 RestClient查询文档 快速入门 总结 全文检索&#xff08;match&#xff09;查询 精确查询 复合查询 查询总结 排序&#xff0c;分页 高亮 RestClient查询文档 快速入门 总结 全文检索&#xff08;match&#xff09;查询 多种查询的差异都在做类型和条件上&#x…

JS 自定义的悬浮窗被浏览器遮挡问题解决方案

遮挡问题解决思路&#xff0c;首先拿到外层的DOM元素div的宽高&#xff0c;然后根据鼠标悬浮事件的元素e e.clientX表距离页面窗口宽的位置 e.clientY代表距离页面窗口高的位置 然后设置这个悬浮窗为200px 那个这个div的宽高 dom.getElementById(xxxx).cliengHeight dom.g…

FutureTask

Future接口 Future接口&#xff08;FutureTask实现类&#xff09;定义了操作异步任务执行一些方法&#xff0c;如获取异步任务执行的结果、取消任务的执行、判断任务是否取消、判断任务执行是否完成等。它提供了一种并行异步计算的功能。比如主线程让子线程去执行任务&#xff…

C语言两种方法求证大小端存储

目录 什么是大小端存储&#xff1f; 字节序的概念&#xff1a; 小端字节序存储&#xff1a; 大端字节序存储&#xff1a; 什么是低位字节、高位字节&#xff1f; 记忆技巧&#xff1a; C语言求证大小端存储 法一&#xff1a; 法二&#xff1a; 总结&#xff1a; 什么是…

CAXA中.exb或者.dwg文件保存为PDF

通常CAXAZ中的文件为.exb或者.dwg格式&#xff0c;我们想打印或者保存为PDF文件格式&#xff0c;那么就用一下的方法&#xff1a; CAXA文件如图所示&#xff1a; 框选出你要打印的图纸&#xff01;&#xff01;&#xff01;&#xff01; 我们选择"菜单"->"…

用户订单信息案例

需求: 用户输入商品价格和商品数量&#xff0c;以及收货地址&#xff0c;可以自动打印订单信息 分析: ① 需要输入3个数据&#xff0c;所以需要3个变量来存储price num address ② 需要计算总的价格total ③ 页面打印生成表格, 里面填充数据即可 ④ 记得最好使用模板字符串 【…

java.io.InputStreamReader的read()函数返回值是字符对应的Unicode码点

java.io.InputStreamReader的read()函数定义&#xff1a; https://docs.oracle.com/en/java/javase/19/docs/api/java.base/java/io/InputStreamReader.html#read() 这个返回的值其实就是解码后的字符对应的Unicode码点&#xff08;Unicode code point&#xff09;。 举例 例如…

MySQL表的管理

目录 1.mysql中&#xff0c;数据存储过程分为四步 2.数据库命名规则 3.创建数据库 4.管理数据库的方法 5.修改数据库&#xff08;一般不改&#xff0c;最多改字符集&#xff09; 6.删除数据库 7.如何创建数据表 8.修改表 9.重命名表 10.删除表&#xff08;注意⚠️无…

Java日志slf4j+logback

一、maven依赖 在pom文件增加slf4jlogback依赖 <!-- 版本配置 --> <properties><slf4j.version>1.7.21</slf4j.version><logback.version>1.1.7</logback.version> </properties><dependencies><!-- slf4j依赖包 -->&…

JVM源码剖析之达到什么条件进行JIT优化

版本信息&#xff1a; jdk版本&#xff1a;jdk8u40 思想至上 技术经过数百年的迭代&#xff0c;如今虚拟机中都存在JIT模块&#xff0c;JVM中Hotspot&#xff0c;Android虚拟机中dalvik、Art等等。并且存在一个共性&#xff0c;全部都是解释器和JIT共存。当然&#xff0c;如今…

六、模型融合

目录 1 构建模型多样性1.1 特征多样性1.2 样本多样性1.3 模型多样性 2. 训练过程融合2.1 Bagging2.2 Boosting 3. 训练结果融合3.1 加权法3.2 Stacking 融合3.3 Blending 融合 4. 实战案例 本章主要分为构建多样性、训练过程融合和训练结果融合三部分。模型融合常常是竞赛取得胜…

神州通用数据库Linux安装

神舟通用1.安装包下载地址 神舟通用 操作系统、数据库 1、官方下载链接 2、windows客户端下载链接 3、官方安装手册 4、安装前准备 3.1、创建安装用户 3.2、以root 用户修改神通数据库安装包的所有者为shentong 用户 3.3、以root 用户创建神通数据库主目录并修改所有者为shent…

欧姆龙cx系列plc串门通讯设置串口转以太网通讯处理器

捷米特JM-ETH-CX 串口转以太网通讯处理器是为满足日益增多的工厂设备信息化需求&#xff08;设备网络监控和生产管理&#xff09;而设计&#xff0c;用于欧姆龙 CPM、CQM、C200、C1000、C2000 等多个系列 PLC 的以太网数据采集&#xff0c; 非常方便构建生产管理系统。 捷米特J…

Linux内核--五大子系统

Linux内核有五大核心子系统&#xff0c;分别是进程调度系统、虚拟文件系统(VFS)、内存管理单元(MMU)、网络单元、进程间通信(IPC)。 在Linux内核中的主要组件中&#xff0c;五个核心子系统是最为重要的组成部分&#xff0c;它与系统调用接口&#xff08;System Call Interface&…

docker-compose安装redis一主二从三哨兵集群

准备 docker安装参考&#xff1a; CentOS 安装 docker详解_centos安装docker_慕菲烟云的博客-CSDN博客 docker-compose安装参考&#xff1a;docker之docker-compose_docker compose no-cache_慕菲烟云的博客-CSDN博客 准备一台Linux服务器&#xff08;IP &#xff1a;192.1…

连连看小游戏(html+css+js)

花费了2个小时的摸鱼时间&#xff0c;我成功地编写了一个精彩的连连看小游戏&#xff0c;让我感到非常开心和满足。这款游戏玩起来相当出色&#xff0c;现在我很高兴地与大家分享。 在这个连连看小游戏的设计过程中&#xff0c;我注重细节和用户体验。通过精心安排的图形和布局…

Linux学习笔记--如何在ubuntu中启用root用户和安装软件的方法(解决安装依赖)

一、ubuntu启用root用户 打开Terminal(终端)&#xff0c;右键点击桌面&#xff0c;选择终端&#xff0c;弹出终端窗口。&#xff08;使用快捷键ctrlaltt&#xff0c;也可以调出Terminal&#xff09;。 指令su&#xff0c;该指令可切换用户或者切换到超级管理员root。 su 在终端…