Java爬虫开发:Jsoup库在图片URL提取中的实战应用

news2024/11/15 17:23:44

00451.png
在当今的互联网时代,数据的获取和处理变得尤为重要。对于网站内容的自动化抓取,爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言,拥有丰富的库支持网络爬虫的开发。其中,Jsoup库以其简洁、高效的特点,成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫,以实现图片URL的提取。

Jsoup库简介

Jsoup是一个用于解析HTML文档的Java库,它提供了非常便捷的API来提取和操作数据。Jsoup能够处理任意的无格式HTML文档,并且可以从中提取数据,操作元素,或者输出修改后的HTML。Jsoup的解析器非常宽容,能够处理各种糟糕的HTML代码。

环境准备

在开始编写代码之前,需要确保开发环境中已经安装了Java开发工具包(JDK)和构建工具(如Maven或Gradle)。此外,还需要将Jsoup库添加到项目的依赖中。
如果使用Maven,可以在pom.xml文件中添加以下依赖:

xml

<dependencies>
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.13.1</version>
    </dependency>
</dependencies>

如果使用Gradle,则在build.gradle文件中添加:

groovy

dependencies {
    implementation 'org.jsoup:jsoup:1.13.1'
}

图片URL提取实战

1. 创建爬虫类

首先,创建一个Java类,用于实现爬虫的功能。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public class ImageCrawler {
    public static void main(String[] args) {
        String url = "http://example.com";  // 目标网站URL
        try {
            List<String> imageUrls = fetchImageUrls(url);
            imageUrls.forEach(System.out::println);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private static List<String> fetchImageUrls(String url) throws IOException {
        List<String> imageUrls = new ArrayList<>();
        // 设置代理
        String proxyHost = "www.16yun.cn";
        String proxyPort = "5445";
        String proxyUser = "16QMSOML";
        String proxyPass = "280651";
        Document document = Jsoup.connect(url)
                .proxy(proxyHost, Integer.parseInt(proxyPort))  // 设置代理服务器
                // 如果代理需要认证,可以使用以下方式(Jsoup 1.11.3及更高版本支持)
                .header("Proxy-Authorization", "Basic " + Base64.getEncoder().encodeToString((proxyUser + ":" + proxyPass).getBytes()))
                .get();
        Elements images = document.select("img[src]");

        for (Element image : images) {
            String src = image.attr("src");
            imageUrls.add(src);
        }
        return imageUrls;
    }
}

2. 连接目标网站

使用Jsoup的connect方法连接到目标网站。这个方法会发送一个HTTP GET请求到指定的URL,并返回一个Document对象,该对象代表了网页的HTML内容。

3. 解析HTML并提取图片URL

通过Document对象,我们可以调用select方法来选择页面中的特定元素。在这个例子中,我们使用CSS选择器img[src]来选择所有具有src属性的img标签,这通常用于图片链接。

4. 存储和输出图片URL

将提取到的图片URL存储到一个列表中,并遍历列表输出每个URL。

异常处理

在网络爬虫的开发中,异常处理是非常重要的一环。在上述代码中,我们通过try-catch块来捕获可能发生的IOException,这可能是由于网络问题或目标网站不可访问造成的。

优化和注意事项

  1. 尊重Robots协议:在进行网页抓取前,应该检查目标网站的robots.txt文件,确保爬虫的行为符合网站的规定。
  2. 设置User-Agent:有些网站会根据User-Agent来决定是否响应请求。在Jsoup中可以通过.userAgent("Your User Agent")来设置。
  3. 处理相对URL:有时网页中的图片URL可能是相对路径,需要转换为绝对路径。可以使用URL类来实现。
  4. 多线程爬取:对于大规模的数据抓取,可以考虑使用Java的并发工具来提高效率。

结论

Jsoup库为Java爬虫开发提供了强大的支持,使得图片URL的提取变得简单而高效。通过本文的介绍和示例代码,读者应该能够掌握使用Jsoup进行基本的网页内容抓取和数据处理。随着技术的不断进步,爬虫技术也在不断发展,掌握这些基础技能将为进一步的学习和实践打下坚实的基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2097991.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

51单片机 - 定时器0(按键控制LED流水灯模式)

时间&#xff1a;2024.9.2 目的&#xff1a;手撕51 作者&#xff1a;Whappy 定时器0寄存器配置 1.定时器0配置过程 首先要配置定时器的寄存器TCON和TMOD使计数器开始计数及定时器的初始值&#xff0c;配置使这个链路连起来。 #include <REGX52.H>void Timer0_Init() {…

【HarmonyOS 4.0】鸿蒙应用模型

应用模型是HarmonyOS为开发者提供的应用程序所需能力的抽象提炼&#xff0c;它提供了应用程序必备的组件和运行机制。有了应用模型&#xff0c;开发者可以基于一套统一的模型进行应用开发&#xff0c;使应用开发更简单、高效。随着系统的演进发展&#xff0c;HarmonyOS先后提供…

java 实现文本转音频

文章目录 一、前言二、实现流程2.1 下载jacob-1.18.zip2.2 拷贝jacob-1.18-x64.dll2.3 pom 添加依赖2.4 代码实现 一、前言 本文基于Windows自带的SAPI.SpVoice&#xff0c;通过java代码实现文本转语音的功能。 二、实现流程 2.1 下载jacob-1.18.zip 链接&#xff1a;https…

红帽认证初级有用吗?对个人帮助,报名时间分享

红帽认证初级即红帽认证系统管理员&#xff08;RHCSA&#xff09;是有用的。 拥有 RHCSA 认证的管理员掌握了 Linux 操作系统的基本知识和技能&#xff0c;能够准确理解和解决系统操作中的各种问题。他们了解并熟悉 Linux 命令行和 GUI 界面&#xff0c;可以高效地完成各种任务…

OpenCV绘图函数(15)图像上绘制矩形函数 rectangle()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 绘制一个简单的、粗的或填充的直立矩形。 这个函数 cv::rectangle 绘制一个矩形轮廓或一个填充的矩形&#xff0c;其两个相对的顶点分别是 pt1 和…

大数据-114 Flink DataStreamAPI 程序输入源 自定义输入源 Rich并行源 RichParallelSourceFunction

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

(五)vForm 动态表单文件上传、下载

系列文章目录 (一)vForm 动态表单设计器之使用 (二)vForm 动态表单设计器之下拉、选择 (三)vForm 动态表单解决下拉框无数据显示id问题 (四)vForm 动态表单自定义组件、属性 目录 系列文章目录 前言 一、文件上传 1.前端 2.后端 二、文件下载 1.前端 2.后端 总结 …

你可能被 Vue 中的 v-show 骗了,它并没有像你想的那样切换 display 的属性

你好同学&#xff0c;我是沐爸&#xff0c;欢迎点赞、收藏、评论和关注&#xff01; 在 Vue 中 v-show 是如何条件性地渲染内容的&#xff0c;你可能知道是通过切换 display 属性实现&#xff0c;但真的跟你想的一样吗&#xff1f; 一、你被骗了吗&#xff1f; v-show 和 v-…

JAVAEE初阶第三节——多线程进阶

系列文章目录 JAVAEE初阶第三节——多线程进阶 文章目录 系列文章目录JAVAEE初阶第三节——多线程进阶 一. 常见的锁策略1.乐观锁和悲观锁2. 轻量级锁和重量级锁3.自旋锁和挂起等待锁4. 普通互斥锁和读写锁5. 公平锁和非公平锁6.可重入锁和不可重入锁 二. synchronized的优化手…

GEE数据集:城市热岛强度 (UHII)

简介 城市热岛强度 (UHII) 数据集说明 城市热岛效应&#xff08;UHI&#xff09;的特点是城市地区局部变暖&#xff0c;是城市化对气候造成的一个重要后果。 传统的估算 UHI 强度&#xff08;UHII&#xff09;的方法受到一些限制&#xff0c;例如只关注晴空表面 UHII&#x…

windows11 任务栏 默认打开显示所有其他系统托盘图标

任务栏所有图标显示&#xff1a; ①&#xff0c;WINR键 ②&#xff0c;输入&#xff1a;shell:::{05d7b0f4-2121-4eff-bf6b-ed3f69b894d9} ③&#xff0c;设置&#xff1a;始终在任务栏显示所有图标和通知

【负载均衡】

一、生产者负载均衡 可解决以下问题 消息发送的容灾策略:您可以根据生产者负载均衡策略,明确当局部节点出现故障时,消息发送如何进行容灾切换。 消息发送的顺序性机制:通过生产者负载均衡策略,您可以进一步了解顺序消息发送时,如何保证相同消息组内消息的先后顺序。 消息…

《JavaEE进阶》----8.<SpringMVC实践项目:【简易对话留言板(数据存在内存中)】>

本篇博客讲解设计的一个网页版简易对话留言板。这个是将数据存在内存中。 创建了一个集合 List<MessageInfo> messageInfos new ArrayList<>(); 在这里面存入的数据。当服务器重新加载的时候&#xff0c;数据就消失了&#xff0c;下一个版本&#xff0c;是将数据存…

StateThreads 库使用

文章目录 需求介绍协程注意调度 部署环境搭建测试测试库是否正常测试TCP服务器 需求 最近在对网关模型的并发性能进行验证&#xff0c; 核心目标不仅是让服务器能够承载更多的请求&#xff0c; 还力求在协议栈的解析阶段实现极致的轻量化和无锁操作&#xff0c;从而大幅提升处理…

笔记:如何使用Process Explorer分析句柄泄露溢出问题

一、目的&#xff1a;如何使用Process Explorer分析句柄泄露溢出问题 使用 Process Explorer 分析句柄泄漏问题是一个非常有效的方法。句柄泄漏通常是由于应用程序在创建系统资源&#xff08;如文件、注册表项、GDI 对象等&#xff09;后没有正确释放这些资源。以下是使用 二、…

智尊助手V1.0.0定位打卡 定位摸鱼免root

去除了卡密验证&#xff0c;部分软件改不了&#xff0c;非常好用的虚拟定位软件&#xff0c;重点是不需要root权限就可以使用&#xff0c;操作也非常简单。 链接&#xff1a;https://pan.quark.cn/s/c92084a6cd84 &#x1f4c1;大小&#xff1a;37M &#x1f3f7;标签&#…

Linux如何ping整个网段

一、fping 命令详解 yum provides fping # 查找包名 yum -y install fping # 安装包二、fping 批量筛选存活IP脚本 vim /tmp/ip.sh !/bin/bash fping -g 10.121.52.1/24 >/tmp/ip.txt #输出 cd /tmp/ && cat ip.txt | grep "is alive&quo…

CC工具箱使用指南:【整库计算YSDM】

一、简介 这是一个批量计算【YSDM】的小工具。 一般的数据库要素或表格都有一个【YSDM】字段&#xff0c;用来标识要素类或表格。 【YSDM】的值通常是固定的&#xff0c;入库标准都会给定一个YSDM表&#xff0c;如下&#xff1a; 我们需要将表的内容保存或转换为excel格式&a…

惠中科技光伏清洗剂:绿色清洁,引领光伏行业新潮流

在当今全球能源转型的大潮中&#xff0c;光伏产业作为绿色能源的重要组成部分&#xff0c;正以前所未有的速度蓬勃发展。然而&#xff0c;随着光伏板在户外环境的长时间暴露&#xff0c;其表面不可避免地会积累灰尘、鸟粪、油污等污染物&#xff0c;严重影响光伏板的透光率和发…

如何为你的大模型应用选择最佳架构?六大模式全面解读

随着大模型&#xff08;如 GPT-4、BERT、GPT-3.5 等&#xff09;在自然语言处理、图像识别、医疗诊断等领域的广泛应用&#xff0c;如何构建高效、灵活的架构来支持大模型在复杂场景下的应用变得至关重要。本文将详细介绍几种常见的大模型应用架构设计模式&#xff0c;包括路由…