Java基础:爬虫

news2025/1/17 22:56:21

1.本地爬虫

Pattern:表示正则表达式

Matcher:文本匹配器,作用按照正则表达式的规则去读取字符串,从头开始读取。在大串中去找符合匹配规则的子串。

1.2.获取Pattern对象

通过Pattern p = Pattern.compile("正则表达式");获得

1.3.获取Matcher对象

通过Matcher m = p.matcher(str);获得  (m要在str中找符合p规则的小串)

其中, m为Matcher对象, p为正则表达式规则, str为要验证的字符串.

1.4.匹配文本中的对象

boolean b = m.find(); 表示拿着文本匹配器从头开始读取,寻找是否有满足规则的子串如果没有,方法返回false. 如果有,返回true。在底层记录子串的起始索引和结束索引+1.

1.5.截取文本匹配器的索引

String s = m.group(); 这时文本匹配器会停留在第一个匹配文本的结束索引+1处, 返回一个文本中索引为(0,4)不包含4索引的字符串(符合规则的). 

1.6.继续匹配和获取索引

重复第4步和第五步, 从上一次停留的地方开始向后查找.

第4步和第5步一般通过while(m.find()){}循环实现.

String s = "电话12345678901, 邮箱123@qq.com";
        // 写正则表达式
        String regex = "([1]\\d{10}|\\w{1,}@[\\w&&[^-]]{2,}([.][c][omn]{1,3})+)";
        // 生成正则对象
        Pattern pattern = Pattern.compile(regex);
        // 生成匹配器对象
        Matcher matcher = pattern.matcher(s);
        // 用循环去读取匹配的内容
        while (matcher.find()) {
            // 获取匹配的字符串
            String group = matcher.group();
            System.out.println(group);
        }

2.网络爬虫

 // 创建一个URL对象
        URL url = new URL("https://blog.csdn.net/Orange_sparkle?type=lately");
        // 连接网址
        URLConnection conn = url.openConnection();
//        conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
        // 创建对象读取数据
        BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(conn.getInputStream()));
//        conn.setRequestProperty("User-Agent", "Mozilla/4.76");
        String information;
        // 获取正则表达式对象pattern
//        String regex = "";
//        Pattern pattern = Pattern.compile(regex);
        // 在读取的时候每次读一行
        while ((information = bufferedReader.readLine()) != null) {
            System.out.println(information);
//            Matcher matcher = pattern.matcher(information);
//            while (matcher.find()){
//                System.out.println(matcher.group());
//            }
        }bufferedReader.close();

3.有条件的爬取数据

? 代表的是前面的数据, 后面的一个符号加正则表达式的意思是后面需要跟随的数据.

如果不看符号表示的就是需要匹配Java(8|11|17)这个字符串. 而其中的符号表示如下 : 

=表示只获取等号之前的数据, 忽略之后的.

: 表示冒号前后都获取

! 表示获取除了感叹号之后的数据

除了设置正则表达式不同, 之后的步骤都和之前一样

4.贪婪爬取和非贪婪爬取

贪婪爬取 : 在爬取数据的时候尽可能的多获取数据 (如:abbbbbbbbbbbb)

非贪婪爬取 : 在爬取数据的时候尽可能的少获取数据 (如:ab)

Java当中,默认的就是贪婪爬取

如果我们在数量词+*的后面加上问号,那么此时就是非贪婪爬取

5.正则表达式在字符串中的使用

 先创建一个正则表达式规则, 然后传入字符串方法中, 返回的就是新的替换后的字符串或切割后的字符串数组了.

6.分组

红色为第一组, 蓝色为第二组, 绿色为第三组

6.1.捕获分组

\\组号表示的就是把该组匹配的内容在匹配一遍, 两部分的内容相同.

在外部使用本组数据需要用到$组号.

6.2非捕获分组

特点:不占用组号

7.总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/378683.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

poi-tl生成word多张图表及图片

模板 生成效果 实现代码 官方文档 引入word依赖 <dependency><groupId>com.deepoove</groupId><artifactId>poi-tl</artifactId><version>1.10.3</version></dependency>数据准备 Map<String, Object> dataObj new…

如何使用awsEnum基于提供的凭证枚举AWS云端资源

关于awsEnum awsEnum是一款针对AWS云端资源安全的审计工具&#xff0c;该工具基于Python 3开发&#xff0c;可以帮助广大研究人员根据输入的凭证信息来枚举目标AWS云端资源和AWS服务。 当前该工具仍处于测试过程中&#xff0c;发布的为beta版本。该工具的主要目标是为了帮助广…

Apache Hive DML语句及内置函数

目录1、Hive SQL DML语法之加载数据1.1 Load加载数据1.2 Insert插入数据2、DML语法之查询数据3、Hive 常用函数3.1 Hive 常用的内置函数3.1.1 字符串函数3.1.2 日期函数3.1.3 数学函数3.1.4 条件函数1、Hive SQL DML语法之加载数据 1.1 Load加载数据 在Hive中建表成功之后&am…

LearnOpenGL-入门-7.变换

本人刚学OpenGL不久且自学&#xff0c;文中定有代码、术语等错误&#xff0c;欢迎指正 我写的项目地址&#xff1a;https://github.com/liujianjie/LearnOpenGLProject LearnOpenGL中文官网&#xff1a;https://learnopengl-cn.github.io/ 文章目录变换向量单位向量向量点乘向…

Linux INPUT 子系统实验

目录 一、input 子系统简介 input_dev 结构体 二、驱动编写 1、宏定义 2、按键结构体和按键中断结构体 3、中断处理函数 4、定时器处理函数 5、注册input_dev 6、驱动出口 代码 验证 打印现象解析 1、input_event 结构体 2、打印解释 三、APP编写 ​ app代码如下 验…

【操作方法】windows开启、关闭防火墙方法

【操作方法】windows开启、关闭防火墙方法一、命令法1.启动或关闭Windows Default 防火墙2.选择启动或关闭二、鼠标点击法1.首先将查看类型选择为“类别”2.系统和安全3.Windows Defender 防火墙4.启动或关闭Windows Default 防火墙5.选择启动或关闭一、命令法 点击按键WinR打…

基于OBD系统的量产车评估测试(PVE)

在轻型汽车污染物排放限值及测量方法&#xff08;中国第六阶段&#xff09;中&#xff0c;除了对汽车尾气排放等制定了更为严格的限制之外&#xff0c;也在OBD系统认证项目中增加了新的要求——量产车评估&#xff08;Production Vehicle Evaluation&#xff09;测试。该测试由…

在码匠中使用 Microsoft SQL Server

目录 在码匠中集成 Microsoft SQL Server 在码匠中使用 Microsoft SQL Server 关于码匠 SQL Server 是 Microsoft 公司推出的关系型数据库管理系统。具有使用方便、可伸缩性好、与相关软件集成程度高等优点。Microsoft SQL Server 是一个功能全面的数据库平台&#xff0c;使…

Lecture1 Welcome Stanford CS229 Machine Learning|2018 Autumn|吴恩达机器学习

1:15:20目录机器学习类比跳棋游戏&#xff0c;理解机器学习的概念&#xff1a;很多人坐在电脑旁玩游戏或跳棋好几天&#xff0c;这就是经验E&#xff1b;任务T是指下跳棋的任务&#xff1b;性能度量P可能是指在与下一个对手下棋时/在下一场跳棋中获胜的机会是多少&#xff1f;监…

安装TDengine 服务端和客户端——客户端连不上问题解决

客户端连不上问题解决1. 下载安装服务端2. 下载安装客户端2.1 修改hosts文件2.2 修改客户端taos.cfg 文件安装中出现的问题问题解决1. 下载安装服务端 根据服务端系统不同 下载不同的安装包 &#xff0c;按照参考网址&#xff1a;https://docs.tdengine.com/get-started/packa…

接口电子器件中的光耦合器模块

工业电子设备在电气噪声和机械挑战性的环境中运行。问题在于&#xff0c;自动化、控制和仪表组件依赖于没有电气干扰或失真的精确信号来正常运行。因此&#xff0c;光耦合器模块通常被工程师用作信号源以及电源、工业控制和其他组件之间的信号保护中介。 在工业应用中&#xf…

基于自定义训练函数的BP神经网络回归分析

目录 背影 BP神经网络的原理 BP神经网络的定义 BP神经网络的神经元 BP神经网络的激活函数 BP神经网络的传递函数 基于自定义训练函数的BP神经网络回归分析 背影 BP神经网络是一种成熟的神经网络&#xff0c;拥有很多训练函数&#xff0c;传递函数&#xff0c;激活函数&#x…

创建自助服务知识库的指南

在SaaS领域&#xff0c;自助文档是你可以在客户登录你的网站时为他们提供的最灵活的帮助方式&#xff0c;简单来说&#xff0c;一个自助知识库是一个可以帮助许多客户的文档&#xff0c;拥有出色的自助服务知识库&#xff0c;放在官网或者醒目的地方&#xff0c;借助自助服务知…

vue H5跳转小程序报错:config:fail,Error: 系统错误,错误码:63002,invalid signature

微信开发者工具下载地址与更新日志 错误码&#xff1a;63002,invalid signature 无效的签名 附录5 微信网页开发 /JS-SDK说明文档 微信 JS 接口签名校验工具 全局返回码说明 ​ 排查步骤 确认签名算法正确&#xff0c;可用 http://mp.weixin.qq.com/debug/cgi-bin/sand…

【Python学习笔记】第二十二节 Python XML 解析

一、什么是XMLXML即ExtentsibleMarkup Language(可扩展标记语言)&#xff0c;是用来定义其它语言的一种元语言。XML 被设计用来传输和存储数据。XML 是一套定义语义标记的规则&#xff0c;它没有标签集(tagset)&#xff0c;也没有语法规则(grammatical rule)。任何XML文档对任何…

2023年金三银四必备软件测试常见面试题1500问!!!【Linux篇】

六、Linux6.1 Linux系统你是怎么用的?[在测试1、执行的过程中&#xff0c;我们发现的bug&#xff0c;有时候需要定位bug&#xff0c;协助开发修复bug时需要在linux里通过命令tail-200或tail-500查看当天的日志的后面多少行或者前面多少行定位bug或者通过tail -f来查看日志里的…

线程池阻塞问题

问题 记录一下生产环境出现的问题。。。 几天生产环境有同事反映分页查询一直在转圈查不出来数据&#xff0c;跟我反馈&#xff0c;我也是很积极的去看有什么问题&#xff0c;我以为就是比较常见的问题吧&#xff0c;当我看的时候觉得很奇怪。 有一个分页的接口其实有很多的…

LSB 题解

今天来刷一道Misc的题目&#xff0c;LSB原理进行图片隐写 LSB原理 LSB是一种利用人类视觉的局限性设计的幻术 PNG和BMP图片中的图像像素一般是由RGB(RED红 GREEN绿 BLUE蓝)三原色组成 记住&#xff0c;JPG图片是不适合使用LSB隐写的&#xff0c;JPG图片对像数进行了有损压缩…

Android逆向之旅—反编译利器Apktool使用教程

apktool下载软件首先下载apktool.bat和apktool.jar官网地址&#xff1a;https://ibotpeaches.github.io/Apktool/install/配置环境变量具体的apktool命令自行百度apktool 解包与打包解包&#xff1a; apktool d xxx.apk打包&#xff1a; apktool b xxx1.jadx安装与使用下载exe或…

C/C++开发,无可避免的内存管理(篇五)-c++与垃圾回收.水中捞月

一、垃圾回收机制 虽然智能指针帮助开展者简化了堆内存回收问题&#xff0c;但是它需要开发者显式声明&#xff0c;需要使用时判断等&#xff0c;还是不够便捷。而像java、Python、C#等开发语言直接支持垃圾回收机制。程序开发上&#xff0c;通常会将不再使用或没有任何指针指向…