对于爬虫的学习

news2024/11/27 8:25:11

本地爬取

package MyApi.a08regexdemo;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexDemo03 {
    public static void main(String[] args) {
       //要求:找出里面所有javaxx
        String str="Java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11"+"因为这两个是长期支持的版本,下一个长期支持的版本是Java17" +
                "相信在不久的未来Java17也会逐渐登上历史舞台";
     //   method1(str);
        //1.获取正则表达式的对象
        Pattern pattern = Pattern.compile("Java\\d{0,2}");
        //2.获取文本匹配器的对象
        Matcher m  = pattern.matcher(str);
        //3.利用循环获取
        while(m.find()){
            String s=m.group();
            System.out.println(s);
        }
    }

    private static void method1(String str) {
        //获取正则表达式的对象
        Pattern pattern = Pattern.compile("Java\\d{0,2}");
        //获取文本匹配器的对象
        Matcher m  = pattern.matcher(str);
        //拿着文本匹配器从头开始读取,寻找是否有满足规则的字串
        //如果没有,方法返回false
        //如果有,返回true,在底层记录字串的起始索引和结束索引+1
        boolean b = m.find();
        //方法底层会根据find方法记录的索引进行字符串的截取
        //subString(起始索引,结束索引):包头不包尾
        //会把截取的小串进行返回
        String s1=    m.group();
        System.out.println(s1);
        //第二次调用find的时候,会继续读取后面的内容
        //读取到第二个满足要求的字串,方法会继续返回true
        //并把第二个字串的起始索引和结束索引+1,进行记录
        boolean b1 = m.find();
        String s2=m.group();
        System.out.println(s2);
    }
}

网络爬取

package MyApi.a08regexdemo;

import javax.print.DocFlavor;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexDemo04 {
    public static void main(String[] args) {
        /*需求:
        把连接:http://m.sengzan.com/jiaoyu/29104.html?ivk_sa=105883i
        中的所有身份证号码都爬取出来
        * */
        //创建一个url对象
        URL url=new URL("http://m.sengzan.com/jiaoyu/29104.html?ivk_sa=105883i");
    //连接上这个网址
        URLConnection conn=url.openConnection();
        //创建一个对象去读取网络中的数据
        BufferedReader br=new BufferedReader(new InputStreamReader(conn.getInputStream())) ;
        String line;
        //获取正则表达式对象
        String regex="[1-9]\\d{17}";
        Pattern pattern=Pattern.compile(regex);
        while((line=br.readLine())!=null){
            Matcher matcher=pattern.matcher(line);
            while(matcher.find()){
                System.out.println(matcher.group());
            }
        }
        br.close();
    }
}
package MyApi.a08regexdemo;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Regexdemoo5 {
    public static void main(String[] args) {
        /*
        * 需求:把下面的文本中的座机号码,邮箱,手机号,热线都爬取出来
        * 来黑马程序员学习Java
        * 手机号: 18512516758,18512508907
        * 或者联系邮箱:boniu@itcast.cn,
        * 座机电话:01036517895,010-9895256
        * 邮箱:boniu@itcast.cn,
        * 热线电话:400-618-9090,400-618-4000,4006184000,4006189090 */
   String s="来黑马程序员学习Java" +
           "手机号: 18512516758,18512508907" +
           "或者联系邮箱:boniu@itcast.cn," +
           "座机电话:01036517895,010-9895256" +
           "邮箱:boniu@itcast.cn," +
           "热线电话:400-618-9090,400-618-4000,4006184000,4006189090";
   String regex1="1[3-9]\\d{9}|(\\w+@[\\w&&[^_]]{2,6}(\\.[a-zA-Z]{2,3}){1,2})"+
           "|(0\\d{2,3-?[1-9]\\d{4,9})|" +
           "(400-?[1-9]\\d{2}-?[1-9]\\d{3})";
        Pattern pattern=Pattern.compile("regex1");
        Matcher m = pattern.matcher(s);
        while(m.find()){
        String str=    m.group();
            System.out.println(str);
        }

    }
}

package MyApi.a08regexdemo;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Regexdemo06 {
    public static void main(String[] args) {
        String str="java自从95年问世以来,经历了很多版本,目前企业中用的最多的是Java8和Java11"+"因为这两个是长期支持的版本,下一个长期支持的版本是Java17" +
                "相信在不久的未来Java17也会逐渐登上历史舞台";
     //需求1
        String regex1="((?i)Java)(?=8|11|17)";
//需求2
        String regex2="((?i)Java)(8|11|17)";
        String regex3="((?i)Java)(?:8|11|17)";
        //需求3
        String regex4="((?i)Java)(?!8|11|17)";
        Pattern pattern=Pattern.compile(regex4);
        Matcher matcher = pattern.matcher(str);
        while(matcher.find()){
            String s=matcher.group();
            System.out.println(s);
        }

    }
}

贪婪爬取和非贪婪爬取

package MyApi.a08regexdemo;

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class Regexdemo07 {
    public static void main(String[] args) {
        String str="Java自从95年问世以来abbbbbbbbbbbbaaaaaaaaaaaaaaaaaa,经历了很多版本,目前企业中用的最多的是Java8和Java11"+"因为这两个是长期支持的版本,下一个长期支持的版本是Java17" +
                "相信在不久的未来Java17也会逐渐登上历史舞台";
       /*
       * 贪婪爬取:在爬取数据的时候尽可能的多获取数据
       * 非贪婪爬取:在爬取数据的时候尽可能的少获取数据
       * java当中默认是贪婪爬取
       * 如果我们在数量词+ * 的后面加上问号,那么此时就是非贪婪爬取*/
        //需求1
        String regex="ab+";
        //需求2
        String regex1="ab+?";
        Pattern pattern=Pattern.compile(regex);
        Matcher matcher = pattern.matcher(str);
        while(matcher.find()){
            System.out.println(matcher.group());
        }

    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492708.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

爬虫逆向网站案例

一、相关网页 东方财富人气排行榜 二、查找url 三、寻找curl并复制 四、打开Convert curl commands to code (curlconverter.com) 五、修改并执行代码 import requestscookies {st_si: 73974981954644,st_pvi: 39724919122964,st_sp: 2024-03-05%2018%3A27%3A22,st_inirUrl:…

基于java springboot+redis网上水果超市商城设计和实现以及文档

基于java springbootredis网上水果超市商城设计和实现以及文档 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留…

算法Day04_203.移除链表元素

推荐阅读 算法day01_ 27. 移除元素、977.有序数组的平方 算法day02_209.长度最小的子数组 算法day03_ 59.螺旋矩阵II 目录 推荐阅读203.移除链表元素题目思路解法暴力解法虚拟头结点解法 203.移除链表元素 题目 给你一个链表的头节点 head 和一个整数 val ,请你删…

深度学习预测分析API:金融领域的Game Changer

🚀 引言 在这个AI遍地开花的时代,谁能成为金融领域的真正Game Changer?那必然是是深度学习预测分析API。如大脑般高效运转的系统不仅颠覆了传统操作,更是以无与伦比的速度和精度赋予了金融数据以全新的生命。 💼 广泛…

flutter小程序开发,Android高级工程师必备知识

AWTK 主要特色: 1、跨平台 AWTK 是跨平台的,这有两个方面的意思: AWTK 本身是跨平台的。目前支持的平台有 ZLG AWorks、Windows、Linux、MacOS、嵌入式 Linux、Android、Web 和嵌入式裸系统,可以轻松的移植到各种 RTOS 上。AWT…

缓存一致性:数据库操作与Redis事务回滚

缓存一致性:数据库操作与Redis事务回滚 今日开发需求是“保证数据库操作与Redis缓存操作的一致,在CRUD出错时,保证回滚”。 问题: 1、数据库开启事务,即可在操作失误时,回滚之前的已经做过的操作&#xff…

厚膜功率电阻基板选择

根据电阻器性能规格和应用的全部细节,专业制造商将选择最合适的厚膜功率电阻器基板技术,以适当的成本提供可靠的解决方案。 正确的电阻基板材料选择可以最大限度地提高散热效果并减小元件尺寸。这必须与材料成本和制造过程中的潜在复杂性进行权衡。 基板…

制作Python游戏全过程(汇总2)

目录 前言: 1.基于pygame库创建游戏模块: 1.1引入模块 1.1.1 这是对代码的解释: 1.1.1.1pygame 是一个用于创建游戏的 Python 库。 1.1.1.2plane_sprites 是一个自定义模块,从day6文件夹(也可以是其他的文件夹)中导入,它可能包含了游戏中使用的所有…

Android 消息恢复 - 如何在 Android 上检索已删除的短信

最新调查显示,手机每天发送和接收的短信数以亿计,尤其是Android智能手机。但与此同时,Android消息丢失也每天都在发生。因此,如何恢复Android手机上已删除的短信对于那些在设备中保存了一些重要信息的人来说似乎非常重要。 在这里…

【组合递归】【StringBuilder】Leetcode 17. 电话号码的字母组合

【组合递归】【StringBuilde】Leetcode 17. 电话号码的字母组合 StringBulider常用方法!!!!!!!!!!!!!!17. 电…

第六篇:人工智能与机器学习技术VS数据迁移(Data Migration)--- 我为什么要翻译介绍美国人工智能科技巨头IAB公司?

(source: 图片来自麻省理工官网) IAB平台,使命和功能 IAB成立于1996年,总部位于纽约市。 作为美国的人工智能科技巨头社会媒体和营销专业平台公司,互动广告局(IAB- the Interactive Advertising Bureau)…

Unreal Engine5记录 01安装

1.下载Epic Games 启动器 官网下载地址 传送门https://www.unrealengine.com/zh-CN 点击下载启动程序,完成之后选择指定的路径安装即可。 2.登录或注册一个账户 多种登录方式,选择一种登录即可。 3.找到虚幻引擎下载列表 选择想要的版本进行下载&…

LeetCode——二叉树(Java)

二叉树 简介[简单] 144. 二叉树的前序遍历、94. 二叉树的中序遍历、145. 二叉树的后序遍历二叉树层序遍历[中等] 102. 二叉树的层序遍历[中等] 107. 二叉树的层序遍历 II[中等] 199. 二叉树的右视图[简单] 637. 二叉树的层平均值[中等] 429. N 叉树的层序遍历[中等] 515. 在每个…

微信小程序开发系列(十七)·事件传参·mark-自定义数据

目录 步骤一:按钮的创建 步骤二:按钮属性配置 步骤三:添加点击事件 步骤四:参数传递 步骤五:打印数据 步骤六:获取数据 步骤七:父进程验证 总结:data-*自定义数据和mark-自定…

Doris实战——金融壹账通指标中台的应用实践

目录 前言 一、业务痛点 二、早期架构挑战 三、架构升级 四、一体化指标数据平台 4.1 构建指标体系 4.2 构建指标平台功能 五、Doris指标应用实践 六、未来规划 原文大佬的这篇指标中台的应用实践有借鉴意义,这里摘抄下来用作学习和知识沉淀。 前言 在搭建…

python+django_vue旅游酒店预订出行订票系统pycharm项目lw

a.由于对管理信息方面的内容了解尚浅且没有足够的经验,因而很难对数据庞大的线上旅行信息管理系统建立完善的数据库。 b.线上旅行信息管理系统拥有很大的信息量,其中包括数据库的前期开发和后期更新,因此对数据库的安全性,一致性和…

CVE-2020-8835:eBPF verifier 整数截断导致的越界读写

文章目录 前言漏洞分析do_check 函数 漏洞利用漏洞触发越界读实现地址泄漏越界写实现任意读越界写实现任意写 exp 即效果演示参考 前言 影响版本:v5.4.7 ~ v5.5.0 以及更新的版本,如 5.6 编译选项:CONFIG_BPF_SYSCALL,config 所有…

Vue基础入门(4)- Vuex的使用

Vue基础入门(4)- Vuex的使用 Vuex 主要内容:Store以及其中的state、mutations、actions、getters、modules属性 介绍:Vuex 是一个 Vue 的 状态管理工具,状态就是数据。 大白话:Vuex 是一个插件&#xff…

网站维护页面404源码

网站维护页面404源码,源码由HTMLCSSJS组成,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面,重定向这个界面 下载地址 https://www.qqmu.com/2407.html

【排序算法】深入理解归并排序算法:从原理到实现

目录 1. 引言 2. 归并排序算法原理 3. 归并排序的时间复杂度分析 4. 归并排序的应用场景 5. 归并排序的优缺点分析 5.1 优点: 5.2 缺点: 6. Java、JavaScript 和 Python 实现归并排序算法 6.1 Java 实现: 6.2 JavaScript 实现&…