【Python正则-驯化】一文学会通过Python中的正则表达式提取文本中的网址

news2024/9/17 8:50:14

【Python正则-驯化】一文学会通过Python中的正则表达式提取文本中的网址
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 免费获取相关内容文档关注:微信公众号,发送 pandas 即可获取
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

🌵文章目录🌵

    • 🎯 1. 基本介绍
    • 🎯 2、提取方法论介绍
    • 🎯 3、代码实践
    • 🎯 4. 注意事项
    • 🎯 5. 总结

下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  在数据验证和文本处理中,经常需要验证输入的网址是否符合标准格式。正则表达式是一种强大的工具,用于匹配字符串中的特定模式。本博客将介绍一个用于验证网址的正则表达式,并展示如何在Python中使用它。

🎯 2、提取方法论介绍

  通常网站遵守一定的格式,具体为:协议+域名+后缀,因此,我们在提取的时候通过如下的模型进行配套,具体为:

模版^(((http|https|ftp):\/\/)?([[a-zA-Z0-9]\-\.])+(\.)([[a-zA-Z0-9]]){2,4}([[a-zA-Z0-9]\/+=%&_\.~?\-]*))*$的构成如下:

^:匹配字符串的开始。
((http|https|ftp):\/\/)?:匹配协议(http, https, ftp),可能跟一个://,出现0次或1次。
([[a-zA-Z0-9]\-\.])+:匹配域名部分,允许字母、数字、短划线和点。
(\.)([[a-zA-Z0-9]]){2,4}:匹配点和顶级域名,顶级域名长度为24个字符。
([[a-zA-Z0-9]\/+=%&_\.~?\-]*):匹配路径和查询参数,允许字母、数字以及一些特殊字符。
*:前面的模式可以出现0次或多次。
$:匹配字符串的结束。

🎯 3、代码实践

  通过上述的提取方法,我们构造相关的数据集来对网站进行验证,具体的操作如下所示:

url_pattern = r'^(((http|https|ftp):\/\/)?([[a-zA-Z0-9]\-\.])+(\.)([[a-zA-Z0-9]]){2,4}([[a-zA-Z0-9]\/+=%&_\.~?\-]*))*$'

# 测试网址列表
urls = [
    "http://example.com",
    "https://www.example.co.uk",
    "ftp://files.example.com/data",
    "not-a-valid-url",
    "http://123.123.123"
]

for url in urls:
    if re.match(url_pattern, url):
        print(f"Valid URL: {url}")
    else:
        print(f"Invalid URL: {url}")

Valid URL: http://example.com
Valid URL: https://www.example.co.uk
Valid URL: ftp://files.example.com/data
Invalid URL: not-a-valid-url
Invalid URL: http://123.123.123

🎯 4. 注意事项

  • 确保使用原始字符串(在字符串前加r)来定义正则表达式,以避免转义字符的问题。
  • 根据实际需求调整正则表达式,以匹配特定的网址格式。
  • 正则表达式的性能可能受到模式复杂度和文本长度的影响。

🎯 5. 总结

  正则表达式提供了一种灵活的方式来验证网址格式。通过本博客的代码示例,我们学习了如何定义一个匹配网址的正则表达式,并在Python中使用它来验证一系列网址。希望这篇博客能够帮助你更好地理解正则表达式在网址验证中的应用,并将其应用于实际的文本处理任务中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1962786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Redis 与 Scrapy:无缝集成的分布式爬虫技术

1. 分布式爬虫的概念 分布式爬虫系统通过将任务分配给多个爬虫节点,利用集群的计算能力来提高数据抓取的效率。这种方式不仅可以提高爬取速度,还可以在单个节点发生故障时,通过其他节点继续完成任务,从而提高系统的稳定性和可靠性…

Gooxi荣获2024年深圳市计算机行业协会最具成长奖

近日,由深圳市计算机行业协会举办的2024年度深圳市计算机行业协会年中工作会议圆满落幕。本次会议邀请了多位行业专家以及深圳地区的理事会成员、企业家参会。会议的重点是总结上半年的经验,分析行业热点与痛点,探讨以新质生产力促进高质量发…

网络安全等级保护:上下文中的API安全性

网络安全等级保护:什么是API安全? 上下文中的API安全性 应用程序编程接口安全性位于多个安全学科的交叉点,如图所示。其中最重要的是以下三个领域: 1.信息安全(InfoSec)涉及在信息的整个生命周期中保护信…

Kettle下载安装

环境说明 虚拟机:Win7;MySql8.0 主机:Win11;JDK1.8;Kettle 9.4(Pentaho Data Integration 9.4)(下载方式见文末) 安装说明 【1】解压后运行Spoon.bat 【2】将jar包 复…

vue2学习 -- 核心语法

文章目录 前置简介1. 模板语法2. 数据2.1 数据绑定2.2 el与data的两种写法2.3 MVVM模型2.4 Object.defineProperty2.5 Vue中的数据代理 3. 事件3.1 事件处理3.2 事件修饰符3.3 键盘事件 4. 计算属性5. 监视(侦听)属性5.1 书写形式5.2 深度监视5.3 简写形式5.4 计算属性和监听属…

一「骑」就LUCKY!凯迪拉氪强劲动力,带你一路顺畅,幸运随行!

好运,其实就是毫不费劲的完成心里所想的事情。简单来说,是不需要太多努力,就能得到比较大的回报。每个人都希望自己拥有好运气,但这就跟抽盲盒一样,可能穷极一生都享受不到。 所以,与其期待虚无缥缈的好运…

Java线程阻塞:原因

Java线程阻塞:原因 1. sleep()2. suspend() 和 resume()(不推荐)3. yield()4. wait() 和 notify()/notifyAll() 💖The Begin💖点点关注,收藏不迷路💖 线程阻塞是一个重要的概念,它决…

移动光猫(UNG853H)获取超级帐号和密码

1.查看光猫背部的登录地址及帐密码;比如我的光猫: http://192.168.1.1 User: user password: ****** 2.启动telnet服务,使用以下命令: http://192.168.1.1/webcmcc/telnet.html 3.使用telnet登录光猫,在CMD下执行&…

【WRF安装第二期(Ubuntu)】搭建WRF编译所需系统-系统环境检验

WRF安装第二期:搭建WRF编译所需系统-系统环境检验 0 升级和安装基础环境1 系统环境检验(System Environment Tests)1.1 检验和安装基础包1.1.1 安装指令1.1.2 检验指令 1.2 WRF安装的目录结构1.2.1 WRF系统环境测试 1.3 测试编译器&#xff0…

(40)温度传感器

文章目录 前言 1 设置 2 记录 3 参数说明 前言 ArduPilot 已经有许多可能的温度报告来源:电调,智能电池,电机 EFI,这些独立的传感器可以用来取代 ArduPilot 中已经存在的那些设备温度报告。它们也可以只是被记录下来。 ArduP…

智慧环卫可视化:科技赋能城市清洁管理

图扑智慧环卫可视化通过实时监控、数据分析和智能调度,提高环卫作业效率,优化资源配置,提升城市清洁水平,实现城市管理的精细化和现代化。

【p-export-excel】一个轻松实现Excel文件导出的JavaScript插件

p-export-excel(github:https://github.com/pbstar/p-export-excel)是一个功能强大的JavaScript插件,专门用于导出Excel文件。它支持xlsx和csv两种格式,且提供了丰富的配置选项,允许开发者根据实际需求进行…

SuperMap iDesktopXiClient3D for WebGL 基于确定性空间插值生成水体流场

目录 摘要1 原始数据解析2 数据空间插值2.1流场UVW0.dat文件转xlsx2.2生成流场点数据2.3生成U、V栅格数据2.4裁剪U、V栅格数据2.5生成零值棋盘网格2.6生成U、V棋盘栅格 3 棋盘栅格转棋盘点3.1U、V棋盘栅格矢量化3.2U、V字段追加3.3流场数据JSON标准解析3.3.1流场数据JSON范例3.…

Nacos配置到springboot快速入门(笔记)

本人学习中的简单笔记,本文写的极其不详细,慎看!!! Nacos 简介 Nacos 致力于帮助开发者发现、配置和管理微服务。它提供了一组简单易用的特性集,帮助开发者快速实现动态服务发现、服务配置、服务元数据及…

【RL】强化学习入门:从基础到应用

本篇文章是博主强化学习RL领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对相关等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章强化学习: 强化学习…

ECRS标准工时分析软件:中小企业数字化转型的工时管理利器

在当今全球化竞争日益激烈的背景下,中小企业面临着前所未有的挑战与机遇。为了在市场中脱颖而出,实现可持续发展,数字化转型已成为不可逆转的趋势。然而,对于资源相对有限的中小企业而言,如何高效、精准地管理工时&…

昇思25天学习打卡营第9天|RNN实现情感分类

第十天的不小心把第九天的覆盖了。现在重新补上。 情感分类是自然语言处理中的经典任务,是典型的分类问题。输入一句话,然后去语义理解这句话是褒义贬义还是中性的。不同的情感语境下理解的大基调是不同的。 RRN情感分类也是一个分类模型,是…

【提问募集】向世界级软件开发大师“Bob 大叔”Robert C. Martin 提出你的疑虑!

函数式编程作为一种编程范式,其根源可以追溯到 20 世纪 30 年代,当时数学家们正在探索计算理论的基础。1936 年,阿隆佐丘奇提出了 λ 演算(Lambda Calculus),这是一种形式系统,用于表达函数抽象…

【EI会议征稿通知】第五届大数据、人工智能与软件工程国际研讨会(ICBASE 2024)

重要信息 会议官网:www.icbase.org(查看详情) 中文主页:【往届会后3个月检索】第五届大数据、人工智能与软件工程国际研讨会(ICBASE 2024)_艾思科蓝_学术一站式服务平台 会议时间:2024年9月2…

【优秀python案例】基于Python的京东商城口红商品的爬虫与可视化的设计与实现

摘要:随着互联网的普及,网络购物已经成为了人们购物的首选,用户只需要在电商平台上进行自己喜欢的商品进行搜素,就可以得到成千上万条商品信息。而在购买商品时,商品价格就成为了用户的主要关注对象,而在一…