python格式化地址信息

news2024/9/22 3:43:48

背景

最近在折腾一个好玩的库,capa 实现地址的格式化输出。我看的教程是这样的:

location_str = ["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区"]
import cpca
df = cpca.transform(location_str)
df

在正式的运行代码之前,我在想我输入的地址为什么不能是随机的呢(因为结合很多的应用场景,我觉得问题的解决办法都是相通的),顺便还能帮官方的测试一下好不好用。于是我开始了倒腾,找到了一个模拟地址生成的库 Faker

在正式使用之前,我也看到了这样的帖子,不使用任何的pip包实现。文章地址

这篇文章几乎是从最基础的方法开始,生成对应的随机信息。个人建议作为初学者可以做这样的尝试,可以不断的提升对于python语法特性的掌握程度,但是作为对python有一定的熟悉程度或者工程师,我们首选的还是pip包的组件。一是拿来就用,省时省力;二是:可以用合适呢该有的时间研究一下对方的源码,提升自己的工程化思维和技术的提升。

Faker的使用API可以参照这篇博客,关于Faker的使用我会换一期视频讲解。

安装fake

pip install faker

随机生成10个地址

from faker import Faker

# 创建Faker对象
fake = Faker('zh_CN')

# 生成10个随机地址
random_addresses = []
for _ in range(10):
    address = fake.address()
    # 生成的地址带区域编号,去除
    random_addresses.append(address.split(' ')[0])

for address in random_addresses:
    print(address)

生成的地址如下:

img

可以明显的感觉到这比我们自己手动的书写代码实现随机的信息生成效率、可实用性高多了。

cpca地址解析

安装cpca包

pip install cpca

测试,为了效果更加明显,我写了一条我造的数据

random_addresses.append('湖北省武汉市香港路111号')
    
import cpca

df = cpca.transform(random_addresses)
print(df)

最终的效果如下:

img

还可以输出对应的省、市、区的位置,只需要增加如下的参数:

pos_sensitive=True

官方文档的解释:pos_sensitive:如果为True则会多返回三列,分别提取出的省市区在字符串中的位置,如果字符串中不存在的话则显示-1

可见效果还是很nice的,基本上省、市、地址都能很好的提取出来,可用于部分的demo展示;地址信息完整的话,也可以用于实际的生产。但是可以看到部分地址的市、区信息没有提取出来。因为地址是虚造出来的,地址的准确性也没有得到检验。

如果遇到更加复杂的场景,如获得文本的市、区信息,这个就显得有些吃力了。更多的复杂场景,可能就需要用到NLP了,可以参考文章基于PaddleNLP的快递单信息抽取-实体抽取

参考文章

  • [使用python提取中文地址描述中的省市区信息](

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/824380.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SI24R2H 2.4G+125K中长跑应用原理

一、中长跑计时系统应用背景 采用125KHZ低频唤醒高频射频识别系统和先进的技术、计算机信息处理等高新技术与体育竞赛相结合,便于运动员携带而不影响其跑步状态,当运 动员带着射频识别卡经过计时线圈时,读卡天线能够立即检测到通过的卡片信息…

Maven【入门笔记】

Maven 解决版本依赖的问题 https://www.liaoxuefeng.com/wiki/1252599548343744/1309301146648610 如果没有项目管理工具,在开发项目的时候,我们需要手动管理依赖包,需要管理依赖包的版本、去找到并下载依赖包、还有依赖包所依赖的包 等等。…

解决微服务调用 file文件传递出现的 Current request is not a multipart request 问题

在单体服务中通过使用RequestParam(“file”) MultipartFile multipartFile方式接收文件是没有问题的 多服务传递,如端层到服务层,上述方式就会出现Current request is not a multipart request问题 解决Current request is not a multipart request问题的步骤 将 RequestPar…

Java虚拟机在类加载阶段都做了些什么,才使得我们可以运行Java程序

前言: 今天和大家探讨一道Java中经典的面试题,这道面试题经常出现在各个公司的面试中,结合周志明,老师的《深入理解Java虚拟机》书籍,本篇文章主要讲解Java类加载机制的知识。该专栏比较适合刚入坑Java的小白以及准备秋…

一起学算法(栈篇)

1.栈的概念 1.栈的定义 栈是仅限在表尾进行插入和删除的线性表,栈又被称为先进后出的线性表,简称“LIFO” 我们这次用数组作为我们栈的底层数据结构,代码会放到结尾供大家参考使用 2.栈顶的定义 栈是一个线性表,我们允许插入…

I-STARIS国际演艺集团五洲女子组合练习生2023年度考核开启

I-STARIS国际演艺集团五洲女子组合举行了年度考核,从演员的形象管理、表演技巧、才艺水平及中文语言功底等多方面维度来评定。他们非常认真对待,通过不断的努力学习持续提升自己。 作为一年一度的年度考核,大家都非常紧张,除了专业…

tomcat限制IP访问

tomcat可以通过增加配置&#xff0c;来对来源ip进行限制&#xff0c;即只允许某些ip访问或禁止某些来源ip访问。 配置路径&#xff1a;server.xml 文件下 标签下。与同级 <Valve className"org.apache.catalina.valves.RemoteAddrValve" allow"192.168.x.x&…

企业工程管理系统源码-数字化可视化项目管理平台

工程项目各模块及其功能点清单 一、系统管理 1、数据字典&#xff1a;实现对数据字典标签的增删改查操作 2、编码管理&#xff1a;实现对系统编码的增删改查操作 3、用户管理&#xff1a;管理和查看用户角色 4、菜单管理&#xff1a;实现对系统菜单的增删改查操…

(一)基于Spring Reactor框架响应式异步编程|道法术器

Spring WebFlux 响应式异步编程|道法术器(一) Spring WeFlux响应式编程整合另一种方案|道法术器(二) R2DBC简介 Spring data R2DBC是更大的Spring data 系列的一部分&#xff0c;它使得实现基于R2DBC的存储库变得容易。R2DBC代表反应式关系数据库连接&#xff0c;这是一种使用…

网络四元组

问题描述与解释 四元组&#xff0c;简单理解就是在 TCP 协议中&#xff0c;去确定一个客户端连接的组成要素&#xff0c;它包括 1、源 IP 地址 2、目标 IP 地址 3、源端口号 4、目标端口号 正常情况下&#xff0c;我们对于网络通信的认识可能是这样&#xff08;如图&#xff09…

【力扣每日一题】2023.8.2 翻转卡片游戏

目录 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 代码&#xff1a; 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 这道题不是什么翻转卡片游戏&#xff0c;这就是纯纯的文字游戏&#xff0c;要是能看懂题目那就是非常简单&#xff0c;接下来我就给大家分…

相机存储卡数据恢复,掌握这2个方法就够啦!

“上次和朋友出去旅游拍了好多好看的视频和照片&#xff0c;都特别有纪念意义。但将相机存储卡插入电脑后&#xff0c;很多照片和视频都消失了&#xff0c;怎么恢复相机存储卡里照片呢&#xff1f;求帮助&#xff01;” 对于喜欢拍摄的朋友来说&#xff0c;相机的存储卡真的是个…

elb 直接配置到后端服务器组

出现上图报错的原因是&#xff0c;前面elb配置了https证书&#xff0c;后端的nginx也配置了证书&#xff0c;导致冲突。 需要修改后端的nginx配置文件&#xff0c;将证书配置注释掉。 如果出现健康检查异常&#xff0c;需要在对应服务器的安全组上配置elb所在的网段的访问权限…

不同USB口上的颜色各有什么含义和区别?

在生活中&#xff0c;当我们仔细观察手机、电视、电脑、音箱等电子设备时&#xff0c;就会发现USB端口的颜色有很多。单纯的你可能会认为只是为了好看&#xff0c;实际上不同的颜色代表着不同性能。 01.USB接口的概念 USB通用串行总线&#xff08;Universal Serial Bus&#x…

JVM内存模型【入门】

计算机结构简图 JVM内存模型 详细说明&#xff1a;https://blog.csdn.net/m0_71777195/article/details/126247090 什么是JVM&#xff1f; JVM是Java Virtual Machine&#xff08;Java虚拟机&#xff09;的缩写&#xff0c;JVM是一个虚构出来的计算机&#xff0c;有着自己完善…

VMware vSphere整体解决方案及实验拓扑

VMware vSphere整体解决方案及实验拓扑 VMware vSphere完整的解决方案 VMware vSphere有两个核心组件&#xff1a;ESXI&#xff0c;vCenter。ESXI实现的是单机虚拟化&#xff0c;而vCenter实现集群虚拟化&#xff0c;把所有的ESXI统一进行管理。当然了&#xff0c;要想是实现…

IntelliJ IDEA 2023.2新特性详解第二弹!

4 性能分析器 4.1 从 Run&#xff08;运行&#xff09;工具窗口使用分析功能 2023.2 中&#xff0c;可直接从 Run&#xff08;运行&#xff09;工具窗口轻松访问 IntelliJ 分析器的功能。 使用新按钮&#xff0c;点击即可调用&#xff1a; Attach IntelliJ Profiler&#xff…

基于“RWEQ+”集成技术在土壤风蚀模拟与风蚀模数估算、变化归因分析中的应用

土壤风蚀是一个全球性的环境问题。中国是世界上受土壤风蚀危害最严重的国家之一&#xff0c;土壤风蚀是中国干旱、半干旱及部分湿润地区土地荒漠化的首要过程。中国风蚀荒漠化面积达160.74104km2&#xff0c;占国土总面积的16.7%&#xff0c;严重影响这些地区的资源开发和社会经…

Linux【网络基础】之宏观认识

文章目录 一、计算机网络背景二、计算机网络协议&#xff08;1&#xff09;网络协议的概念&#xff08;2&#xff09;协议分层&#xff08;3&#xff09;数据封装与分用&#xff08;4&#xff09;地址管理 一、计算机网络背景 学习计算机网络我们首先要有宏观的认识&#xff0…

03|Oracle学习(主键约束、联合主键)

1. 主键约束介绍 主键&#xff1a;数据表中的一个或多个字段&#xff0c;用于唯一标识数据表中的一条记录。 2. 添加主键约束 2.1 在创建表时添加约束 写法1&#xff1a; CREATE TABLE tb_students(stu_num char(5) primary key,stu_name varchar(10) not null,stu_sex cha…