阿里云地址标准化服务入口
1地址标准化概念
阿地址标准化(Address Purification)是一站式闭环地址数据处理和服务平台产品,依托阿里云海量的地址语料库,针对各行业业务系统所登记的地址数据,进行纠错、补全、归一、结构化、标签化等NLP处理清洗,实现地址库的标准化,并向上提供地址智能填写、地址搜索/联想、地址正/逆编码、地址围栏等地址服务。阿里云地址标准化服务入口
2地址标准化能力
2.1地址标准化基础能力
适用于各类长文本地址抽取和姓名、电话号码抽取等
1长文本地址抽取
针对书写形式相对正式的中文文本信息中(例如新闻)抽取文本中的地址片段,主要用于长文本地址信息识别。
2姓名抽取
针对书写形式相对正式的中文文本信息中(例如物流面单)抽取文本中的姓名片段,主要用于物流面单中的姓名抽取。
3 电话号码抽取
针对书写形式相对正式的中文文本信息中(例如物流面单)抽取文本中的电话片段,支持虚拟号码和隐私电话的抽取。
4行政区划识别
输入一整段的地址,识别出该地址所对应的行政区划及行政区划编码。区划编码按《统计用城乡划分代码》表示。
5 邮编识别
邮编识别是指对输入地址,识别出其所对应的邮政编码,默认细化到区县级别。
2.2其他功能
3关键功能详解
地址归一服务
地址标准化系统提供地址归一服务,通过自然语言处理技术及特定算法模型,使同一地点的不同名称建立关联,以此实现重复地名的聚合归一,有效解决一地多名问题。
许多地名地址会存在官方名称、通俗名称、错误名称等多个叫法,在村镇、道路、POI点位等级别都会出现这类现象。地址归一服务支持不同地址级别的归一,如村镇、道路、POI、楼栋、户室等,根据用户的需求进行数据治理。下面以POI归一为例进行介绍:
基于标准地址库与地址文本解析,对已有/新增地址进行统一ID的生成,基于ID实现地址归一、聚合,有效解决”一地多名”问题,减少地址的重名冗余。