随着地址库中的数据不断的丰富,地址库中一码多址和同义词的数据也会越来越多,一码多址和同义词在统一地址管理平台中的概念并不相同。
一码多址指的是多个地址编码相同,例如通过民政地址找到编码,再通过编码找到房产地址描述。
本文介绍一种标准地址库动态更新的方案。通过每天将业务地址中没有与标准地址成功关联匹配的地址收集起来,经过ETL流程自动化的规范化工作之后,每天把疑似标准地址的地址数据推送给人工确认就行。这种更新方式更有正对行,减少大量人工作业,并且数据更新频率非常高,能做到T+1更新。
第一步:业务地址汇总:大量非标准的地址数据去重。
第二步:业务地址关联标准地址:依赖addresstool工具,利用api接口或者大数据工具,将业务地址与标准地址进行一对一匹配(具体方法可参考我写的其他文章)。
第三步:未关联(非完全关联)地址汇总。业务地址关联标准地址会有3中情况,完全关联、非完全关联和未关联,后2中情况的地址是需要进一步治理的。
第四步:脏数据过滤。这个可以将各种不符合要求的地址进行过滤,如无地址主体的地址、目前区域外的地址、脏字符串、乱码等。
第五步:地址规范化。这一步主要进行地址分词、地址行政区划补全等操作,尽可能简化后续人工工作量。
第六步:人工审核验证。到这里基本上都是一些书写质量较高的业务地址,人工只需审核地址是否真是存在、地址切词是否正确并进行适当调整修补即可。
地址自动化更新的目的就是为了减少传统方式建标准地址库的工作量,并且提高地址更新的及时性。
为此,我专门写了一个addresstool工具,集成了地址分词、地理要素识别、正向地理编码、标准地址关联等方法,gitee有各场景的算法demo,欢迎共同讨论。
如果想了解更多addresstool用法,欢迎关注我的博客
java资源下载
https://download.csdn.net/download/u011024436/89035851
源码学习
https://gitee.com/addresstool/address