当前的互联网借贷平台,国家已明确规定不允许向高校学生发放贷款,因此对于小贷、消金等金融机构,在信贷产品业务的风控体系中,有效判断申请用户是否为高校学生是一个非常重要的问题。针对高校学生身份的识别,虽然有多种策略可以考虑,例如用户的学籍信息认证是最简单有效的方法,但学信网官方权威认证的数据服务,互联网信贷平台一般是没有资质或很难获取的。结合行业的实际情况,信贷业务方只能依靠自身的风控策略,或者外部数据机构有限的信息服务,来较大程度的实现高校学生的识别。其中,根据用户申请阶段填写的地址信息,来深入挖掘数据并解析特征,往往是一项比较合理的可选途径。
基于此,为了解决根据地址信息来挖掘哪些信息应该作为判断学生的身份,我们给大家提供相关问题的解决思路,当然除了解决思路外,在文章中,更有相关的实操代码,以及用来辅助判断学生的附带材料“信息”帮助大家更精准地判断学生信息。
本次整体内容目录如下:
Part1.高校地址判断逻辑
1.1.地址的关键词的识别
1.2.python文本的地址识别代码
Par2、高校地址实例分析
2.1.关联高校地址信息的样本数据识别效果展示
Part3.实操的内容展示
3.1.实操内容展示
举个例子,某地址为“北京东城区东棉花胡同39号中央戏剧学院学生公寓106”,内容直接体现了学校的具体名称“中央戏剧学院”,以及“学生公寓”的关键词语,可以很大概率的认为当前用户是一名高校学生,信贷业务方可以对此用户的申请进行拒绝。再例如,某地址为“北京海淀区学院路38号北京医科大学正门对面华联超市”,则不能认为当前用户为高校学生,虽然地址信息清晰反映了大学的名称“北京医科大学”,但重要的对象在于最后的“华联超市”。因此,单纯根据地址信息中学校名称是难以准确判断是否为高校学生的,需要更具体的解析详细地址的主要信息。
Part1、高校地址判断逻辑
为了较大程度的解析地址信息所反映的用户身份是否为高校学生,本文结合实际情况,给大家介绍一种快速分析地址信息的方法,主要应用的原理逻辑是采用正则表达式对地址的关键词进行识别,具体表现主要包括以下几个维度:
(1)高校关键字:“大学”、“高校”、“学院”等;
(2)学生关键词:“本科”、“研究生”、“学生宿舍”等;
(3)高校的简称:“北大”、“华科大”、“大连理工”等;
(4)高校的地址:“北京东城区东棉花胡同39号”等。
在地址信息中若出现以上几类关键词,可以大概率的认为相应用户为高校学生,但是需要在基础上定向排除以下几种常见类型的关键词:
在这个部分,我们会详细跟大家介绍在实际工作场景中,应该重点剔除掉哪些地址维度来帮助我们精确判断哪些属于学生维度。
并且对学生身份的识别在,对高校名称的识别是一个关键动作。因此为了更准确地,在高校识别的准入规则上,需要较大范围的将国内高校缩写名称进行枚举,这样才能较好保证高校属性的判断。为此,我们拉入了一个高校识别的名单库供大家进行了解(该详细内容可以参阅我们知识星球上相关文档):
图1 高校标签名称样例
在该内容的基础上,当然为了抓取详细信息,详细的文本配套必须有配套的代码,才能进行操作,此份内容可以进一步来了解此份的python文本,进行详细学习。
【图:知识星球配套的相关文档】
Part2,高校地址实例分析
在这个部分,我们通过一个实例来进行客观描述,该数据集含有关联高校地址信息的样本数据,如该数据集内容展示如下:
3 数据样例分布
希望通过以上第一部分的介绍的方法,在进行相关的处理后,我们看一下相关的结果展示如下:
图6 样例解析结果
在上图输出的标签flag结果,True/False分别代表是/否高校学生(最后一列)。
可以看出本文介绍的解析过程是比较准确的,flag=True的详细地址大概率可以反映出当前用户为高校学生,而flag=False的地址信息虽然包含了具体高校名称,但主语对象并非对应到学生,而是保卫处、餐厅、超市、附属小学、家属楼、银行等,这些名称对应用户身份为学生的可能性是很低的。
Part3.实操的内容展示
本文所介绍的根据地址信息判断申请用户是否为高校学生的方法,在实际业务场景中是否可以应用,在以上内容我们做了相关验证,也是项目中曾经试验落地方法,该方法可提升产品中高校学生拒绝的风控准入效果。
为了便于大家对以上内容的进一步熟悉与理解,本文完整的内容可以同步到知识星球平台查看学习。另外额外附带了更详细的完整Python代码,详情请移至知识星球查看相关内容:
…
~原创文章