学生身份标签的识别与风控应用

news2024/9/24 21:27:21

当前的互联网借贷平台,国家已明确规定不允许向高校学生发放贷款,因此对于小贷、消金等金融机构,在信贷产品业务的风控体系中,有效判断申请用户是否为高校学生是一个非常重要的问题。针对高校学生身份的识别,虽然有多种策略可以考虑,例如用户的学籍信息认证是最简单有效的方法,但学信网官方权威认证的数据服务,互联网信贷平台一般是没有资质或很难获取的。结合行业的实际情况,信贷业务方只能依靠自身的风控策略,或者外部数据机构有限的信息服务,来较大程度的实现高校学生的识别。其中,根据用户申请阶段填写的地址信息,来深入挖掘数据并解析特征,往往是一项比较合理的可选途径。
基于此,为了解决根据地址信息来挖掘哪些信息应该作为判断学生的身份,我们给大家提供相关问题的解决思路,当然除了解决思路外,在文章中,更有相关的实操代码,以及用来辅助判断学生的附带材料“信息”帮助大家更精准地判断学生信息。
本次整体内容目录如下:
Part1.高校地址判断逻辑
1.1.地址的关键词的识别
1.2.python文本的地址识别代码

Par2、高校地址实例分析

2.1.关联高校地址信息的样本数据识别效果展示

Part3.实操的内容展示
3.1.实操内容展示
举个例子,某地址为“北京东城区东棉花胡同39号中央戏剧学院学生公寓106”,内容直接体现了学校的具体名称“中央戏剧学院”,以及“学生公寓”的关键词语,可以很大概率的认为当前用户是一名高校学生,信贷业务方可以对此用户的申请进行拒绝。再例如,某地址为“北京海淀区学院路38号北京医科大学正门对面华联超市”,则不能认为当前用户为高校学生,虽然地址信息清晰反映了大学的名称“北京医科大学”,但重要的对象在于最后的“华联超市”。因此,单纯根据地址信息中学校名称是难以准确判断是否为高校学生的,需要更具体的解析详细地址的主要信息。
Part1、高校地址判断逻辑
为了较大程度的解析地址信息所反映的用户身份是否为高校学生,本文结合实际情况,给大家介绍一种快速分析地址信息的方法,主要应用的原理逻辑是采用正则表达式对地址的关键词进行识别,具体表现主要包括以下几个维度:
(1)高校关键字:“大学”、“高校”、“学院”等;
(2)学生关键词:“本科”、“研究生”、“学生宿舍”等;
(3)高校的简称:“北大”、“华科大”、“大连理工”等;
(4)高校的地址:“北京东城区东棉花胡同39号”等。
在地址信息中若出现以上几类关键词,可以大概率的认为相应用户为高校学生,但是需要在基础上定向排除以下几种常见类型的关键词:
在这个部分,我们会详细跟大家介绍在实际工作场景中,应该重点剔除掉哪些地址维度来帮助我们精确判断哪些属于学生维度。
并且对学生身份的识别在,对高校名称的识别是一个关键动作。因此为了更准确地,在高校识别的准入规则上,需要较大范围的将国内高校缩写名称进行枚举,这样才能较好保证高校属性的判断。为此,我们拉入了一个高校识别的名单库供大家进行了解(该详细内容可以参阅我们知识星球上相关文档):
在这里插入图片描述
图1 高校标签名称样例

在该内容的基础上,当然为了抓取详细信息,详细的文本配套必须有配套的代码,才能进行操作,此份内容可以进一步来了解此份的python文本,进行详细学习。
在这里插入图片描述
【图:知识星球配套的相关文档】

Part2,高校地址实例分析
在这个部分,我们通过一个实例来进行客观描述,该数据集含有关联高校地址信息的样本数据,如该数据集内容展示如下:
在这里插入图片描述
3 数据样例分布

希望通过以上第一部分的介绍的方法,在进行相关的处理后,我们看一下相关的结果展示如下:
在这里插入图片描述
图6 样例解析结果

在上图输出的标签flag结果,True/False分别代表是/否高校学生(最后一列)。
可以看出本文介绍的解析过程是比较准确的,flag=True的详细地址大概率可以反映出当前用户为高校学生,而flag=False的地址信息虽然包含了具体高校名称,但主语对象并非对应到学生,而是保卫处、餐厅、超市、附属小学、家属楼、银行等,这些名称对应用户身份为学生的可能性是很低的。

Part3.实操的内容展示
本文所介绍的根据地址信息判断申请用户是否为高校学生的方法,在实际业务场景中是否可以应用,在以上内容我们做了相关验证,也是项目中曾经试验落地方法,该方法可提升产品中高校学生拒绝的风控准入效果。
为了便于大家对以上内容的进一步熟悉与理解,本文完整的内容可以同步到知识星球平台查看学习。另外额外附带了更详细的完整Python代码,详情请移至知识星球查看相关内容:
在这里插入图片描述

~原创文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/66930.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

机器学习、深度学习、自然语言处理学习 NLP-RoadMap-996station GitHub鉴赏官

推荐理由: 机器学习、深度学习、自然语言处理学习路线图 及 AI方向学习资源、工具 NLP-RoadMap 持续更新中。以下内容有错误或者不足,欢迎提Issue或者联系我讨论 整理不易,希望点个小星星 ​支持下呀! 前言 数理基础 编程基础 机…

RE2:Simple and Effective Text Matching with Richer Alignment Features

原文链接:https://aclanthology.org/P19-1465.pdf 介绍 问题 作者认为之前文本匹配模型中序列对齐部分,过于复杂。只有单个inter-sequence alignment层的模型,常会引入外部信息(例如语法特征)作为额外输入,…

小游戏与H5游戏对比与梳理

H5游戏是运用了h5技术的响应式网站布局的游戏,它完全实现了网页游戏在手机移动端的无缝衔接。众所周知,H5游戏已盛行了多年,而如今,随着诸多小游戏的推出,小游戏爆款频出,从“跳一跳”到“羊了个羊”&#…

Leetcode---2465.不同的平均值数目

目录题目描述分析题目描述 给你一个下标从 0 开始长度为 偶数 的整数数组 nums 。 只要 nums 不是 空数组,你就重复执行以下步骤: 找到 nums 中的最小值,并删除它。 找到 nums 中的最大值,并删除它。 计算删除两数的平均值。 两…

Qt OpenGL 2D图像文字

这次教程中,我们将学会如何使用四边形纹理贴图把文字显示在屏幕上。我们将把256个不同的文字从一个256256的纹理图像中一个个提取出来,接着创建一个输出函数来创建任意我们希望的文字。 还记得在第一篇字体教程中我提到使用纹理在屏幕上绘制文字吗&…

springboot构建RESTful 风格应用

Spring Boot 构建 RESTful 风格应用 1.Web开发的两种模式: 前后端不分离: 以前没有移动互联网时,我们做的大部分应用都是前后端不分的,比如jsp,或者thymeleaf等后端分离模板,在这种架构的应用中&#xf…

SQLMAP _DNS注入配置方法

网上针对sqlmap进行dns注入的相关文章太少,只是简单介绍了下–dns-domain参数,相关的实战文章要么就模糊或者一笔带过,。然后参考网上的方法重新整理了一遍,简单理解。 需要准备的东西,sqlmap、windows盲注一个、两个…

档案信息化咨询方法论实践要点有哪些?

咨询工作中,有些咨询师也许会有这样的疑问:“我业务经验挺丰富的,但做咨询工作怎么这么吃力呢?”这可能就是因为缺乏方法论的有效指导。咨询方法论是咨询工作中用来分析和解决某类特定问题的工具、方法、流程、模型和评价准则等。…

Ansible之playbook详解和应用实例

目录 一、playbook简介 1.什么是playbook 2.playbook组成 二、应用实例 1.使用playbook安装启用httpd服务 2.使用playbook安装启用nginx服务 三、ansible-playbook其他用法 1.检查yaml文件的语法是否正确 2.检查tasks任务 3.检查指定的主机 4.指定从某个task开始运行…

红队学习隧道必须了解的知识

端口映射和端口转发 端口映射 端口映射就是将外网的主机的一个端口映射到内网主机的一个端口,提供相应的服务。当用户访问外网IP的这个端口时,服务器自动将请求映射到对应局域网内部的机器上 端口转发 端口转发就是将发往外网指定端口的通信完全转发给…

windows下安装hbase

windows下安转hbase 安装流程 解压提供的压缩包 该压缩包是经过我修改后的,已经创建data、tmp、zookeeper目录和替换相关配置文件,目的是简化安装流程 压缩包 https://share.weiyun.com/SLTS9woO 环境变量配置 在系统变量中添加HBASE_HOME环境变量&…

Java ConcurrentHashMap 高并发安全实现原理解析

三、C13Map的字段定义 C13Map的字段定义 //最大容量 private static final int MAXIMUM_CAPACITY 1 << 30; //默认初始容量 private static final int DEFAULT_CAPACITY 16; //数组的最大容量,防止抛出OOM static final int MAX_ARRAY_SIZE Integer.MAX_VALUE -…

使用pyautogui进行PC用户界面自动化测试

目录 1.pyautogui简介及安装 2.pyautogui常见用法 2.1返回所用显示器的分辨率 2.2键盘输入函数 2.3常用函数typewrite() 2.4键盘事件 2.5函数hotkey() 2.6保存屏幕截图 3.常见用法代码汇总 1.pyautogui简介及安装 Pyautogui是一个纯Python的图形化自动化工具&#x…

代码审计-4 代码执行漏洞

代码执行漏洞 代码执行漏洞利用 ZZZPHP1.6 远程代码执行漏洞分析 漏洞点函数 此处如果能控制$ifstr就可以进行闭合&#xff0c;执行恶意代码 parserIfLabel函数将传入的参数进行正则匹配&#xff0c;当匹配通过时继续往下走 下面并没有对恶意代码内容进行过滤 跟踪parserIfLab…

游戏开发37课 狙击枪 视野问题

首先说一下视野的思路&#xff1a;我们可视化的视野全部都是以扇形显示的&#xff0c;同时为了后期的方便调整我们的视野和距离都必须是动态的。那么我们是不是可以使用度数来控制视野范围&#xff0c;那么我们就需要画出一个扇形。那么我们可以先画出来一个圆 然后在这个圆上面…

Linux安装 vmware workstation

官网下载地址 vmware workstation&#xff1a; Download VMware Workstation Pro 也可以下载提供的安装包。 链接&#xff1a;百度网盘 请输入提取码 提取码&#xff1a;au74 一、Ubuntu 安装 安装构建依赖项&#xff0c;打开您的系统终端并运行以下命令&#xff1a; s…

Linux操作系统中的yum命令

Linux操作系统中的yum命令是大家经常会用到的命令&#xff0c;有着非常重要的作用&#xff0c;但很多朋友依然不太清楚yum命令作用是什么&#xff1f;yum命令有哪些语法和常用命令&#xff1f;接下来我们一起来看看详细的内容介绍。 yum命令全称为Yellow dog Updater, Modified…

ChatGPT生成量化交易策略,真好玩

OK&#xff0c;还有没有更好玩的对 量化策略开发&#xff0c;高质量社群&#xff0c;交易思路分享等相关内容 『正文』 ˇ 最近比较火的OpenAI-ChatGPT&#xff0c;太有意思了。尝试让它写了几个策略&#xff0c;您别说&#xff0c;还真是有模有样。我们来看看吧。 模型一&a…

哈希(开散列、闭散列)-位图-布隆过滤器-哈希切分

文章目录1、哈希概念2、哈希表/散列表&#xff08;1&#xff09;哈希函数的设计&#xff1a;&#xff08;2&#xff09;&#xff08;最常用&#xff09;除留余数法&#xff1a;&#xff08;3&#xff09;如何解决哈希冲突&#xff1f;更加合理的设计哈希函数闭散列&#xff08;…

Java多线程之线程同步机制(锁,线程池等等)

Java多线程之线程同步机制一、概念1、并发2、起因3、缺点二、三大不安全案例1、样例一&#xff08;模拟买票场景&#xff09;2、样例二&#xff08;模拟取钱场景&#xff09;3、样例三&#xff08;模拟集合&#xff09;三、同步方法及同步块1、同步方法2、同步块四、JUC安全类型…