来啦|深度讲解风控模型中的参数调优

news2025/1/11 5:10:25

大数据时代的风控体系必有模型部分的参与,用策略贯穿整个风控体系,以数据为驱动,模型一定是标配内容。于是在模型的建设上,如何精细化地输出一套有效的模型,就是在精细化管理上非常重要的一个差异点。不管传统的逻辑回归也好,还是现在的机器学习也罢,总需要进行的就是模型的调参。

关于调参的内容,在知识星球的社区中,我们也跟大家分享过相关的内容,详情如下:
在这里插入图片描述

在风控建模的流程中,模型调参是非常重要的一步,我们通过调整算法的参数可以达到更好的模型效果。在调参过程中需要建模人员对算法和数据的理解,细致的分析能力,以及选择合适的调参策略。下面我们基于自身建模的经验,介绍下风控建模中调参的实际应用方法。
调参前需要了解的内容
在讲具体的方法前,先抛出下面几个问题:
1)参数是什么?是调整哪些参数?
2)调参的目标是什么?每种参数对目标有什么影响?
3)调参的流程大概是怎样的?
4)在调参中需要注意哪些地方?参数在机器学习指的是算法的"超参数",决定了模型结构/框架及算法行为,举个例子,决策树中的"最大树深度"就是一个超参数,它决定了树在生长过程中的层数,会影响到最终模型的预测结果。每种算法的参数我们需要去了解它的含义,取值范围,对模型性能的影响等,才能知道怎么去调整。
另外算法中的参数可能很多,但并非所有的参数都同等重要,应该根据目标选择重要的参数来调整。调参的目标,或者说参数对模型效果有什么影响,有以下几点:
1)模型分的分布,根据业务sens,我们希望调参后模型分呈近似的正态分布
2)模型分的最大KS,KS反映了模型的区隔能力,我们希望调参能使KS最大化
3)模型分的Lift排序性,在整体或者尾段,我们希望调参后模型有良好的排序能力
一.调参的流程大致分为以下几步
1)确定使用的算法和调参目标
2)建立baseline模型,baseline类似实验中的对照组,后面调参后的模型就是改进版本,来打败baseline版本,baseline中的模型参数需要按经验来设置
3)确定要调整哪些参数,选择合适的调参策略
4)记录每轮调参的结果,最好能可视化的呈现和分析
5)比较每组参数的训练结果,选择最好的一组参数来跟baseline版本做对比
调参最需要注意的地方在于时间成本。数据规模的大小,参数组合的数量,参数的取值都会影响到调参训练的时间。风控建模的样本一般就几万到十几万,属于小规模样本量,但特征可能有几百维甚至几千维,数据规模越大,训练时间越长,大规模数据集一定要考虑调参耗费的时间。另外我们不可能穷尽所有的参数组合来达到全局最优解,要铭记参数只有更好,没有最好,参数组合数量和取值范围应控制在合理的范围内。
总的来说,我们需要平衡模型的效果和调参耗费的时间成本。

二.风控模型常用算法和主要的参数介绍
风控模型常用的算法有逻辑回归(LR),随机森林,xgboost,lightgbm等,其中LR属于线性回归,剩下的都属于集成算法。LR的参数很少,比较重要的一个参数在sklearn中叫"正则化系数"(C),这个参数值越小,正则化强度越大,即防止过拟合的程度更大,但经过我们的实际验证,这个参数对模型效果影响甚微,所以用LR训练时其实不用调参,用算法给的默认参数即可。相比之下集成算法的参数众多,这里我们挑出了主要的一些参数,介绍下参数的含义,对模型性能的影响和常见的取值范围(sklearn中)。并且将参数分为了性能类,效率类,附加类三种。
1.随机森林
随机森林是bagging算法的代表,使用了CART树作为弱分类器,将多个不同的决策树进行组合,利用这种组合来降低单棵决策树的可能带来的片面性和判断不准确性。随机森林一般调整n_estimators,max_depth,max_features,min_samples_split,min_samples_leaf这几个参数。
在这里插入图片描述

2.XGBOOST
xgboost是一种梯度提升的算法,用来解决分类和回归问题。它对GBDT进行了一系列优化,比如损失函数进行了二阶泰勒展开、目标函数加入正则项、特征粒度上支持并行计算和默认缺失值处理等。xgboost一般调整n_estimators,learning_rate,max_depth,min_child_weight,subsample,colsample_bytree这几个参数。
在这里插入图片描述

3.Lightgbm
lightgbm跟xgboost类似,也是一种梯度提升的算法,它相比xgboost的改进在于,训练速度和精度上的优化,以及可以处理类别型特征。lightgbm的很多参数和xgboost是一样的,主要对n_estimators,learning_rate,num_leaves,min_child_sample,subsample,colsample_bytree这几个进行调整。
在这里插入图片描述

当然模调参中的相关细节,有兴趣的童鞋可继续关注:
在这里插入图片描述

~原创文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/94889.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MATLAB处理语音信号基本函数、模块

目录 一、sound函数 二、symerr函数用来计算错误码元数目和误码率 三、From Workspace 模块 四、To Workspace模块 一、sound函数 sound函数可以用来播放音频数据,将矩阵变为立体声播放。 二、symerr函数用来计算错误码元数目和误码率 三、From Workspace 模…

【High 翻天】Higer-order Networks with Battiston Federico (2)

目录测量矩阵表示中心化测度度(degree)路径(path)特征向量中心三元闭包和聚类系数单纯同调高阶Lapalacian算子超图拉普拉斯组合拉普拉斯接上回说到了高阶的表示方法,接下来开始高阶系统的测量方法。 测量 具体来说就…

逻辑越权总结(超详细总结涉及各类越权)

逻辑越权总结(超详细总结涉及各类越权)1.逻辑越权1.1.漏洞原理1.2.漏洞原因1.3.水平越权1.3.1.原理1.3.2.漏洞出现位置1.3.3.危害1.3.4.案例1.3.4.1.登录账号1.3.4.2.获取信息1.3.4.3.修改信息1.4.垂直越权1.4.1.原理1.4.2.漏洞出现位置1.4.3.条件1.4.4.…

艾美捷CpG ODN——ODN 1585说明书

艾美捷CpG ODN系列——ODN 1585:CpG寡脱氧核苷酸(A型)优化用于NK细胞活化,具有混合的磷酸二酯酶/硫代磷酸酯主链。小鼠TLR9(Toll样受体9)的特异性配体。 艾美捷CpG ODN 丨ODN 1585化学性质: 序…

kruskalCase克鲁斯卡尔算法

介绍 它的特点和Prim算法不一样,Prim是以点为主,通过顶点遍历没有访问的节点计算最小权重直至一条最小边出来;而Kruskal算法是以边为主,时间复杂度要低一些0(edge); 什么是最小生成树 最小生成树:在一个有n个结点的…

blender教程

文章目录Three的部分课件blender相关资源模型下载地址视图基本操作实现甜甜圈下落的动画day01笔记Three的部分课件 blender相关资源 模型下载地址 视图基本操作 shiftd 复制多个 g键移动 x y z锁定方向 A可以全选 然后选择大小 s 键 拖拽大小 ctrl a 全部应用 切换到不同的编…

Python 图表利器 pyecharts

随着互联网的高速发展,数据量也在疯狂增长,近几年数据分析,数据挖掘的岗位越来越吃香。说到数据分析,就离不开数据的可视化,毕竟图表比冷冰冰的数字直观,一眼就可以看出趋势和结论,毕竟一图胜千…

【AIOT】BLE Paper Relative

Billah, Md Fazlay Rabbi Masum, et al. “BLE Can See: A Reinforcement Learning Approach for RF-based Indoor Occupancy Detection.” Proceedings of the 20th International Conference on Information Processing in Sensor Networks (co-located with CPS-IoT Week 20…

对象池模式

一、对象池模式 1、定义 对象池模式(Object Pool Pattern)是将对象预先创建并初始化后放入对象池中,对象提供者就能利用已有的对象来处理请求,减少频繁创建对象锁占用的内存空间和初始化时间。属于创建型设计模式。 一个对象池包…

python 模板注入

web 程序包括两个文件: flask-test.py 和 Config.py 文件 #!/usr/bin/env python # -*- coding:utf8 -*- import hashlib import logging from datetime import timedelta from flask import Flask from flask import request from flask import config from flask…

基于java(springboot)篮球竞赛预约管理系统(java毕业设计)

基于java(springboot)篮球竞赛预约管理系统 篮球竞赛管理系统是基于java编程语言,mysql数据库,springboot框架和idea工具开发,本系统分为用户和管理员两个角色,其中用户可以在线注册登陆,查看平台公告,查看…

JSP运动会信息网站

开发工具(eclipse/idea/vscode等): 数据库(sqlite/mysql/sqlserver等): 功能模块(请用文字描述,至少200字): 模块划分:通知类型、通知信息、裁判信息、运动员信息、项目类型、项目 信息、场地信息、项目安排、报名信息…

【记录】ubuntu20.04安装nvidia显卡驱动

新安装的Ubuntu20.04系统,如果想进行人工智能相关的学习,需要配置一系列的环境,这里我记录下具体的安装过程。 Nvidia显卡驱动的安装 1 安装前需要安装依赖(必须执行) sudo apt-get update #更新软件列表 #安装编译依赖 sudo apt-get inst…

Python urllib CRLF注入漏洞小结

Python urllib CRLF注入漏洞小结 CVE-2016-5699 https://www.suse.com/security/cve/CVE-2016-5699.html before 2.7.10 and 3.x before 3.4.4POC: http://127.0.0.1%0d%0aX-injected:%20header%0d%0ax-leftover:%20:12345/foo漏洞&patch源码:http…

音视频大合集最终篇;学废了

前言 加企鹅群:1079654574 解锁 《音视频八大板块资料》音视频大合集,从初中高到面试应有尽有;让学习更贴近未来实战。已形成PDF版 八个模块内容如下: 1.音视频基础2.FFmpeg实战3.流媒体客户端4.流媒体服务器5.WebRTC项目实战6.Android NDK开…

零时 || 警惕恶意聊天软件!聊天记录被劫持损失数千万资产追踪分析

事件背景 近期,零时科技安全团队收到大量用户因为同一个原因导致加密资产被盗的情况,经调查都是因为过程中使用了恶意Whatsapp的原因,通过与受害者沟通,了解到情况如下: 受害者在使用恶意Whatsapp进行沟通时&#xf…

173. 二叉搜索树迭代器

实现一个二叉搜索树迭代器类BSTIterator ,表示一个按中序遍历二叉搜索树(BST)的迭代器: BSTIterator(TreeNode root) 初始化 BSTIterator 类的一个对象。BST 的根节点 root 会作为构造函数的一部分给出。指针应初始化为一个不存在…

STM32F4 | PWM输出实验

文章目录一、PWM 简介二、硬件设计三、软件设计四、实验现象五、STM32CubeMX 配置定时器 PWM 输出功能上一章,我们介绍了 STM32F429 的通用定时器 TIM3,用该定时器的中断来控制 DS1 的闪烁,这一章,我们将向大家介绍如何使用 S…

CososCreator (Android)-AppLovin MAX 广告聚合平台接入+Firebase统计

CososCreator 2.2.4 Android Studio :4.2.1 接入SDK有:接max聚合及中介平台(Admob,FB, applovin,pangle,mintegral,vungle,unity),和Firebase 统计 1、构建Android工程 2、升级gr…

计算机SSM毕设推荐 40个高质量软件工程毕设项目分享【源码+论文】(一)

文章目录前言 题目1 : 基于SSM的毕业设计管理系统 <br /> 题目2 : 基于SSM的病人跟踪治疗信息管理系统 <br /> 题目3 : 基于SSM的大学生兼职跟踪系统 <br /> 题目4 : 基于SSM的大学生企业推荐系统 <br /> 题目5 : 基于SSM的电影院在线售票系统 <br …