风控变量的命名相信是各位小伙伴,不管是策略还是模型开发的同学都会经常遇到的问题。如果变量不多,假设变量也就只有十几二十个左右,相信大家也不需要怎么处理,或许下面这样的简单命名方式就好了:
如VAR1~VARN:
然后如果需要表达意思,或许再做一个变量映射表就好了。但这种方式一般仅限制在变量较为少量情况才会如此采用,当变量达到上百上千个的时候,以上的命名也许就变得不那么直观。
以下我们来分享一下,在实操中经常需要的一些特征命名方式。
特征的英文名要求简单,可读性好,例如"近30天逾期还款期数占近90天逾期还款期数的比例"这个特征。以我们之前项目的经验,大家可以参考下命名逻辑为:开头(fea_) + 衡量主体(逾期还款overdue_repay) +计算维度(期数 period_cnt)+时间窗口(30d_90d) + 计算方式(占比 prop),命名为fea_overdue_repay_period_cnt_30d_90d_prop
不同单词之间最好用下划线分隔,尽量不要用驼峰的形式,驼峰就是单词之间用首字母大写隔开,刚才的特征用驼峰命名就是feaOverdueRepayPeriodCnt30d90dProp,显得很拥挤,可读性不太好。
另外在命名上尽量有以下原则供大家参考:
①变量命名前后用词需统一
在同一个场景下,变量命名风格需前后统一,比如total和sum都能表示总计的意思,那么所有需要用到"总计"含义的地方要么全部使用total、要么全部使用sum。保持前后命名风格统一是保证工程代码良好可读性的关键保证。
②使用缩写进行命名
有些时候,变量名可能有点长,不利于代码可读性,于是我们都会采用缩写来表示,但缩写尽量使用的约定俗称的缩写。于是这样的缩写大家读起来才比较有可读性。
③复数用s作为后缀
如果是复数的变量,使用复数s结尾,如students,wokers…
④其他一些实用变量命中中的注意点
在写代码的时候最好还是遵守公认的规范,比如某些关键字的,在使用过程可以避免或者以带下划线进行区别标识等。另外还有一些类似的变量也许前面一串数字一致,只需要变动后头的内容就可以了,这种情况最常出现在以时间切片为主的变量命名中,如一月/二月/三月…/半年/一年等。
关于变量命名的内容,番茄风控在之前的文章有特别提到这个内容,各位同学可以到知识星球查收这个内容:
另外关于变量命名相关的内容,本次我们提供了一份详细的变量名称与英文名映射表,帮大家进行了解:
可同步至知识星球查收此份映射内容参考:
…
~原创文章