OneHotEncoder,在Xtrain上fit,在Xtest上transform
如果遇到某个值出现在Xtest,而没有在Xtrain出现过时,会抛出如下错误:
OneHotEncoder Found unknown categories [xxx] in column xx during transform
OneHotEncoder 只能对在训练阶段见过的类别进行编码
解决这个问题的其中一个办法是,在OneHotEncoder实例化的时候设置参数handle_unknown='ignore'
,即表示忽略未知类别值
在转换过程中,如遇到未知类别值时,编码器会将对应的编码位置全部设置为 0
encoder = OneHotEncoder(handle_unknown='ignore')
但是,OneHotEncoder的编码默认又是从0开始的,导致一个问题:
假如某个特征有3种取值,正常经过OneHotEncoder编码后还是3种取值,即0,1,2;但一旦遇到上述问题设置handle_unknown='ignore
后,编码就变成了0,1,这就会丢失部分信息。
如果要更改Onehotencoder handle_unknown='ignore
时的默认值,还得通过继承OneHotEncoder类并覆盖相关方法来实现