文章目录
- 2.1 连续变量的离散化
- 2.2 自动重编码、编秩与数值计数
- 2.3 几个常用过程
- 2.4 多个数据文件的操作
- 2.5 数据字典
- 2.6 数据核查
- (1)数据验证模块
- (2)数据检验
- 2.7 数据准备
- 计算新变量(转换 -> 计算变量)
2.1 连续变量的离散化
- 可视化离散(转换 -> 可视分箱)
- 最优离散化(转换 -> 最优分箱)
2.2 自动重编码、编秩与数值计数
- 变量的重新编码(转换 -> 重新编码为相同的变量 / 重新编码为不同变量 / 自动重新编码)
- 个案等级排序(转换 -> 个案排秩)
- 对个案内值的计数(转换 -> 对个案中的值进行计数)
2.3 几个常用过程
- 数据排序(数据 -> 个案排序 / 变量排序)
- 文件拆分(数据 -> 拆分文件)
- 选择个案(数据 -> 选择个案)
- 个案加权(数据 -> 个案加权)
- 分类汇总(数据 -> 汇总)
2.4 多个数据文件的操作
- 数据文件的合并(数据 -> 合并文件 -> 添加个案 / 添加变量)
- 数据文件的结构重组(数据 -> 重构)
- 数据转置(数据 -> 转置)
2.5 数据字典
- 定义变量属性(数据 -> 定义变量属性)
- 复制数据属性(数据 -> 复制数据属性)
- 新建自定义属性(数据 -> 新建定制属性)
2.6 数据核查
(1)数据验证模块
- 定义验证规则(数据 -> 验证 -> 定义规则)
- 进行数据验证(数据 -> 验证 -> 验证数据)
- 加载预定义规则(数据 -> 验证 -> 装入预定义规则)
(2)数据检验
- 标识重复个案(数据 -> 标识重复个案)
- 标识异常个案(数据 -> 标识异常个案)
- 双录核查(数据 -> 比较数据集)
2.7 数据准备
- 数据自动准备(转换 -> 准备数据以进行建模 -> 交互式 / 自动 / 逆转换得分)
- 使用变量集(实用程序 -> 定义变量集)