CSV(Comma-Separated Values)文件是以字符(大多数使用逗号,)分隔值,以纯文本形式存储数据的文件
数据源
语文成绩(kettle数据集1).csv https://download.csdn.net/download/Hudas/87356192?spm=1001.2014.3001.5501
1.建立【CSV文件输入】转换工程
使用Ctrl + N快捷键,创建【CSV文件输入】转换工程,选择【核心对象】|【输入】|【CSV文件输入】组件,将其拖曳到右边工作区中
2.设置【CSV文件输入】组件参数
双击工作区中的【CSV文件输入】组件,弹出【CSV文件输入】窗口,设置相关参数
基础参数说明
1.步骤名称:表示CSV文件输入组件名称,在单个转换工程中名称必须唯一,默认值为"CSV文件输入"的组件名称
2.文件名:表示读取源数据的CSV文件名称,单击"浏览"按钮,选择对应的csv文件
3.列分隔符:表示每个数据之间的分隔符,默认值为英文逗号,
4.封闭符:表示封闭起一个数据、保持其完整性的一对符号,默认值为英文双引号"
5.NIO缓存大小:表示定义Java读取文件缓冲区的大小,默认值为50000
6.简易转换?:表示是否启用简易转换。如果选择了简易转换,那么可以尽可能避免不必要的数据类型转换,从而显著提高性能。默认为勾选
7.包含列头行:表示源文件是否包含有列名(字段名称)的标题行。默认勾选
8.将文件添加到结果文件中:表示是否将文件名添加到结果文件中。默认不勾选
9.行号字段:表示在组件输出字段名称时包含行号,可选项。默认值为空
10.并发运行?:表示在读取多个文件时,根据文件大小来划分其工作负载;选择并发,可提高读写速度。默认不勾选
11.字段中有回车换行?:表示字段中是否有回车换行符。默认不勾选
12.格式:表示DOS、Unix和mixed 3种格式的文件。默认值为mixed混合模式
13.文件编码:表示文件使用的编码,使用下拉框选择编码。默认值为空
字段参数说明
1.名称:表示CSV文件的字段名称
2.类型:表示字段的数据类型
3.格式:表示原始字段格式的可选掩码
4.长度:表示字段长度
5.精度:表示数字类型字段的浮点数的精确位数
6.货币符号:表示货币符号,例如"¥"、"€"和"$"等货币符号
7.小数点符号:表示小数点符号,一般用英文点号.
8.分组符号:表示数值分组符号,一般用英文逗号,
9.去除空格类型:表示去除空格,适用于字符串
在"CSV文件输入"对话框中,设置有关参数,获取"语文成绩.csv"文件中的数据
弹出"Sample data"对话框,点击【确定】按钮,导入"语文成绩.csv"文件的字段到字段参数表中
对上述字段参数进行修改编辑
编辑修改完参数后,点击【确定】按钮,完成组件参数的设置
3.预览数据
我们也可以点击CSV文件输入对话框中的【预览】按钮,预览展示CSV文件输入的数据