知识图谱数据预处理笔记
- 0. 引言
- 1. 笔记
- 1-1. `\`的转义
- 1-2. 特殊符号的清理
- 1-3. 检查结尾是否正常
- 1-4. 检查`<>`是否存在
- 1-5. 两端空格的清理
- 1-6. 检查object内容长时是否以`<`开始
0. 引言
最近学习知识图谱,发现数据有很多问题,这篇笔记记录遇到的一些问题。
1. 笔记
1-1. \
的转义
line = line.replace('\\', '\\\\')
1-2. 特殊符号的清理
line.replace('特殊符号', '')
由于特殊符号在文章上无法粘贴显示,所以采取截图的形式
1-3. 检查结尾是否正常
for line in input_file:
last_four = line[-4:]
last_three = line[-3:]
if last_four == '> .\n' or last_four == '" .\n':
output_file1.write(line)
elif last_three == '>.\n' or last_three == '".\n':
output_file1.write(line)
else:
output_file2.write(line)
1-4. 检查<>
是否存在
if '<>' in line:
output_file3.write(line)
1-5. 两端空格的清理
line = line.strip()
1-6. 检查object内容长时是否以<
开始
if len(object) > 10 and object[0] == '<':
output_file3.write(line)
continue
未完待续!!!