目录
- 1. 词频统计--语料库的构建
1. 词频统计–语料库的构建
文本挖掘:将文本信息转换为可利用的知识。通常,对大量文件的归类,一般通过建立不同的文件夹,来保存不同的文章。
同样的,将需要分析的【文本文件】读取到【变量】中,然后在内存中使用不同的数据结构对这些文本文件进行存储,进行下一步的分析。这个【内存变量】就是我们要学的【语料库】。
【语料库】:要分析的所有文档的集合
import os
import os.path
filePaths=[]
for root, dirs, files in os.walk("F:\\2.1 语料库\\2.1\\SogouC.mini\\Sample"):
#os.path.join()拼接文件路径的方法
for name in files:
filePaths.append(os.path.join(root, name)) # 路径+文件名
for root, dirs, files in os.walk("F:\\2.1 语料库\\2.1\\SogouC.mini\\Sample"):
print(root) # D:\学习资料\2.1 语料库\2.1\SogouC.mini\Sample\C000013
print(dirs)
print(files) # ['10.txt', '11.txt', '12.txt', '13.txt', '14.txt', '15.txt', '16.txt', '17.txt', '18.txt', '19.txt']
读取数据
import codecs
filePaths = []
fileContents = []
for root, dirs, files in os.walk("F:\\2.1 语料库\\2.1\\SogouC.mini\\Sample"):
for name in files:
filePath = os.path.join(root, name)
filePaths.append(filePath)
f = codecs.open(filePath, 'r', 'utf-8')
# 调用read( ),将内容读取出来,保存到fileContent中
fileContent = f.read()
f.close()
fileContents.append(fileContent)
构建【语料库】,它是 DataFrame 格式
import pandas
# 将获取到的文件内容组织成一个数据框,,框 就是语料库,创建语料库corpos
corpos = pandas.DataFrame({
'filePath': filePaths,
'fileContent': fileContents
})
语料库:
文件路径 文件内容
总结:【语料库】的构建
构建方法:os.walk(fileDir)
#fileDir表示【文件路径】
【文件读取】:codecs.open(filePath,method,encoding)
拼接文件路径:os.path.join(root,name)