2.文本分析

news2026/2/12 6:08:04

1. 词频统计–语料库的构建

文本挖掘：将文本信息转换为可利用的知识。通常，对大量文件的归类，一般通过建立不同的文件夹，来保存不同的文章。

同样的，将需要分析的【文本文件】读取到【变量】中，然后在内存中使用不同的数据结构对这些文本文件进行存储，进行下一步的分析。这个【内存变量】就是我们要学的【语料库】。

【语料库】：要分析的所有文档的集合

import os
import os.path

filePaths=[]
for root, dirs, files in os.walk("F:\\2.1 语料库\\2.1\\SogouC.mini\\Sample"):
    #os.path.join()拼接文件路径的方法
    for name in files:
        filePaths.append(os.path.join(root, name))  # 路径+文件名

for root, dirs, files in os.walk("F:\\2.1 语料库\\2.1\\SogouC.mini\\Sample"):
    print(root)  # D:\学习资料\2.1 语料库\2.1\SogouC.mini\Sample\C000013
    print(dirs)
    print(files)  # ['10.txt', '11.txt', '12.txt', '13.txt', '14.txt', '15.txt', '16.txt', '17.txt', '18.txt', '19.txt']

读取数据

import codecs

filePaths = []
fileContents = []
for root, dirs, files in os.walk("F:\\2.1 语料库\\2.1\\SogouC.mini\\Sample"):
    for name in files:
        filePath = os.path.join(root, name)
        filePaths.append(filePath)
        f = codecs.open(filePath, 'r', 'utf-8')
        # 调用read( )，将内容读取出来，保存到fileContent中
        fileContent = f.read()
        f.close()
        fileContents.append(fileContent)

构建【语料库】，它是 DataFrame 格式

import pandas

# 将获取到的文件内容组织成一个数据框，，框 就是语料库，创建语料库corpos
corpos = pandas.DataFrame({
    'filePath': filePaths,
    'fileContent': fileContents
})

语料库： 文件路径文件内容
在这里插入图片描述

总结：【语料库】的构建
构建方法:os.walk(fileDir) #fileDir表示【文件路径】
【文件读取】：codecs.open(filePath,method,encoding)
拼接文件路径：os.path.join(root,name)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/677496.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

2.文本分析

目录

1. 词频统计–语料库的构建

相关文章

Shell - 01_shell的概述

机器学习对风险管理的重要性

logback-spring.xml详解

【黄啊码】为什么程序员大都鄙视php？

Nginx配置https证书遇到的一个问题

Matplotlib---饼图

手机技巧：iOS微信 8.0.38正式版更新功能一览

第四章网络层

idea快捷键和常用设置和maven

【物联网无线通信技术】LoRa从理论到实现（SX1268）

MySQL实战解析底层---如何正确地显示随机消息

ChatGPT科研阅读论文应用插件(txyz.ai)使用初探

06- c语言指针 (C语言)

设计模式之策略模式笔记

【数据分享】全国县市2000-2021年综合经济数据（地区生产总值\一二三产业增加值等）

MySQL：事务

ROS：通信机制

【计算机网络】第二章物理层（上）

4.0、Java_IO流 - 流的概念细分

【雕爷学编程】Arduino动手做（120）---游戏摇杆扩展板