NeuralNLP-NeuralClassifier的使用记录（二），训练预测自己的【中文文本多分类】

news2025/4/16 0:54:53

NeuralNLP-NeuralClassifier的使用记录，训练预测自己的【中文文本多分类】

数据准备：

与英文的训练预测一致，都使用相同的数据格式，将数据通过代码处理为JSON格式，以下是我使用的一种，不同的原数据情况会有所改动：

import jieba.analyse as ana
import re
import jieba

def make_data_json(df,outpath):
    def stop_words(path):
        txt = open(outpath,"r",encoding='utf-8') 
        lines = txt.readlines()
        txt.close()
        stop_txt = []
        for line in lines:
            stop_txt.append(line.strip('\n'))
        return stop_txt
    
    
    with open(outpath, "w+", encoding='utf-8') as f:
        
        # with open(output_path, "w") as fw:
        for indexs in df.index:
            dict1 = {}
            dict1['doc_label'] = [str(df.loc[indexs].values[0])]
            doc_token = df.loc[indexs].values[1]
            # 只保留中文、大小写字母和阿拉伯数字
            reg = "[^0-9A-Za-z\u4e00-\u9fa5]"
            doc_token = re.sub(reg, '', doc_token)
            print(doc_token)
            # 中文分词
            seg_list = jieba.cut(doc_token, cut_all=False)
            #$提取关键词，20个：
            ana.set_stop_words('./人工智能挑战赛-文本分类/停用词列表.txt')
            keyword = ana.extract_tags(doc_token, topK=20,withWeight=False,)   #True表示显示权重
            # 去除停用词
            content = [x for x in seg_list if x not in stop_words('../data/stop_words.txt')]
            dict1['doc_token'] = content
            dict1['doc_keyword'] = keyword
            dict1['doc_topic'] = []
            # 组合成字典
            print(dict1)
            # 将字典转化成字符串
            json_str = json.dumps(dict1, ensure_ascii=False)
            f.write('%s\n' % json_str)

使用构造JSON数据方法：

在这里插入图片描述

训练前期准备：

1、创建中文数据文件夹，Chinese_datas，

2、创建该数据的文本数据对应的标签集Chinese_label.taxonomy

3、创建该数据的训练配置文件Chinese_train_conf.json，

继续目录如下：

在这里插入图片描述

配置文件的注意点：

在这里插入图片描述

其中需要额外修改的地方：

work_nums=0

以及涉及代码中，有读取文件的部分都需要给编码中文编码：

with open(encoding=‘utf-8’)

训练：

训练代码：

python train.py conf/Chinese_train_conf.json

训练后生成的权重文件，在配置文件中就写出了：

在这里插入图片描述

预测：

在这里插入图片描述

python predict.py conf/Chinese_train_conf.json Chinese_datas/predict_data.json

预测结果：

在这里插入图片描述

可以看出预测效果仅一个错误，该模型方便NLP的比赛分类等，准确率也很高。

代码获取：

下载就是中文分类版，在命令界面进行命令行输入，训练和预测，：

链接：https://pan.baidu.com/s/1fw_ipmOFWMiTLAFrs9i5ig
提取码：2023

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/874232.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

NeuralNLP-NeuralClassifier的使用记录（二），训练预测自己的【中文文本多分类】

NeuralNLP-NeuralClassifier的使用记录，训练预测自己的【中文文本多分类】

数据准备：

使用构造JSON数据方法：

训练前期准备：

配置文件的注意点：

训练：

训练后生成的权重文件，在配置文件中就写出了：

预测：

预测结果：

代码获取：

相关文章

关于配电室升级为智能运维模式的问题

【什么是摆线减速器？设计、3D 打印和测试】

React Native 图片组件基础知识

电气测试相关

【数据结构系列】链表

谈谈我的感受

RocketMQ 5.1.0 源码详解 | Producer 发送流程

[保研/考研机试] KY26 10进制 VS 2进制清华大学复试上机题 C++实现

2023年国赛数学建模思路 - 复盘：光照强度计算的优化模型

关于“算力”，这篇文章值得一看

Ceph读写性能估算方法

docker搭建opengrok环境

7-4 求整数均值

2023年国赛数学建模思路 - 复盘：校园消费行为分析

CTFshow 限时活动红包挑战7、红包挑战8

华为云MetaStudio多模态数字人进展及挑战介绍

QLExpress动态脚本引擎解析工具

二十二、责任链模式

讯飞星火认知大模型升级体验

Thread.sleep()不释放锁 Object.wait()释放锁