Pytorch TextCNN实现中文文本分类(附完整训练代码)

news2025/1/11 11:35:05

Pytorch TextCNN实现中文文本分类(附完整训练代码)

目录

Pytorch TextCNN实现中文文本分类(附完整训练代码)

一、项目介绍

二、中文文本数据集

(1)THUCNews文本数据集

(2) 今日头条文本数据集 

(3)自定义文本数据集

三、TextCNN模型结构

(1)TextCNN模型结构

(2)TextCNN实现

四、训练词嵌入word2vec(可选)

五、文本预处理

(1)句子分词处理:jieba中文分词

(2)特殊字符处理

(3)文本数据增强

六、训练过程 

(1)项目框架说明

(2)准备Train和Test文本数据

(3)配置文件:config_textfolder.yaml

(4)开始训练

(5)可视化训练过程

(6)一些优化建议

七. 模型测试效果

八.项目源码下载


一、项目介绍

本篇将分享一个NLP项目实例,利用深度学习框架Pytorch,构建TextCNN模型,实现一个简易的中文文本分类模型;基于该项目训练的TextCNN的文本分类模型在THUCNews数据集上,训练集的Accuracy 99%左右,测试集的Accuracy在88.36%左右。

【尊重原则,转载请注明出处】https://blog.csdn.net/guyuealian/article/details/127846717

二、中文文本数据集

中文文本数据集特别多,这里仅仅介绍2个常用的文本文本分类数据集

(1)THUCNews文本数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

  • 官方数据集下载链接: http://thuctc.thunlp.org/message
  • 百度网盘下载链接: https://pan.baidu.com/s/1DT5xY9m2yfu1YGaGxpWiBQ 提取码: bbpe
  • THUCTC: 一个高效的中文文本分类工具包: THUCTC: 一个高效的中文文本分类工具

(2) 今日头条文本数据集 

今日头条文本数据集数据来源于今日头条客户端,约382688条,分布于15个分类中。

数据格式:

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词;分类code与名称:

100 民生 故事 news_story
101 文化 文化 news_culture
102 娱乐 娱乐 news_entertainment
103 体育 体育 news_sports
104 财经 财经 news_finance
106 房产 房产 news_house
107 汽车 汽车 news_car
108 教育 教育 news_edu 
109 科技 科技 news_tech
110 军事 军事 news_military
112 旅游 旅游 news_travel
113 国际 国际 news_world
114 证券 股票 stock
115 农业 三农 news_agriculture
116 电竞 游戏 news_game

GitHub - aceimnorstuvwxz/toutiao-text-classfication-dataset: 今日头条中文新闻(文本)分类数据集

(3)自定义文本数据集

如果需要新增类别数据,或者需要自定数据集进行训练,可以如下进行处理:

  • Train和Test数据集:一个样本一个txt文本,要求相同类别的文本,放在同一个文件夹下;且子目录文件夹命名为类别名称,如

  • 类别文件 class_name.txt : (一行一个列表,最后一行,请多回车一行)
A
B
C
D
 
  • 修改配置文件数据路径:config.yaml
# 训练数据集,可支持多个数据集
train_data:
  - "data/dataset/train"
# 测试数据集
test_data:
  - "data/dataset/test"
vocab_file: "./data/dataset/vocabulary.json" # 字典文件(会根据训练数据集自动生成)
# 类别文件
class_name: "data/dataset/class_name.txt"

三、TextCNN模型结构

(1)TextCNN模型结构

TextCNN文本分类的网络结,如下图所示,可以分为4部分:分别为输入层,CNN层,池化层和输出层

在这里插入图片描述

 以中文文本情感分类(二分类)作为简单的例子。

  1. 输入层:也称embedding层,TextCNN的输入序列是一个固定长度的句子:图示中是由11个词组成一条句子(context_size=11),每个词用6维词向量表示(embedding_dim=6),即输入通道数in_channels=6。因此输入序列shape=(11,6),加上Batch这个维度,则是shape=(batch_size,context_size,embedding_dim)=(B,11,6)
  2. CNN层,也称卷积层,由一维卷积核(Conv1d)组成,左边的一维卷积核大小为2(kernel_size=2),输出通道数分别设为4;右边的一维卷积核大小为4(kernel_size=4),输出通道数分别设为5;卷积步长stride=1;因此,一维卷积计算后,左边一维卷积输出宽度=11−2+1=10,右边边一维卷积输出宽度11−4+1=8。
  3. 池化层:将CNN层的输出的9个通道经过时序最大池化(max_pool1d),并将池化输出cat连结成一个9维向量。
  4. 分类层:也是输出层,由简单的全连接层组成;对于简单二分类,其输出维度2,即正面情感和负面情感的预测(概率)。

(2)TextCNN实现

根据TextCNN网络结构,我们可以使用Pytorch构建一个TextCNN模型

# -*-coding: utf-8 -*-
import torch
import torch.nn as nn
import torch.nn.functional as F


class GlobalMaxPool1d(nn.Module):
    def __init__(self):
        super(GlobalMaxPool1d, self).__init__()

    def forward(self, x):
        return F.max_pool1d(x, kernel_size=x.shape[2])  # shape: (batch_size, channel, 1)


class TextCNN(nn.Module):
    def __init__(self, num_classes, num_embeddings=-1, embedding_dim=128, kernel_sizes=[3, 4, 5, 6],
                 num_channels=[256, 256, 256, 256], embeddings_pretrained=None):
        """
        :param num_classes: 输出维度(类别数num_classes)
        :param num_embeddings: size of the dictionary of embeddings,词典的大小(vocab_size),
                               当num_embeddings<0,模型会去除embedding层
        :param embedding_dim:  the size of each embedding vector,词向量特征长度
        :param kernel_sizes: CNN层卷积核大小
        :param num_channels: CNN层卷积核通道数
        :param embeddings_pretrained: embeddings pretrained参数,默认None
        :return:
        """
        super(TextCNN, self).__init__()
        self.num_classes = num_classes
        self.num_embeddings = num_embeddings
        # embedding层
        if self.num_embeddings > 0:
            # embedding之后的shape: torch.Size([200, 8, 300])
            self.embedding = nn.Embedding(num_embeddings, embedding_dim)
            if embeddings_pretrained is not None:
                self.embedding = self.embedding.from_pretrained(embeddings_pretrained, freeze=False)
        # 卷积层
        self.cnn_layers = nn.ModuleList()  # 创建多个一维卷积层
        for c, k in zip(num_channels, kernel_sizes):
            cnn = nn.Sequential(
                nn.Conv1d(in_channels=embedding_dim,
                          out_channels=c,
                          kernel_size=k),
                nn.BatchNorm1d(c),
                nn.ReLU(inplace=True),
            )
            self.cnn_layers.append(cnn)
        # 最大池化层
        self.pool = GlobalMaxPool1d()
        # 输出层
        self.classify = nn.Sequential(
            nn.Dropout(p=0.2),
            nn.Linear(sum(num_channels), self.num_classes)
        )

    def forward(self, input):
        """
        :param input:  (batch_size, context_size, embedding_size(in_channels))
        :return:
        """
        if self.num_embeddings > 0:
            # 得到词嵌入(b,context_size)-->(b,context_size,embedding_dim)
            input = self.embedding(input)
            # (batch_size, context_size, channel)->(batch_size, channel, context_size)
        input = input.permute(0, 2, 1)
        y = []
        for layer in self.cnn_layers:
            x = layer(input)
            x = self.pool(x).squeeze(-1)
            y.append(x)
        y = torch.cat(y, dim=1)
        out = self.classify(y)
        return out


if __name__ == "__main__":
    device = "cuda:0"
    batch_size = 4
    num_classes = 2  # 输出类别
    context_size = 7  # 句子长度(字词个数)
    num_embeddings = 1024  # 词典的大小(vocab_size)
    embedding_dim = 6  # 词向量特征长度
    kernel_sizes = [2, 4]  # CNN层卷积核大小
    num_channels = [4, 5]  # CNN层卷积核通道数
    input = torch.ones(size=(batch_size, context_size)).long().to(device)
    model = TextCNN(num_classes=num_classes,
                    num_embeddings=num_embeddings,
                    embedding_dim=embedding_dim,
                    kernel_sizes=kernel_sizes,
                    num_channels=num_channels,
                    )
    model = model.to(device)
    model.eval()
    output = model(input)
    print("-----" * 10)
    print(model)
    print("-----" * 10)
    print(" input.shape:{}".format(input.shape))
    print("output.shape:{}".format(output.shape))
    print("-----" * 10)

测试模型打印结果:


四、训练词嵌入word2vec(可选)

  • 不管是CNN还是RNN模型,都是无法直接处理字符类别的单词,因此需要通过某种方法把单词变成数字形式的向量才能作为模型的输入。把单词映射到向量空间中的一个向量的做法称为词嵌入(word embedding),对应的向量称为词向量(word vector)
  • 上面的TextCNN模型代码中,定义了一个可学习的embedding层,即词嵌入word2vec,其作用就是将word序号ID转换为vector;当然你也可以通过gensim训练自己的word2vec模型,然后在数据处理中先将文本转换为词向量,这样TextCNN就没有必要添加embedding层了。

项目仓库中,提供了基于gensim的word2vec训练代码: word2vec.py ,用户只需要修改好数据路径即可开始训练

# -*-coding: utf-8 -*-
"""
    @Author : panjq
    @E-mail : 390737991@qq.com
    @Date   : 2022-09-26 14:50:34
    @Brief  :
"""
import os
import sys

sys.path.insert(0, os.getcwd())
import random
import numpy as np
from gensim.models import word2vec
from core.utils import jieba_utils, nlp_utils
from pybaseutils import file_utils


class ChineseWord2Vector(object):
    """中文word2vec"""

    def __init__(self, stop_words=[], vector_size=128, window=5, min_count=5, epochs=10, workers=4):
        """
        :param stop_words: 停用词,用于ignore的字词
        :param vector_size: 是每个词的向量维度embedding_size
        :param window: 是词向量训练时的上下文扫描窗口大小,窗口为5就是考虑前5个词和后5个词
        :param min_count: 设置最低频数,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃
        :param epochs: Number of iterations (epochs) over the corpus. (Formerly: `iter`)
        :param workers:  是训练的线程数,默认是当前运行机器的处理器核数
        """
        self.stop_words = stop_words if stop_words else jieba_utils.get_common_stop_words()
        self.vector_size = vector_size
        self.epochs = epochs
        self.window = window
        self.min_count = min_count
        self.workers = workers
        self.model: word2vec.Word2Vec = None

    def init_model(self):
        self.index_to_key = self.model.wv.index_to_key
        self.key_to_index = self.model.wv.key_to_index
        self.embedding = self.model.wv.vectors
        self.vector_size = self.model.wv.vector_size
        return self.model

    def cut_words_files(self, corpus: str, cutwords: str, user_file: str = "data/user_dict.txt", stop_words=[]):
        """
        :param corpus: 语料文件
        :param cutwords: jieba分词后保存的根目录
        :param user_file: 用户自定义的文件
        :param stop_words: 停用词,用于ignore的字词
        :return:
        """
        jieba_utils.load_userdict(user_file)
        print("corpus root     :{}".format(corpus))
        print("output cutwords :{}".format(cutwords))
        print("user_file       :{}".format(user_file))
        print("stop_words      :{}".format(stop_words))
        if not stop_words: stop_words = self.stop_words
        self.stop_words = stop_words
        nlp_utils.get_files_sentences_cutword(corpus, cutwords, stop_words=stop_words, block_size=10000)
        # 若只有一个文件,使用LineSentence读取文件
        # sentences = word2vec.LineSentence(segment_path)
        # 若存在多文件,使用PathLineSentences读取文件列表
        # sentences = word2vec.PathLineSentences(cutwords)
        sentences = word2vec.PathLineSentences(cutwords)
        return sentences

    def start_train(self, sentences):
        """
        :param sentences: *.txt文件路径,所有字词需要预处理并被空格分隔
                        sentences可以是LineSentence或者PathLineSentences读取的文件对象,也可以是
                        The `sentences` iterable can be simply a list of lists of tokens,
                        如lists=[['我','是','中国','人'],['我','的','家乡','在','广东']]

        """
        self.model = word2vec.Word2Vec(sentences,
                                       vector_size=self.vector_size,
                                       window=self.window,
                                       min_count=self.min_count,
                                       workers=self.workers,
                                       epochs=self.epochs,
                                       seed=2020,
                                       )

    def save_model(self, model_file) -> word2vec.Word2Vec:
        file_utils.create_file_path(model_file)
        self.model.save(model_file)
        self.init_model()
        return self.model

    def load_model(self, model_file) -> word2vec.Word2Vec:
        self.model = word2vec.Word2Vec.load(model_file)
        self.init_model()
        return self.model

    def get_similarity(self, key1, key2):
        """Compute cosine similarity between two keys."""
        return self.model.wv.similarity(key1, key2)

    def get_index(self, key, default=None):
        """Return the integer index (slot/position) where the given key's vector is stored in the backing vectors array."""
        return self.model.wv.get_index(key, default=default)

    def get_vector(self, key, norm=False):
        """Get the key's vector, as a 1D numpy array."""
        return self.model.wv.get_vector(key, norm=norm)

    def get_text_vector(self, text, context_size=-1, pad_token='<pad>'):
        """
        将句子中的所有词转为词向量
        :param text:
        :return: context_size 句子最大长度max_size
        :return: pad_token 句子不足时,是否填充0
        """
        if context_size > 0: text = text[0:min(6 * context_size, len(text))]
        words = jieba_utils.cut_content_word(text, stop_words=self.stop_words)
        words = jieba_utils.padding_words(words, context_size=context_size, pad_token=pad_token)
        vector = self.get_words_vector(words)
        return vector

    def get_words_vector(self, words):
        """
        将word转换为vecror
        :param words:
        :return:
        """
        vector = []
        for w in words:
            try:
                v = self.get_vector(w)
            except Exception as e:
                v = np.zeros(shape=(self.model.vector_size,), dtype=np.float32)
            vector.append(v)
        vector = np.asarray(vector, dtype=np.float32)
        return vector

    def get_words_vector_padding(self, words, context_size=256, random_crop=False, padding=True):
        vector = []
        for w in words:
            try:
                v = self.get_vector(w)
                vector.append(v)
            except Exception as e:
                pass
        if len(vector) == 0: return []
        vector = np.asarray(vector, dtype=np.float32)
        nums, dims = vector.shape
        pad = context_size - nums
        if padding and pad > 0:
            zeros = np.zeros(shape=(pad, dims), dtype=np.float32)
            vector = np.concatenate([vector, zeros], axis=0)

        if random_crop and pad < 0:
            start = random.randint(0, nums - context_size)
            vector = vector[start:start + context_size, :]
        else:
            vector = vector[0:context_size, :]
        return vector


def train_simple_demo():
    source = './data/source'  # 文本数据路径
    user_file = 'data/user_dict.txt'
    cutwords = os.path.join(os.path.dirname(source), "cutwords")  # 分词结果
    model_file = os.path.join(os.path.dirname(source), "word2vec", "simple_word2vec128.model")
    wv_trainer = ChineseWord2Vector(vector_size=128, window=10, min_count=5, epochs=10)
    sentences = wv_trainer.cut_words_files(source, cutwords, user_file=user_file)
    wv_trainer.start_train(sentences)
    wv_trainer.save_model(model_file)
    model = wv_trainer.load_model(model_file)
    print("save word2vec:{}".format(model_file))
    # 测试
    w1 = '沙瑞金'
    w2 = '高育良'
    w3 = '车'
    vector = wv_trainer.get_vector(w1)
    print("({},{}),similarity={}".format(w1, w2, model.wv.similarity(w1, w2)))
    print("({},{}),similarity={}".format(w1, w3, model.wv.similarity(w1, w3)))
    # print("{} shape={},vector= \n{}".format(w1, vector.shape, vector))
    vector = wv_trainer.get_text_vector("我是一名中国人zhongguo")


def train_THUCNews():
    source = '/home/dm/nasdata/dataset/csdn/Text/THUCNews'  # 文本数据路径
    user_file = "./data/user_dict.txt"
    cutwords = os.path.join(os.path.dirname(source), "THUCNews-cutwords")  # 分词结果
    model_file = os.path.join(os.path.dirname(source), "word2vec128.model")
    wv_trainer = ChineseWord2Vector(vector_size=128, window=10, min_count=5, epochs=10)
    sentences = wv_trainer.cut_words_files(source, cutwords, user_file=user_file)
    wv_trainer.start_train(sentences)
    wv_trainer.save_model(model_file)
    model = wv_trainer.load_model(model_file)
    print("save word2vec:{}".format(model_file))
    # 测试
    w1 = '北京'
    w2 = '上海'
    w3 = '吃饭'
    vector = wv_trainer.get_vector(w1)
    print("({},{}),similarity={}".format(w1, w2, model.wv.similarity(w1, w2)))
    print("({},{}),similarity={}".format(w1, w3, model.wv.similarity(w1, w3)))
    # print("{} shape={},vector= \n{}".format(w1, vector.shape, vector))
    vector = wv_trainer.get_text_vector("我是一名中国人zhongguo")


if __name__ == '__main__':
    # 简单的训练词嵌入模型
    train_simple_demo()
    # 使用THUCNews数据训练词嵌入模型
    # train_THUCNews()

样例中,使用小说《人民名义》 训练一个word2vec模型,训练完成后,测试单词(沙瑞金,高育良)的相似性similarity=0.8832;而(沙瑞金,车)的相似性similarity=0.4969。


五、文本预处理

Pytorch的提供文本处理工具torchtext;该工具功能非常强大,提供了很多nlp方面的数据集,可以直接加载使用,也提供了不少训练好的词向量之类的;但该工具封装的太高级了,实际使用起来,限制也太多了,灵活性不高,导致这个模块使用起来特别的别扭。所有后面干脆自己写Dataset数据处理方式了;

对于中文文本数据预处理,主要有两部分:句子分词处理(英文文本不需要分词),特殊字符处理

(1)句子分词处理:jieba中文分词

本博客使用jieba工具进行中文分词,工具比较简单,就不单独说明了,安装方法:

pip install jieba 

(2)特殊字符处理

jieba分词后,会出现很多特殊字符,需要进一步做一些的处理

  • 一些换行符,空格等特殊字符,以及一些标点符号(,。!?《》)等,这些特殊的字符称为stop_words,需要剔除
  • 一些英文字母大小需要转换统一为小写
  • 一些繁体字统一转换为简体字等
  • 一些专有名词,比如地名,人名这些,分词时需要整体切词:jieba.load_userdict(file)

(3)文本数据增强

在计算机视觉图像识别任务中,图像数据增强主要有:裁剪、翻转、旋转、⾊彩变换等⽅式,其目的增加数据的多样性,提高模型的泛化能力。但是NLP任务中的数据是离散的,无法像操作图片一样连续的方式操作文字,这导致我们⽆法对输⼊数据进⾏直接简单地转换,换掉⼀个词就有可能改变整个句⼦的含义。

常用的NLP文本数据增强方法主要有:

  • 随机截取: 随机截取文本一个片段
  • 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句⼦中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进⾏替换。
  • 随机插⼊(RI: Randomly Insert):不考虑stopwords,随机抽取⼀个词,然后在该词的同义词集合中随机选择⼀个,插⼊原句⼦中的随机位置。
  • 随机交换(RS: Randomly Swap):句⼦中,随机选择两个词,位置交换。
  • 随机删除(RD: Randomly Delete):句⼦中的每个词,以概率p随机删除

项目已经实现:随机截取,随机插⼊,随机删除等几种文本数据增强方式:

# -*- coding: utf-8 -*-

import math
import random
from typing import List


def random_text_crop(text: List, label, context_size, token="<pad>", p=0.5):
    """
    句⼦中的每个词,以概率p随机截取
    :param text:
    :param label:
    :param context_size:
    :param token:
    :param p:
    :return:
    """
    context_size = int(context_size)
    nums = len(text)
    pad = context_size - nums
    if pad > 0 and token:
        text = [token] * pad + text
    if random.random() < p and pad < 0:
        start = random.randint(0, nums - context_size)
        text = text[start:start + context_size]
    elif len(text) > context_size:
        text = text[0:context_size]
    return text, label


def random_text_mask(text: List, label, len_range=(0, 2), token="<pad>", p=0.5):
    """
    句⼦中的每个词,以概率p替换成token
    :param text:
    :param label:
    :param len_range:
    :param p:
    :return:
    """
    if random.random() < p and len(text) > 2 * len_range[1]:
        nums = math.ceil(random.uniform(len_range[0], len_range[1]))
        for i in range(nums):
            index = int(random.uniform(0, len(text) - 1))
            text[index] = token
    return text, label


def random_text_delete(text: List, label, len_min, p=0.5):
    """
    句⼦中的每个词,以概率p随机删除
    :param text:
    :param label:
    :param len_min: 句子最小长度,低于该值,不会删除
    :param p:
    :return:
    """
    if random.random() < p and len(text) > len_min:
        nums = int(random.uniform(0, len(text) - len_min))
        for i in range(nums):
            index = int(random.uniform(0, len(text)))
            del text[index]
    return text, label


def random_text_insert(text: List, label, len_range=(0, 2), token="<pad>", p=0.5):
    """
    句⼦中的每个词,以概率p随机插入
    :param text:
    :param label:
    :param len_range: 
    :param p:
    :return:
    """
    if random.random() < p and len(text) > 2 * len_range[1]:
        nums = math.ceil(random.uniform(len_range[0], len_range[1]))
        for i in range(nums):
            index = int(random.uniform(0, len(text) - 1))
            text.insert(index, token)
    return text, label


if __name__ == '__main__':
    label = 1
    context_size = 10
    pad_token = "<pad>"
    p = 10
    for i in range(10):
        text = "我是一名中国人,我爱中国,我的家乡在广东"
        text = "_".join(text).split("_")
        len_range = (0, context_size // 4)
        # text, label = random_text_crop(text, label, 1.8 * context_size, token=None, p=0.8)
        # text, label = random_text_delete(text, label, len_min=1.5 * context_size)
        text, label = random_text_insert(text, label, len_range=len_range, token=pad_token)
        # text, label = random_text_mask(text, label, len_range=len_range, token=pad_token)
        # text, label = random_text_crop(text, label, context_size, token=pad_token, p=0.8)
        print(text, len(text))

六、训练过程 

项目以THUCNews文本分类数据集为作为训练数据,训练一个基于TextCNN的文本分类模型;这里为了简单,没有使用gensim训练word2vec词向量模型,而是在TextCNN模型代码中,定义了一个可学习的embedding层,用于代替word2vec

(1)项目框架说明

.
├── configs              # 训练配置文件
├── core                 # 模型和训练相关工具
├── data                 # 相关数据
├── modules              # 相关依赖包模块
├── work_space           # 训练模型输出文件目录
├── README.md            # 项目工程说明文档
├── requirements.txt     # 相关依赖包版本说明,请用pip安装
├── word2vec.py          # 训练词嵌入模型
├── classifier.py        # 测试文本分类脚本
└── train.py             # 训练文件

项目依赖的python包,请使用pip安装对应版本

numpy==1.16.3
matplotlib==3.1.0
Pillow==6.0.0
easydict==1.9
opencv-contrib-python==4.5.2.52
opencv-python==4.5.1.48
pandas==1.1.5
PyYAML==5.3.1
scikit-image==0.17.2
scikit-learn==0.24.0
scipy==1.5.4
seaborn==0.11.2
tensorboard==2.5.0
tensorboardX==2.1
torch==1.7.1+cu110
torchvision==0.8.2+cu110
tqdm==4.55.1
xmltodict==0.12.0
basetrainer
pybaseutils==0.6.9
jieba==0.42.1
gensim==4.2.0

(2)准备Train和Test文本数据

下载THUCNews文本数据集,并解压;由于原始数据没有划分训练集和测试集,需要自己手动划分,项目随机抽取每类的100张文本作为测试集,其余的为训练集;

然后根据自己的保存的数据路径,修改配置文件数据路径:config_textfolder.yaml

# 训练数据集,可支持多个数据集
train_data:
  - "/path/to/dataset/THUCNews/train"
# 测试数据集
test_data:
  - "/path/to/dataset/THUCNews/test"
vocab_file: "./data/vocabulary/vocabulary.json" # 字典文件(会根据训练数据集自动生成),或者word2vec文件
# 类别文件
class_name: "path/to/dataset/THUCNews/class_name.txt"

(3)配置文件:config_textfolder.yaml

# 训练数据集,可支持多个数据集
train_data:
  - "/path/to/dataset/THUCNews/train"
# 测试数据集
test_data:
  - "/path/to/dataset/THUCNews/test"
vocab_file: "./data/vocabulary/vocabulary.json" # 字典文件(会根据训练数据集自动生成),或者word2vec文件
# 类别文件
class_name: "path/to/dataset/THUCNews/class_name.txt"


data_type: "textfolder"        # 加载数据DataLoader方法:word2vec,textfolder
flag: ""                       # 输出目录标识
resample: True                 # 是否进行重采样
work_dir: "work_space"         # 保存输出模型的目录
net_type: "TextCNN"            # 骨干网络,支持:TextCNN,TextCNNv2,LSTM,BiLSTM等
context_size: 300              # 句子长度
topk: [ 1, ]                   # 计算topK的准确率
batch_size: 128                # 批训练大小
lr: 0.001                      # 初始学习率
optim_type: "Adam"             # 选择优化器,SGD,Adam
loss_type: "CELoss"            # 选择损失函数:支持CrossEntropyLoss(CELoss)
momentum: 0.9                  # SGD momentum
num_epochs: 160                # 训练循环次数
num_workers: 12                # 加载数据工作进程数
weight_decay: 0.00005          # weight_decay,默认5e-4
#weight_decay: 0.0             # weight_decay,默认5e-4
scheduler: "multi-step"        # 学习率调整策略
milestones: [ 90,120,140 ]     # 下调学习率方式
gpu_id: [ 0,1 ]                # GPU ID
log_freq: 10                   # LOG打印频率
pretrained: True               # 是否使用pretrained模型
finetune: False                # 是否进行finetune
  • 目标支持模型主要有:TextCNN,LSTM,BiLSTM等,详见模型等 ,其他模型可以自定义添加
  • 训练参数可以通过config.yaml配置文件
参数类型参考值说明
train_datastr, list-训练数据文件,可支持多个文件
test_datastr, list-测试数据文件,可支持多个文件
vocab_filestr-
字典文件(会根据训练数据集自动生成),或者word2vec文件
class_namestr-类别文件
data_typestr-加载数据DataLoader方法
resampleboolTrue是否进行重采样
work_dirstrwork_space训练输出工作空间
net_typestrTextCNN骨干网络,支持:TextCNN,LSTM,BiLSTM等
context_sizeint128句子长度
topklist[1,3,5]计算topK的准确率
batch_sizeint32批训练大小
lrfloat0.1初始学习率大小
optim_typestrSGD优化器,{SGD,Adam}
loss_typestrCELoss损失函数
schedulerstrmulti-step学习率调整策略,{multi-step,cosine}
milestoneslist[30,80,100]降低学习率的节点,仅仅scheduler=multi-step有效
momentumfloat0.9SGD动量因子
num_epochsint120循环训练的次数
num_workersint12DataLoader开启线程数
weight_decayfloat5e-4权重衰减系数
gpu_idlist[ 0 ]指定训练的GPU卡号,可指定多个
log_freqint20显示LOG信息的频率
finetunestrmodel.pthfinetune的模型

(4)开始训练

整套训练代码非常简单操作,用户只需要将相同类别的数据放在同一个目录下,并填写好对应的数据路径,即可开始训练了。

  • 如果你想验证项目可不可以训练,请运行下面命令开始训练;项目自带了小批量的文本数据,方便测试项目代码;正确情况下,可以获得99%的文本分类准确率
python train.py -c configs/config.yaml 
  • 如果你想正式在THUCNews数据集上,训练TextCNN文本分类模型,请运行:
python train.py -c configs/config_textfolder.yaml

以下是训练代码:

# -*-coding: utf-8 -*-
"""
    @Author : panjq
    @E-mail : 390737991@qq.com
    @Date   : 2022-09-26 14:50:34
    @Brief  :
"""
import os
import torch
import argparse
import torch.nn as nn
import numpy as np
import tensorboardX as tensorboard
from tqdm import tqdm
from torch.utils import data as data_utils
from core.dataloader import build_dataset
from core.models import build_models
from core.criterion.build_criterion import get_criterion
from core.utils import torch_tools, metrics, log
from pybaseutils import file_utils, config_utils
from pybaseutils.metrics import class_report


class Trainer(object):
    def __init__(self, cfg):
        torch_tools.set_env_random_seed()
        # 设置输出路径
        time = file_utils.get_time()
        flag = [n for n in [cfg.net_type, cfg.loss_type, cfg.flag, time] if n]
        cfg.work_dir = os.path.join(cfg.work_dir, "_".join(flag))
        cfg.model_root = os.path.join(cfg.work_dir, "model")
        cfg.log_root = os.path.join(cfg.work_dir, "log")
        file_utils.create_dir(cfg.work_dir)
        file_utils.create_dir(cfg.model_root)
        file_utils.create_dir(cfg.log_root)
        file_utils.copy_file_to_dir(cfg.config_file, cfg.work_dir)
        config_utils.save_config(cfg, os.path.join(cfg.work_dir, "setup_config.yaml"))
        self.cfg = cfg
        self.topk = self.cfg.topk
        # 配置GPU/CPU运行设备
        self.gpu_id = cfg.gpu_id
        self.device = torch.device("cuda:{}".format(cfg.gpu_id[0]) if torch.cuda.is_available() else "cpu")
        # 设置Log打印信息
        self.logger = log.set_logger(level="debug", logfile=os.path.join(cfg.log_root, "train.log"))
        # 构建训练数据和测试数据
        self.train_loader = self.build_train_loader()
        self.test_loader = self.build_test_loader()
        # 构建模型
        self.model = self.build_model()
        # 构建损失函数
        self.criterion = self.build_criterion()
        # 构建优化器
        self.optimizer = self.build_optimizer()
        # 构建学习率调整策略
        self.scheduler = torch.optim.lr_scheduler.MultiStepLR(self.optimizer, cfg.milestones)
        # 使用tensorboard记录和可视化Loss
        self.writer = tensorboard.SummaryWriter(cfg.log_root)
        # 打印信息
        self.num_samples = len(self.train_loader.sampler)
        self.logger.info("=" * 60)
        self.logger.info("work_dir          :{}".format(cfg.work_dir))
        self.logger.info("config_file       :{}".format(cfg.config_file))
        self.logger.info("gpu_id            :{}".format(cfg.gpu_id))
        self.logger.info("main device       :{}".format(self.device))
        self.logger.info("num_samples(train):{}".format(self.num_samples))
        self.logger.info("num_classes       :{}".format(cfg.num_classes))
        self.logger.info("mean_num          :{}".format(self.num_samples / cfg.num_classes))
        self.logger.info("=" * 60)

    def build_optimizer(self, ):
        """build_optimizer"""
        if self.cfg.optim_type.lower() == "SGD".lower():
            optimizer = torch.optim.SGD(params=self.model.parameters(), lr=self.cfg.lr,
                                        momentum=self.cfg.momentum, weight_decay=self.cfg.weight_decay)
        elif self.cfg.optim_type.lower() == "Adam".lower():
            optimizer = torch.optim.Adam(self.model.parameters(), lr=self.cfg.lr, weight_decay=self.cfg.weight_decay)
        else:
            optimizer = None
        return optimizer

    def build_train_loader(self, ) -> data_utils.DataLoader:
        """build_train_loader"""
        self.logger.info("build_train_loader,context_size:{}".format(self.cfg.context_size))
        dataset = build_dataset.load_dataset(data_type=self.cfg.data_type,
                                             filename=self.cfg.train_data,
                                             vocab_file=self.cfg.vocab_file,
                                             context_size=self.cfg.context_size,
                                             class_name=self.cfg.class_name,
                                             resample=self.cfg.resample,
                                             phase="train",
                                             shuffle=True)
        shuffle = True
        sampler = None
        self.logger.info("use resample:{}".format(self.cfg.resample))
        # if self.cfg.resample:
        #     weights = torch.DoubleTensor(dataset.classes_weights)
        #     sampler = torch.utils.data.sampler.WeightedRandomSampler(weights, len(weights))
        #     shuffle = False
        loader = data_utils.DataLoader(dataset=dataset, batch_size=self.cfg.batch_size, sampler=sampler,
                                       shuffle=shuffle, num_workers=self.cfg.num_workers)
        self.cfg.num_classes = dataset.num_classes
        self.cfg.num_embeddings = dataset.num_embeddings
        self.cfg.class_name = dataset.class_name
        file_utils.copy_file_to_dir(self.cfg.vocab_file, cfg.work_dir)
        return loader

    def build_test_loader(self, ) -> data_utils.DataLoader:
        """build_test_loader"""
        self.logger.info("build_test_loader,context_size:{}".format(cfg.context_size))
        dataset = build_dataset.load_dataset(data_type=self.cfg.data_type,
                                             filename=self.cfg.test_data,
                                             vocab_file=self.cfg.vocab_file,
                                             context_size=self.cfg.context_size,
                                             class_name=self.cfg.class_name,
                                             phase="test",
                                             resample=False,
                                             shuffle=False)
        loader = data_utils.DataLoader(dataset=dataset, batch_size=self.cfg.batch_size,
                                       shuffle=False, num_workers=self.cfg.num_workers)
        self.cfg.num_classes = dataset.num_classes
        self.cfg.num_embeddings = dataset.num_embeddings
        self.cfg.class_name = dataset.class_name
        return loader

    def build_model(self, ) -> nn.Module:
        """build_model"""
        self.logger.info("build_model,net_type:{}".format(self.cfg.net_type))
        model = build_models.get_models(net_type=self.cfg.net_type,
                                        num_classes=self.cfg.num_classes,
                                        num_embeddings=self.cfg.num_embeddings,
                                        embedding_dim=128,
                                        is_train=True,
                                        )
        if self.cfg.finetune:
            self.logger.info("finetune:{}".format(self.cfg.finetune))
            state_dict = torch_tools.load_state_dict(self.cfg.finetune)
            model.load_state_dict(state_dict)
        model = model.to(self.device)
        model = nn.DataParallel(model, device_ids=self.gpu_id, output_device=self.device)
        return model

    def build_criterion(self, ):
        """build_criterion"""
        self.logger.info(
            "build_criterion,loss_type:{}, num_embeddings:{}".format(self.cfg.loss_type, self.cfg.num_embeddings))
        criterion = get_criterion(self.cfg.loss_type, self.cfg.num_embeddings, device=self.device)
        # criterion = torch.nn.CrossEntropyLoss()
        return criterion

    def train(self, epoch):
        """训练"""
        train_losses = metrics.AverageMeter()
        train_accuracy = {k: metrics.AverageMeter() for k in self.topk}
        self.model.train()  # set to training mode
        log_step = max(len(self.train_loader) // cfg.log_freq, 1)
        for step, data in enumerate(tqdm(self.train_loader)):
            inputs, target = data
            inputs, target = inputs.to(self.device), target.to(self.device)
            outputs = self.model(inputs)
            loss = self.criterion(outputs, target)
            self.optimizer.zero_grad()  # 反馈
            loss.backward()
            self.optimizer.step()  # 更新
            train_losses.update(loss.cpu().data.item())
            # 计算准确率
            target = target.cpu()
            outputs = outputs.cpu()
            outputs = torch.nn.functional.softmax(outputs, dim=1)
            pred_score, pred_index = torch.max(outputs, dim=1)
            acc = metrics.accuracy(outputs.data, target, topk=self.topk)
            for i in range(len(self.topk)):
                train_accuracy[self.topk[i]].update(acc[i].data.item(), target.size(0))
            if step % log_step == 0:
                lr = self.scheduler.get_last_lr()[0]  # 获得当前学习率
                topk_acc = {"top{}".format(k): v.avg for k, v in train_accuracy.items()}
                self.logger.info(
                    "train {}/epoch:{:0=3d},lr:{:3.4f},loss:{:3.4f},acc:{}".format(step, epoch, lr, train_losses.avg,
                                                                                    topk_acc))

        topk_acc = {"top{}".format(k): v.avg for k, v in train_accuracy.items()}
        self.writer.add_scalar("train-loss", train_losses.avg, epoch)
        self.writer.add_scalars("train-accuracy", topk_acc, epoch)
        self.logger.info("train epoch:{:0=3d},loss:{:3.4f},acc:{}".format(epoch, train_losses.avg, topk_acc))
        return topk_acc["top{}".format(self.topk[0])]

    def test(self, epoch):
        """测试"""
        test_losses = metrics.AverageMeter()
        test_accuracy = {k: metrics.AverageMeter() for k in self.topk}
        true_labels = np.ones(0)
        pred_labels = np.ones(0)
        self.model.eval()  # set to evaluates mode
        with torch.no_grad():
            for step, data in enumerate(tqdm(self.test_loader)):
                inputs, target = data
                inputs, target = inputs.to(self.device), target.to(self.device)
                outputs = self.model(inputs)
                loss = self.criterion(outputs, target)
                test_losses.update(loss.cpu().data.item())
                # 计算准确率
                target = target.cpu()
                outputs = outputs.cpu()
                outputs = torch.nn.functional.softmax(outputs, dim=1)
                pred_score, pred_index = torch.max(outputs, dim=1)
                acc = metrics.accuracy(outputs.data, target, topk=self.topk)
                true_labels = np.hstack([true_labels, target.numpy()])
                pred_labels = np.hstack([pred_labels, pred_index.numpy()])

                for i in range(len(self.topk)):
                    test_accuracy[self.topk[i]].update(acc[i].data.item(), target.size(0))

        report = class_report.get_classification_report(true_labels, pred_labels, target_names=self.cfg.class_name)
        topk_acc = {"top{}".format(k): v.avg for k, v in test_accuracy.items()}
        lr = self.scheduler.get_last_lr()[0]  # 获得当前学习率
        self.writer.add_scalar("test-loss", test_losses.avg, epoch)
        self.writer.add_scalars("test-accuracy", topk_acc, epoch)
        self.logger.info("test  epoch:{:0=3d},lr:{:3.4f},loss:{:3.4f},acc:{}".format(epoch, lr, test_losses.avg, topk_acc))
        self.logger.info("{}".format(report))
        return topk_acc["top{}".format(self.topk[0])]

    def run(self):
        """开始运行"""
        self.max_acc = 0.0
        for epoch in range(self.cfg.num_epochs):
            train_acc = self.train(epoch)  # 训练模型
            test_acc = self.test(epoch)  # 测试模型
            self.scheduler.step()  # 更新学习率
            lr = self.scheduler.get_last_lr()[0]  # 获得当前学习率
            self.writer.add_scalar("lr", lr, epoch)
            self.save_model(self.cfg.model_root, test_acc, epoch)
            self.logger.info("epoch:{}, lr:{}, train acc:{:3.4f}, test acc:{:3.4f}".
                             format(epoch, lr, train_acc, test_acc))

    def save_model(self, model_root, value, epoch):
        """保存模型"""
        # 保存最优的模型
        if value >= self.max_acc:
            self.max_acc = value
            model_file = os.path.join(model_root, "best_model_{:0=3d}_{:.4f}.pth".format(epoch, value))
            file_utils.remove_prefix_files(model_root, "best_model_*")
            torch.save(self.model.module.state_dict(), model_file)
            self.logger.info("save best   model file:{}".format(model_file))
        # 保存最新的模型
        name = "model_{:0=3d}_{:.4f}.pth".format(epoch, value)
        model_file = os.path.join(model_root, "latest_{}".format(name))
        file_utils.remove_prefix_files(model_root, "latest_*")
        torch.save(self.model.module.state_dict(), model_file)
        self.logger.info("save latest model file:{}".format(model_file))
        self.logger.info("-------------------------" * 4)


def get_parser():
    # cfg_file = "configs/config_textfolder.yaml"
    cfg_file = "configs/config.yaml"
    parser = argparse.ArgumentParser(description="Training Pipeline")
    parser.add_argument("-c", "--config_file", help="configs file", default=cfg_file, type=str)
    cfg = config_utils.parser_config(parser.parse_args(), cfg_updata=True)
    return cfg


if __name__ == "__main__":
    cfg = get_parser()
    train = Trainer(cfg)
    train.run()

(5)可视化训练过程

训练过程可视化工具是使用Tensorboard,使用方法:
# 基本方法
tensorboard --logdir=path/to/log/
# 例如(请修改自己的训练的模型路径)
tensorboard --logdir=work_space/TextCNN_CELoss_20230106152138/log

可视化效果 

​​​​
​​​​
​​​​

(6)一些优化建议

训练完成后,目前,基于TextCNN的文本分类识别在THUCNews数据集上,训练集的Accuracy 99%左右,测试集的Accuracy在88.36%左右;如果想进一步提高准确率,可以尝试:

  1. 数据整合:部分分类之间本身模棱两可,例如体育和娱乐教育和科技本身类别就有很多相似之处,导致模型分类困难;THUCNews数据量虽然庞大,但不是十分干净,有很多脏数据;建议你,训练前,清洗或整合部分数据集,不然会影响模型的识别的准确率。
  2. 增加TextCNN参数量:比如将TextCNN的num_channels设置大一点;当然模型越复杂,越容易过拟合;
  3. 增加pretrained模型:项目构建TextCNN模型,随机初始化了一个可学习的二维矩阵:Embedding,该Embedding模型没有增加pretrained的,若能加入pretrained,其准确率会好很多。
  4. 文本数据增强:如同义词替换,文本随机插入,随机删除等处理,增强模型泛化能力
  5. 样本均衡:数据不均衡,部分类目数据太少; 建议进行样本均衡处理,减少长尾问题的影响
  6. 超参调优: 比如学习率调整策略,优化器(SGD,Adam等)
  7. 损失函数: 目前训练代码已经支持:交叉熵,LabelSmoothing,可以尝试FocalLoss等损失函数

七. 模型测试效果

classifier.py文件用于模型推理和测试脚本,填写好配置文件,模型文件以及测试文本路径即可运行测试了

def get_parser():
    model_file = "work_space/TextCNN_CELoss_20221226114529/model/latest_model_159_0.8714.pth"
    config_file = os.path.join(os.path.dirname(os.path.dirname(model_file)), "config_textfolder.yaml")
    vocab_file = os.path.join(os.path.dirname(os.path.dirname(model_file)), "vocabulary.json")
    text_dir = "data/test-text"
    parser = argparse.ArgumentParser(description="Inference Argument")
    parser.add_argument("-c", "--config_file", help="configs file", default=config_file, type=str)
    parser.add_argument("-m", "--model_file", help="model_file", default=model_file, type=str)
    parser.add_argument("-v", "--vocab_file", help="vocab_file", default=vocab_file, type=str)
    parser.add_argument("--device", help="cuda device id", default="cuda:0", type=str)
    parser.add_argument("--text_dir", help="text", default=text_dir, type=str)
    return parser

在项目根目录终端运行命令(\表示换行符):

#!/usr/bin/env bash
# Usage:
# python classifier.py -c "path/to/config.yaml" -m "path/to/model.pth" -v "path/to/vocabulary.json" --text_dir "path/to/text_dir"

python classifier.py \
  -c "work_space/TextCNN_CELoss_20221226114529/config_textfolder.yaml" \
  -m "work_space/TextCNN_CELoss_20221226114529/model/latest_model_159_0.8714.pth" \
  -v "work_space/TextCNN_CELoss_20221226114529/vocabulary.json" \
  --text_dir "data/test-text"

运行测试结果: 


八.项目源码下载

整套项目源码下载:Pytorch TextCNN实现中文文本分类(附完整训练代码)

整套项目源码内容包含

  • 提供中文文本数据集:THUCNews
  • 项目支持训练词嵌入模型训练:word2vec.py
  • 项目提供Pytorch版本的中文文本分类模型训练:train.py,支持TextCNN, LSTM, BiLSTM等模型
  • 提供中文文本分类预测:classifier.py
  • 简单配置,一键开启训练自己的中文文本分类模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/146218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

字节跳动青训营笔试题解

文章目录前言一、单选题二、多选题三、编程题T1.旋转数组最大值题目思路代码T2.社交圈题目思路代码四、简答题题目思路前言 第五届字节跳动青训营-后端专场笔试题解&#xff0c;简单做了一下&#xff0c;选择题和简答题不知道是否正确&#xff0c;编程题是通过了的&#xff0c…

基于javaSpringboot+mybatis+layui的装修验收管理系统设计和实现

基于javaSpringbootmybatislayui的装修验收管理系统设计和实现 博主介绍&#xff1a;5年java开发经验&#xff0c;专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 超级帅帅吴 Java毕设项目精品实战案例《500套》 欢迎点赞 收藏 ⭐留言 文…

创建List保存学生信息

1 问题创建一个存储学生对象的集合&#xff0c;存储3个学生对象&#xff0c;使用程序实现在控制台遍历该集合。2 方法1、定义学生类2、创建List集合对象3、创建学生对象4、将学生添加到集合5、遍历集合创建的学生类代码&#xff1a;package no10;public class Student { …

uni微信小程序,打开地图,跳转第三方

一、需求 微信小程序 需要点击并跳转第三方地图软件导航&#xff0c;并计算到目标位置距离 二、思路 思路&#xff1a; 1.接口返回需要有位置的经纬度&#xff0c;这个自行在后台编辑获取 2.需要获取用户的位置权限 我这边使用的是uniapp&#xff0c;需要使用官方封装两个…

threejs官方demo学习(3):几何体

webgl_geometries 这个案例还是比较简单的&#xff0c;主要介绍了一些创建物体的创建。 知识点 PointLight PointLight 点光源&#xff0c;从一个点向各个方向发出光线的光源&#xff0c;比如灯泡。 BoxGeometry BoxGeometry 立方缓冲几何体 SphereGeometry SphereGeometr…

C 程序设计教程(04)—— C 语言的数据类型(二):构造数据类型

C 程序设计教程&#xff08;04&#xff09;—— C 语言的数据类型&#xff08;二&#xff09;&#xff1a;构造数据类型 该专栏主要介绍 C 语言的基本语法&#xff0c;作为《程序设计语言》课程的课件与参考资料&#xff0c;用于《程序设计语言》课程的教学&#xff0c;供入门…

【Go基础】结构体和流程控制语句

文章目录一、结构体1. 结构体创建、访问与修改2. 结构体指针3. 结构体嵌套4. 深拷贝与浅拷贝二、流程控制语句1. if2. switch3. for4. break与continue5. goto与Label一、结构体 1. 结构体创建、访问与修改 定义结构体 type User struct {id intscore float32enrollment tim…

项目实用方式总结

目录 一、后端接收前端请求的方式 1、接收前端传递的单个参数 直接加在url后 通过&#xff1f;拼接 2、接收Json对象 3、一次传递多个数据不使用实例对象的方式 二、vue中使用动态数字 使展示的数字从0动态增长到指定数字 三、在Vue中使用动态数据 四、使用插槽获取表…

项目分享-校园宿舍管理系统

DormitoryManage 一、简介 项目简述&#xff1a; 本系统采用MVCJ2EEMysql实现&#xff0c;使用是Tomcat10.0作为WEB服务器&#xff0c;提供适应性强的Internet服务器功能&#xff0c;具有很高的执行效率。其中&#xff1a; JSP用于页面的设计&#xff0c;展示数据。Java用来处…

Java中String类型比较,equals()和==以及compareTo() 比较的区别

总结&#xff1a; 操作符的作用 用于基本数据类型的比较 判断引用是否指向堆内存的同一块地址。 equals()方法的作用 用于判断两个变量是否是对同一个对象的引用&#xff0c;即堆中的内容是否相同&#xff0c;返回值为布尔类型 compareTo() 方法用于两种方式的比较 字符串与对象…

使用fail2ban保护Domino

大家好&#xff0c;才是真的好。 不少人把Domino服务器直接挂在互联网上&#xff0c;前面不加任何防护&#xff0c;让Domino控制台上不住地显示饱受攻击毒打的惨状。 这些攻击&#xff0c;有从Web HTTP协议进来的攻击&#xff1a; [007577:000017-00007F621246D700] 20.03.20…

蓝牙DID蓝牙认证BQB

零. 概述主要介绍下蓝牙协议栈&#xff08;bluetooth stack&#xff09;传统蓝牙音频协议之蓝牙人机接口设备协议&#xff08;HID&#xff09;概念介绍HID协议有很多应用&#xff0c;比如蓝牙鼠标&#xff0c;键盘&#xff0c;手柄&#xff0c;自拍杆等都会用到HID协议&#xf…

「数据密集型系统搭建」原理篇|OLAP、OLTP,竟然是两个世界

本篇来聊聊OLAP与OLTP的区别以及它们各自的适用场景&#xff0c;以此话题为导引和大家聊聊技术视野与知识储备对于研发同学的重要性&#xff0c;最后站在事务处理与在线分析的角度分别论述下两个数据世界的底层构建逻辑。 OLAP、OLTP的概念与区别 概念 了解OLAP、OLTP的概念&…

Centos安装IotDB(集群版)

文章目录一、前置检查二、集群配置说明1、通用配置2、ConfigNode 配置3、DataNode 配置三、集群操作1、启动Seed-ConfigNode2、增加ConfigNode&#xff08;2个&#xff09;3、增加DataNode(3个)4、验证集群集群安装版本V1.0.0&#xff0c;相关下载地址可查看 单机版安装集群官网…

软件测试之沟通技巧

沟通是一门艺术&#xff0c;良好的沟通有助于快速解决问题&#xff0c;奠定双方长期合作、相互信任的基础。 常见沟通问题&#xff1a; 1、与对方不在同一频道&#xff0c;多见于首次沟通或者了解深度不一致场景下。 2、想当然以为对方了解自己问题&#xff0c;比如消息前后文都…

0基础学Java-02Java基础概念

1.高级语言的编译运行方式编译型&#xff1a;C&#xff08;.c->.obj->运行&#xff09;解释型&#xff1a;Python按行翻译混合型&#xff1a;Java不是直接运行在系统中的&#xff0c;是运行在虚拟机中的Java跨平台原理&#xff1a;通过虚拟机实现的2.JRE和JDKJVM - 核心内…

数组和字符串

1、数组 1.1 集合、列表、数组 集合&#xff1a;由一个或多个确定的元素所构成的整体 集合特点&#xff1a;集合中的元素类型不一定相同&#xff1b;无序 列表&#xff08;又称线性列表&#xff09;&#xff1a;即按照一定的线性顺序&#xff0c;排列而成的数据项的集合。–…

【阅读】《MYSQL技术内幕:InnoDB》索引使用

B树索引使用 不同应用下 OLTP 应用中&#xff0c;查询操作只从数据库中取得一小部分数据&#xff0c;如根据主键值取得用户信息&#xff0c;根据订单号取得订单的详细信息。通常会添加主键索引OLAP 应用中&#xff0c;查询多是面向分析的查询&#xff0c;目的是为决策者提供支…

WordPress网站速度优化教程

网站访问速度是影响网站访客流量的重要因素&#xff0c;几秒内打不开网站会导致很多访客的流失&#xff0c;因此在WordPress程序中网站速度优化尤为重要。 当然服务器地区和配置也会影响访问速度 服务器速度&#xff1a;国内>香港或国外服务器 配置你有钱就上好的&#xff0…

【7.2 指标的应用与设计(15%)-业务数据分析】——CDA

目录 I.大纲 II.可视化图表 2.1 业务图表决策树 2.2 比较 2.3 序列 2.4 构成 2.5 描述 I.大纲 II.可视化图表 2.1 业务图表决策树 分成了4类&#xff1a;比较、序列、构成、描述类 1.比较类&#xff1a;不同对象、项目间 大小多少&#xff0c;好坏关系程度。&#xff…