Python 如何使用 Bert 进行中文情感分析

news2026/3/4 6:44:43

前言

在自然语言处理（NLP）领域，情感分析是一个非常常见且重要的应用。情感分析通常用于识别文本中的情感，例如判断一条微博或评论是正面、负面还是中性。在过去的几年中，随着深度学习的发展，BERT（Bidirectional Encoder Representations from Transformers）模型迅速成为了处理自然语言的强大工具。BERT 是一种基于 Transformer 架构的预训练模型，它能够捕捉文本的上下文信息，并在许多 NLP 任务中达到了顶尖的表现。

本文将带领新手使用 BERT 模型进行中文情感分析，并会详细讲解如何加载开源数据集、训练模型、评估准确度，并最终导出模型供未来使用。

什么是 BERT？

BERT 是谷歌于 2018 年提出的一种预训练语言模型，它在大量文本数据上进行了预训练，可以被广泛应用于各类自然语言处理任务，例如文本分类、问答、翻译等。BERT 通过双向 Transformer 来建模，这意味着它能够同时从左到右和从右到左理解句子的语义，因此可以捕捉到更丰富的上下文信息。

BERT 的最大特点之一是它是一种预训练模型，可以在广泛的通用语料上预先进行训练。然后，对于具体的任务（如情感分析），可以对 BERT 进行微调（fine-tuning），从而更好地适应该任务。

中文情感分析任务简介

情感分析（Sentiment Analysis），也称作意见挖掘，是对一段文本的主观性进行分析，旨在判断文本的情感倾向。对于中文情感分析，我们的目标是根据输入的中文文本判断其情感类别，比如“正面”、“负面”或“中性”。

步骤概览

准备环境：安装所需的库，如 PyTorch 和 Transformers。
加载中文 BERT 预训练模型：使用 Huggingface 提供的 BERT 中文预训练模型。
加载中文情感分析数据集：使用开源数据集，如 ChnSentiCorp。
数据预处理：对文本进行分词和编码。
训练模型：使用预训练的 BERT 模型进行微调。
评估模型性能：评估模型在测试集上的准确度。
导出模型：保存训练好的模型，便于以后使用。

步骤 1：准备环境

首先，我们需要安装一些必要的库。本文使用 PyTorch 和 Huggingface 的 transformers 库来实现 BERT 模型。

打开终端或命令行，运行以下命令来安装这些库：

pip install torch transformers datasets

torch 是 PyTorch 的核心库，用于构建和训练神经网络。
transformers 是 Huggingface 提供的 NLP 库，包含了许多预训练的语言模型，包括 BERT。
datasets 是 Huggingface 提供的数据集工具，可以方便地加载各类数据集。

步骤 2：加载中文 BERT 预训练模型

Huggingface 提供了许多预训练的中文 BERT 模型。我们将使用 bert-base-chinese，它已经在大量中文语料上预训练好，适合进一步微调。

首先，导入需要的模块并加载模型和分词器：

from transformers import BertTokenizer, BertForSequenceClassification

# 加载 BERT 中文预训练模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=2)

这里我们使用了 BertForSequenceClassification，它是在 BERT 基础上添加了一个分类层，用于处理分类任务。num_labels=2 表示我们有两个情感标签（正面和负面）。

步骤 3：加载中文情感分析数据集

对于中文情感分析任务，常用的开源数据集之一是 ChnSentiCorp。该数据集包含了大量的中文评论，并标注了每条评论的情感类别（正面或负面）。

我们可以通过 Huggingface 的 datasets 库直接加载这个数据集：

from datasets import load_dataset

# 加载 ChnSentiCorp 数据集
dataset = load_dataset('chnsenticorp')

加载的数据集包含了三个部分：train、validation 和 test，分别用于训练、验证和测试。

你可以查看数据集的样例：

print(dataset['train'][0])

输出结果类似如下：

{
  'text': '酒店的环境不错，服务也很好，值得推荐！',
  'label': 1
}

text 表示评论内容，label 表示情感标签，1 表示正面情感，0 表示负面情感。

步骤 4：数据预处理

在将数据输入模型之前，我们需要对文本进行分词和编码。BERT 模型使用特定的分词器将句子分成词块，并将其转换为模型可以理解的数字编码。

def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True)

# 对数据集进行分词和编码
encoded_dataset = dataset.map(tokenize_function, batched=True)

padding='max_length' 表示所有句子都将被填充到相同的最大长度，truncation=True 表示超出最大长度的句子将被截断。

步骤 5：训练模型

现在我们已经准备好训练数据，可以开始微调 BERT 模型。首先，我们定义训练参数，并使用 Trainer 进行训练。

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=3,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    evaluation_strategy="epoch",
    logging_dir='./logs',
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=encoded_dataset['train'],
    eval_dataset=encoded_dataset['validation'],
)

# 开始训练
trainer.train()

这里的 num_train_epochs=3 表示我们将训练 3 个轮次，每个设备的批次大小为 16。

步骤 6：评估模型性能

训练完成后，我们可以使用测试集来评估模型的准确度：

# 在测试集上评估模型
results = trainer.evaluate(eval_dataset=encoded_dataset['test'])
print(results)

输出的结果会包含模型在测试集上的准确度、损失等指标。

假设模型的准确度在测试集上达到了 85%，那么我们可以认为这个模型已经可以很好地识别中文文本中的情感。

步骤 7：导出模型

训练完成后，我们可以将模型保存下来，以便以后使用或部署到生产环境中：

# 保存模型和分词器
model.save_pretrained('./sentiment_model')
tokenizer.save_pretrained('./sentiment_model')

将模型保存到本地后，你可以在未来通过以下代码加载模型并进行推理：

from transformers import pipeline

# 加载训练好的模型和分词器
classifier = pipeline('sentiment-analysis', model='./sentiment_model', tokenizer='./sentiment_model')

# 进行情感预测
result = classifier("这个产品真不错！")
print(result)