【MindSpore学习打卡】应用实践-LLM原理和实践-基于MindSpore实现BERT对话情绪识别

news2024/9/24 23:23:56

在当今的自然语言处理(NLP)领域,情绪识别是一个非常重要的应用场景。无论是在智能客服、社交媒体分析,还是在情感计算领域,准确地识别用户的情绪都能够极大地提升用户体验和系统的智能化水平。BERT(Bidirectional Encoder Representations from Transformers)作为一种强大的预训练语言模型,已经在多个NLP任务中展示了其卓越的性能。在这篇博客中,我们将详细介绍如何基于MindSpore框架,利用BERT模型实现对话情绪识别。通过一步步的代码示例和详细解释,帮助你掌握这一技术。

模型简介

BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer的双向编码器表征模型。它主要通过两种预训练任务来捕捉词语和句子级别的表征:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。

  • Masked Language Model:随机将语料库中15%的单词进行掩码操作,模型需要预测这些被掩码的单词。
  • Next Sentence Prediction:模型需要预测两个句子之间是否存在顺序关系。

BERT预训练后,可以用于多种下游任务,如文本分类、相似度判断、阅读理解等。

数据集准备

在数据集准备部分,我们下载并解压了百度飞桨团队提供的机器人聊天数据集。这个数据集已经过预处理,并包含了情绪标签。每一行数据由一个标签和一个经过分词处理的文本组成。标签表示情绪类别(0表示消极,1表示中性,2表示积极),文本则是用户的对话内容。通过使用这种结构化的数据,我们可以更方便地进行情感分类任务。

# 下载数据集
!wget https://baidu-nlp.bj.bcebos.com/emotion_detection-dataset-1.0.0.tar.gz -O emotion_detection.tar.gz
!tar xvf emotion_detection.tar.gz

数据集格式如下:

label--text_a
0--谁骂人了?我从来不骂人,我骂的都不是人,你是人吗 ?
1--我有事等会儿就回来和你聊
2--我见到你很高兴谢谢你帮我

数据加载和预处理

数据加载和预处理是机器学习流程中至关重要的一步。我们使用了GeneratorDataset来加载数据,并通过映射操作将文本转换为模型可以接受的格式。具体来说,我们使用了BertTokenizer将文本Tokenize成词汇ID,并进行填充(Pad)操作。这样做的目的是确保所有输入序列的长度一致,从而提高训练效率和模型性能。

import numpy as np
from mindspore.dataset import text, GeneratorDataset, transforms
from mindnlp.transformers import BertTokenizer

def process_dataset(source, tokenizer, max_seq_len=64, batch_size=32, shuffle=True):
    is_ascend = mindspore.get_context('device_target') == 'Ascend'
    column_names = ["label", "text_a"]
    
    dataset = GeneratorDataset(source, column_names=column_names, shuffle=shuffle)
    type_cast_op = transforms.TypeCast(mindspore.int32)
    
    def tokenize_and_pad(text):
        if is_ascend:
            tokenized = tokenizer(text, padding='max_length', truncation=True, max_length=max_seq_len)
        else:
            tokenized = tokenizer(text)
        return tokenized['input_ids'], tokenized['attention_mask']
    
    dataset = dataset.map(operations=tokenize_and_pad, input_columns="text_a", output_columns=['input_ids', 'attention_mask'])
    dataset = dataset.map(operations=[type_cast_op], input_columns="label", output_columns='labels')
    
    if is_ascend:
        dataset = dataset.batch(batch_size)
    else:
        dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id), 'attention_mask': (None, 0)})

    return dataset

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
dataset_train = process_dataset(SentimentDataset("data/train.tsv"), tokenizer)
dataset_val = process_dataset(SentimentDataset("data/dev.tsv"), tokenizer)
dataset_test = process_dataset(SentimentDataset("data/test.tsv"), tokenizer, shuffle=False)

在这里插入图片描述

模型构建

在模型构建部分,我们使用了BertForSequenceClassification来进行情感分类任务。这个预训练模型已经在大规模语料上进行了训练,具有强大的语言理解能力。通过加载预训练权重,我们可以显著提升模型在情感分类任务上的表现。同时,我们使用了自动混合精度(auto mixed precision)技术,这不仅可以加速训练过程,还能减少显存使用,从而在有限的硬件资源下实现更高效的训练。

优化器和评价指标是模型训练中的重要组件。我们选择了Adam优化器,因为它在处理大规模数据和复杂模型时表现优异。评价指标方面,我们使用了准确率(Accuracy)来衡量模型的性能。通过这些设置,我们可以确保模型在训练过程中不断优化,并在验证集上取得良好的表现。

回调函数在模型训练过程中发挥着重要作用。我们设置了两个回调函数:CheckpointCallbackBestModelCallback。前者用于定期保存模型的权重,后者则自动加载表现最好的模型权重。通过这些回调函数,我们可以确保在训练过程中不会丢失重要的模型参数,并且始终使用表现最佳的模型进行推理和评估。

from mindnlp.transformers import BertForSequenceClassification
from mindspore import nn
from mindnlp._legacy.amp import auto_mixed_precision

model = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3)
model = auto_mixed_precision(model, 'O1')

optimizer = nn.Adam(model.trainable_params(), learning_rate=2e-5)
metric = Accuracy()
ckpoint_cb = CheckpointCallback(save_path='checkpoint', ckpt_name='bert_emotect', epochs=1, keep_checkpoint_max=2)
best_model_cb = BestModelCallback(save_path='checkpoint', ckpt_name='bert_emotect_best', auto_load=True)

trainer = Trainer(network=model, train_dataset=dataset_train,
                  eval_dataset=dataset_val, metrics=metric,
                  epochs=5, optimizer=optimizer, callbacks=[ckpoint_cb, best_model_cb])
trainer.run(tgt_columns="labels")

模型验证

在模型验证部分,我们使用验证数据集来评估模型的性能。通过计算模型在验证集上的准确率,我们可以了解模型的泛化能力和实际效果。这一步骤非常重要,因为它可以帮助我们发现模型在训练过程中可能存在的问题,并进行相应的调整和优化。

evaluator = Evaluator(network=model, eval_dataset=dataset_test, metrics=metric)
evaluator.run(tgt_columns="labels")

模型推理

模型推理部分展示了如何使用训练好的模型对新数据进行情感分类。我们定义了一个predict函数,通过输入文本进行情感预测,并输出预测结果。这个步骤展示了模型的实际应用能力,并验证了模型的泛化性能。

dataset_infer = SentimentDataset("data/infer.tsv")

def predict(text, label=None):
    label_map = {0: "消极", 1: "中性", 2: "积极"}
    text_tokenized = Tensor([tokenizer(text).input_ids])
    logits = model(text_tokenized)
    predict_label = logits[0].asnumpy().argmax()
    info = f"inputs: '{text}', predict: '{label_map[predict_label]}'"
    if label is not None:
        info += f" , label: '{label_map[label]}'"
    print(info)

for label, text in dataset_infer:
    predict(text, label)

在这里插入图片描述

自定义推理数据

最后,我们展示了如何使用模型对自定义输入进行情感识别。这一步骤不仅展示了模型的实际应用能力,还验证了模型在不同输入下的表现。通过这种方式,我们可以进一步了解模型的泛化能力和实际效果。

predict("家人们咱就是说一整个无语住了 绝绝子叠buff")

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1915044.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++基础篇(1)

目录 前言 1.第一个C程序 2.命名空间 2.1概念理解 2.2namespace 的价值 2.3 namespace的定义 3.命名空间的使用 4.C的输入输出 结束语 前言 本节我们将正式进入C基础的学习,话不多说,直接上货!!! 1.第一个C程…

2024.7.10作业

完成学生管理系统 1> 使用菜单完成 2> 有学生的信息录入功能:输入学生个数,并将学生的姓名、分数录入 3> 查看学生信息:输出所有学生姓名以及对应的分数 4> 求出学习最好的学生信息:求最大值 5> 按姓名将所有…

vue学习day05-watch侦听器(监视器)、Vue生命周期和生命周期的四个阶段、、工程化开发和脚手架Vue cli

13、watch侦听器(监视器) (1)作用:监视数据变化,执行一些业务逻辑或异步操作 (2)语法: 1)简写语法——简单数据类型,直接监视 ① Watch:{ 数…

python reload找不到怎么办

Python 3.0 把 reload 内置函数移到了 imp 标准库模块中。它仍然像以前一样重载文件,但是,必须导入它才能使用。 方法一: from imp import reload reload(module) 方法二: import imp imp.reload(module)

计算机网络之广域网

广域网特点: 主要提供面向通信的服务,支持用户使用计算机进行远距离的信息交换。 覆盖范围广,通信的距离远,需要考虑的因素增多, 线路的冗余、媒体带宽的利用和差错处理问题。 由电信部门或公司负责组建、管理和维护,并向全社会…

基于Booth乘法和Wallace树的乘法器优化思想

基于Booth乘法和Wallace树的快速乘法器 为了理解Booth乘法和Wallace数如何让乘法器变得更快: 先考虑不优化的8位乘法器实现,即8个16位数字累积共进行7次加法运算,可以认为一次16位加法用到16个全加器,则共需要112个全加器件&…

创建React 项目的几种方式

①.react自带脚手架 使用步骤: 1、下载 npm i create-react-app -g 2、创建项目命令: create-react-app 项目名称 ②.Vite构建工具创建react步骤:(推荐) 方法一: 1、yarn create vite 2、后续根据提示步…

深度动态IP代理 国内动态IP软件哪个好用

想必大家都用过动态IP产品,什么是动态IP,动态IP就是非固定的静态IP地址,短 时间了频繁波动ip地址,就叫动态IP,因为工作需要用到不同的IP,这时就需要动态IP软件。 今天给大家带来一款深度动态IP软件&#xf…

MySQL安全值守常用语句

一、用户权限设置 1、Mysql中用户是如何定义的 用户名主机域 10.0.0.5110.0.0.%%10.0.0.0/255.255.255.0Db01Localhost127.0.0.1 2、用户创建 create user xinjing% identified by 123 3、用户删除 drop user username;username 是要删除的用户名:如 drop user root…

SpringBoot日常:编码规范之import *

前言 日常开发中,我们在编码过程中会经常忽略import 包的问题,我们会使用import语句中的通配符*来引入整个包中的所有类。尽管这样做能够简化代码编写和阅读,但是过度使用import *也会带来一些坏处,本文将探讨这些问题并给出相应…

在Linux下直接修改磁盘镜像文件的内容

背景 嵌入式Linux系统通常在调试稳定后,会对磁盘(SSD、NVME、SD卡、TF卡)做个镜像,通常是.img后缀的文件,以后组装新设备时,就将镜像文件烧录到新磁盘即可,非常简单。 这种方法有个不便之处&a…

前端面试题41(在JavaScript中,如何实现MVVM的数据绑定?)

在JavaScript中实现MVVM(Model-View-ViewModel)架构下的数据绑定,主要通过观察者模式、发布/订阅模式和数据劫持等技术来完成。下面我将概述几种常见的实现方式,以及如何在不使用框架的情况下手动实现数据绑定。 使用框架实现数据…

防御笔记第四天(持续更新)

1.状态检测技术 检测数据包是否符合协议的逻辑顺序;检查是否是逻辑上的首包,只有首包才会创建会话表。 状态检测机制可以选择关闭或则开启 [USG6000V1]firewall session link-state tcp ? check Indicate link state check [USG6000V1]firewall ses…

MySQL--C_C++语言连接访问

Connector/C的使用 首先需要在mysql官网下载C接口库 解压指令 tar -zxvf 压缩包名 下载并解压好后 但是还有比这更优的做法。 这样子手动安装不仅麻烦,还可能存在兼容性的问题。 其实在我们使用yum安装mysql时,大概率会自动帮我们把其他的环境都安装…

【大模型LLM面试合集】大语言模型基础_NLP面试题

NLP面试题 1.BERT 1.1 基础知识 BERT(Bidirectional Encoder Representations from Transformers)是谷歌提出,作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的…

分享一个项目模板electron+vue+ts+vite

分享一个项目模板electronvuetsvite GitHub - xiugou798/electron-vue-ts-vite-template: electron-vue-ts-vite-templateelectron-vue-ts-vite-template. Contribute to xiugou798/electron-vue-ts-vite-template development by creating an account on GitHub.https://gith…

C++的异常处理机制

C的异常处理机制 (1)Why(异常处理机制的作用)(2)How(异常机制如何工作)A.抛出异常B.捕获异常C.处理异常D.传递异常 (3)抛出异常A.栈展开B.析构函数和异常C.异常对象 (4)捕获异常(4)处理异常A.构造函数的异常处理B.不抛出异常noexc…

【SWMM】模型概述及软件安装

SWMM模型概述及软件安装 SWMM 模型 (Storm Water Management Model)概述应用 软件安装及下载参考 暴雨管理模型 (Storm Water Management Model,SWMM 模型)是美国环保局为解决日益严重的城市排水问题而推出的暴雨径流管…

凌风云 - 十大网盘资源搜索 Ver 6.0 版正式上线

《凌风云》作为网盘资源专业搜索领域的佼佼者,汇聚了国内十大网盘的丰富资源,凌风云搜索弥补其他搜索引擎可能无法搜索到相关资源的缺陷,作为专业的搜索引擎服务网络平台,您只需输入关键词,通过智能算法精准匹配&#…

C++的介绍与认识

目录 前言 1.什么是C 2.C的发展历史 3.C参考文档 4.C重要性 4.1C特点 4.2编程语言排行榜 4.3 C的应用领域 5.C学习指南 1. 基础知识 2. 面向对象编程(OOP) 3. 泛型编程 4. 标准库(STL) 结束语 前言 学习了C语言的知识…