使用 Python 创建你的第一个情绪分析模型

news2024/11/17 4:29:29

「AI秘籍」系列课程:

  • 人工智能应用数学基础

  • 人工智能Python基础

  • 人工智能基础核心知识

  • 人工智能BI核心知识

  • 人工智能CV核心知识

img

BTS 的《Dynamite》1拥有 15,815,254 条评论,是 YouTube 上评论最多的视频之一。

假设 BTS 成员想知道这些听众对这首歌的感受。每秒阅读一条评论,他仍然需要 4 个多月的时间。幸运的是,使用机器学习,他可以自动将每条评论标记为正面或负面。这被称为情绪分析。同样,通过在线评论、调查回复和社交媒体帖子,企业可以获得大量客户反馈。情绪分析对于分析和理解这些数据至关重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在本文中,我们将介绍使用 Python 构建情绪分析模型的过程。具体来说,我们将使用 SVM 创建一个词袋模型。通过解释这个模型,我们还可以了解它的工作原理。在此过程中,您将学习文本处理的基础知识。我们将介绍关键的代码片段,您可以在 GitHub2上找到完整的项目。在深入研究所有这些之前,让我们先解释一下什么是情绪分析。

什么是情绪分析?

情绪是某人用语言表达的想法或感觉。考虑到这一点,情绪分析就是预测/提取这些想法或感觉的过程。我们想知道一篇文章的情绪是积极的、消极的还是中性的。我们所说的积极/消极情绪的具体含义取决于我们试图解决的问题。

对于 BTS 示例,我们试图预测听众的观点。积极情绪意味着听众喜欢这首歌。我们可以使用情绪分析来标记我们平台上的潜在仇恨言论。在这种情况下,消极情绪意味着文本包含种族主义/性别歧视观点。其他一些例子包括预测讽刺/挖苦,甚至是预测一个人的意图(即他们是否打算购买产品)。

img

使用 Python 进行情绪分析

因此,情绪分析模型有很多种。进行情绪分析的方法也有很多种。我们将集中精力应用其中一种方法。即使用 SVM 创建词袋模型。让我们从可以帮助我们做到这一点的 Python 包开始。

在第 1-4 行,我们有一些标准包,例如 Pandas/NumPy 来处理我们的数据,以及 Matplotlib/Seaborn 来可视化它。对于建模,我们使用 scikit learn 中的 svm 包(第 6 行)。我们还使用一些指标包(第 7 行)来衡量我们模型的性能。最后一组包用于文本处理。它们将帮助我们清理文本数据并创建模型特征。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import svm
from sklearn.metrics import accuracy_score,confusion_matrix

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
stopwords = stopwords.words('english')
from sklearn.feature_extraction.text import CountVectorizer

数据集

为了训练我们的情绪分析模型,我们使用了 sentiment140 数据集3中的一组推文样本。该数据集包含 160 万条推文,这些推文被归类为具有积极或消极情绪。您可以在表 1 中看到一些示例。

表 1:推文示例

使用下面的代码,我们将加载整个数据集。1,600,000 行数据量很大,尤其是考虑到我们必须清理文本并从中创建特征。因此,为了使事情更易于管理,在第 9 行,我们随机抽取了 50,000 条推文。

# load dataset
data = pd.read_csv(data_path + '/training.1600000.processed.noemoticon.csv',
                    encoding='latin-1',
                    header = None,
                    usecols=[0,5],
                    names=['target','text'])

# random sample
data = data.sample(n=50000,random_state=100).reset_index(drop=True)

print(len(data))
print(sum(data.target==4))
data.head()

---
50000
24950
	target	text
0	4	@nicholasmw 1 day u will find that girl worry
1	0	there is nothing on tv and im so desperate to ...
2	0	Very excited that greys is on tonight. Not so ...
3	4	2pm's again and again is a great song. Nichkhu...
4	0	My teeth hurt

文本清理

下一步是清理文本。我们这样做是为了删除文本中不重要的部分,并希望使我们的模型更准确。具体来说,我们将文本变为小写并删除标点符号。我们还将从文本中删除非常常见的词,即停用词。

为此,我们创建了下面的函数,该函数接受一段文本,执行上述清理并返回清理后的文本。在第 18 行中,我们将此函数应用于数据集中的每条推文。我们可以在表 2 中看到此函数如何清理文本的一些示例。

def clean_text(text):
    """
    Return cleaned text
    params
    ------------
        text: string
    """

    text = text.lower() # lowercase
    tokens = word_tokenize(text)
    tokens = [t for t in tokens if not t in stopwords] # remove stopwords
    tokens = [t for t in tokens if t.isalnum()] # remove punctuation
    text_clean = " ".join(tokens)
    
    return text_clean

text = data['text'][3]
print(text)
clean_text(text)

# clean text 
data['text'] = [clean_text(text) for text in data['text']]

---
2pm's again and again is a great song. Nichkhun hwaiting!!! 
'2pm great song nichkhun hwaiting'

请注意,所有清理过的推文都是小写,没有标点符号。单词“there”、“is”、“on”、“and”、“so”、“to”、“be”和“how”都已从第一条推文中删除。这些都是停用词的例子。我们预计这些词在正面和负面推文中都很常见。换句话说,它们不会告诉我们有关推文情绪的任何信息。因此,通过删除它们,我们希望留下能够传达情绪的单词。

表 2:清理后的推文示例

接下来,重要的是要考虑文本清理将如何影响您的模型。对于某些问题,停用词和标点符号等内容可能很重要。例如,愤怒的顾客可能更有可能使用感叹号!!!如果您不确定,您可以始终将文本清理视为超参数。您可以同时使用停用词和不使用停用词来训练模型,并查看对准确性的影响。

特征工程(词袋)

即使经过清理,与所有 ML 模型一样,SVM 也无法理解文本。这意味着我们的模型无法将原始文本作为输入。我们必须首先以数学方式表示文本。换句话说,我们必须将推文转换为模型特征。一种方法是使用 N-gram。

N-gram 是 N 个连续单词的集合。在图 2 中,我们看到了一个句子如何分解为 1-gram(单字)和 2-gram(双字)的示例。单字只是句子中的单个单词。双字是所有两个连续单词的集合。三字(3-gram)是所有 3 个连续单词的集合,依此类推。您可以通过简单地计算某些 N-gram 出现的次数来以数学方式表示文本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于我们的问题,我们从推文中选取 1000 个最常见的单元词/二元词。也就是说,我们计算这些 N 元词在清理后的推文语料库中出现的次数,并选取前 1000 个。为了创建模型特征,我们计算这些 N 元词在每条推文中出现的次数。这种方法称为词袋法4

表 3 给出了使用此方法创建的特征矩阵的示例。顶行给出了 1000 个 N-gram 中的每一个。每条推文都有一个编号行。矩阵中的数字给出了 N-gram 在推文中出现的次数。例如,“抱歉”在推文 2 中出现了一次。本质上,我们将每条推文表示为一个向量。换句话说,我们使用 N-gram 计数对我们的推文进行矢量化。

表 3:使用词袋模型的特征矩阵

下面的代码用于创建其中一个特征矩阵。我们首先将数据集分成训练集(80%)和测试集(20%)。在第 6 行中,我们定义了一个 CountVectoriser,它将使用前 1000 个 unigrams/bigrams 对我们的推文进行矢量化。在第 7 行中,我们使用它来对我们的训练集进行矢量化。.fit_transform **()**函数将首先获取 1000 个最常见的 N-gram,然后计算它们在每条推文中出现的次数。

# train test split
train = data[0:40000]
test = data[40000:50000].reset_index(drop=True)

# Create count vectoriser 
vectorizer = CountVectorizer(ngram_range=(1, 2), max_features=1000)

# Transform training corpus into feature matrix
X = vectorizer.fit_transform(train['text'])
feature_names = vectorizer.get_feature_names_out()

x_train = pd.DataFrame(data=X.toarray(),columns=feature_names)
y_train = train['target']

我们遵循类似的过程来矢量化我们的测试集。在本例中,我们使用**.transform()**函数。这将使用与训练集相同的列表来计算每个 N-gram 出现的次数。使用相同的 N-gram 列表来矢量化每个集合非常重要。对测试集使用不同的列表会导致模型做出错误的预测。

# Transform testing corpus into feature matrix
X = vectorizer.transform(test['text'])

x_test = pd.DataFrame(data=X.toarray(),columns=feature_names)
y_test = test['target']

最后,我们使用最小-最大缩放来缩放特征矩阵。这可确保所有特征都在同一范围内。这一点很重要,因为 SVM 可能会受到具有较大值的特征的影响。与 N-gram 列表一样,我们以相同的方式缩放两个集合(即使用训练集中的最大值和最小值)。

# Min-Max scalling
x_max = x_train.max()
x_min = x_train.min()

x_train = (x_train - x_min)/x_max
x_test = (x_test - x_min)/x_max

我们使用从训练集中获得的 N-gram 和缩放权重转换了测试集。如上所述,这样做是为了让两个集合以相同的方式矢量化。这样做也是为了避免数据泄露。实际上,我们的模型将用于新的/未见过的推文。这些推文及其 N-gram 和权重在训练期间不可用。因此,为了更好地指示未来的性能,我们的模型应该在被视为未见过的集合上进行测试。

造型

准备好训练集和测试集后,我们就可以训练模型了。 我们将在下面代码的第 2 行中完成这项工作。 在这里,我们在训练集上训练一个 SVM。 具体来说,我们使用一个具有线性核的 SVM,并将惩罚参数设置为 1。在第 5 行,我们使用该模型对测试集进行预测,在第 8 行,我们计算这些预测的准确率。

# fit SVM
model = svm.SVC(kernel='linear', C=1).fit(x_train, y_train)

# get predictions on test set
y_pred = model.predict(x_test)

# accuracy on test set
accuracy = accuracy_score(y_test,y_pred)
print("Accuracy: {}".format(accuracy))

最终,该模型在测试集上的准确率为 73.4%。 我们可以通过图 2 中的混淆矩阵更深入地了解模型的性能。 错误的负面推文有 915 条,而错误的正面推文则有 1737 条。 换句话说,大部分错误是由于模型错误地将具有负面情绪的推文预测为具有正面情绪。 因此,作为初稿,我们的模型还不算太差,但还有很大的改进空间。

图 2:混淆矩阵

# create confusion matrix
conf_matrix = confusion_matrix(y_test,y_pred)
conf_matrix = pd.DataFrame(data = conf_matrix,
                              columns=['negative','positive'],
                              index=['negative','positive'])

# plot confusion matrix
plt.figure(figsize=(10, 10), facecolor='w', edgecolor='k')
sns.set(font_scale=1.5)
sns.heatmap(conf_matrix,cmap='coolwarm',annot=True,fmt='.5g',cbar=False)
plt.ylabel('Actual',size=20)
plt.xlabel('Predicted',size=20)

我们可以通过几种方式来提高模型的性能。我们可以花更多时间来调整模型的超参数。如上所述,我们将惩罚参数设置为 1。这实际上是在测试了几个不同的值(即 0.001、0.01、0.1、1 和 10)并查看哪个值具有最高的 k 折交叉验证准确率后选择的。其他超参数(例如内核和文本清理步骤)可以以相同的方式进行调整。我们还可以解释我们的模型,弄清楚它的工作原理并根据这些发现进行更改。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

解释我们的模型

解释 SVM 的一种方法是查看模型权重/系数。在训练 SVM 的过程中,训练集中的每个 N-gram 都会被赋予权重。具有正权重的 N-gram 与积极情绪相关。同样,具有负权重的 N-gram 与消极情绪相关。

图 3 显示了 1000 个 N-grams 中 15 个的系数。 前 5 个都具有较高的正向系数。 这是有道理的,因为您可能会认为包含 "yay "或 "drunk "等词的推文会有正面情绪。 同样,系数为负数的单词 “sucks”、"cant " 等都与负面情绪有关。 请注意,也有一些 N-grams 的系数接近于 0。

图3:SVM系数权重

# Create a dataset of model coefs
coef = pd.DataFrame({'feature_names':feature_names, 'coef': model.coef_[0]})

# Get some example coefs
example = coef.loc[[128,988,385,519,769,
                     845,218,948,191,92,
                     711,810,388,782,93]
                    ].sort_values('coef')
# Plot coefs
plt.figure(figsize=(10,8))
ticks = range(len(example))
color = ['#d43f3f']*5 + ['#3f9dd4']*5 + ['#3fd458']*5
plt.barh(ticks, example.coef,color=color, align='center')
plt.yticks(ticks, example.feature_names,size=15)

系数较小的 N-gram 不会对我们模型的预测产生太大影响。系数可能很小,因为 N-gram 往往出现在具有积极和消极情绪的推文中。换句话说,它们不会告诉我们有关推文情绪的任何信息。与停用词一样,我们可以删除这些词,并希望提高我们模型的性能。

超参数调整和模型解释是我们提高准确度的众多方法之一。您还可以通过尝试不同的模型(如神经网络)来获得更好的结果。除了词袋模型,您还可以使用更高级的技术(如词嵌入)来矢量化推文。有很多选择,希望本文能为您提供一个良好的起点。

情感分析是自然语言处理 (NLP) 中的一种问题。在下面的文章中,我将带您了解解决另一种问题的过程——语言识别。如果您对 NLP 感兴趣,我建议您阅读它。我们还基于上面解释的许多概念。

深度神经网络语言识别

使用 DNN 和字符三元组对一段文本的语言进行分类

参考


  1. BTS (방탄소년단) ‘Dynamite’ Official MV, https://www.youtube.com/watch?v=gdZLi9oWNZg ↩︎

  2. 茶桁的公开文章代码仓库, https://github.com/hivandu/public_articles ↩︎

  3. 数据集, https://www.kaggle.com/kazanova/sentiment140 ↩︎

  4. 词袋法, https://machinelearningmastery.com/gentle-introduction-bag-words-model/ ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1923268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

二、计划任务

1.什么是计划任务 对于一些特定的任务,可以设定任务,让服务在规定时间去执行 2.windows中的计划任务 打开控制面板》管理工具》任务计划程序》创建基本任务 3.linux中的计划任务 周期性的计划crontab crontab -l :显示当前的计划惹怒我 -e&#…

探索JT808协议在车辆远程视频监控系统中的应用

一、部标JT808协议概述 随着物联网技术的迅猛发展,智能交通系统(ITS)已成为现代交通领域的重要组成部分。其中,车辆远程监控与管理技术作为ITS的核心技术之一,对于提升交通管理效率、保障道路安全具有重要意义。 JT8…

【单片机毕业设计选题24060】-基于ESP8266的燃气浓度监测系统

系统功能: 1. 连接blinker云平台,通过手机控制。 2. 手机界面text,number控件。 3. 通过DHT11采集温湿度。 4. 通过MQ2采集可燃气体。 系统功能框图: 主要功能模块原理图 资料获取地址 https://shop272529339.taobao.com 部分代码: unsigned char…

【linux】进程间通信(IPC)——匿名管道,命名管道与System V内核方案的共享内存,以及消息队列和信号量的原理概述

目录 ✈必备知识 进程间通信概述 🔥概述 🔥必要性 🔥原理 管道概述 🔥管道的本质 🔥管道的相关特性 🔥管道的同步与互斥机制 匿名管道 🔥系统调用接口介绍 🔥内核原理 …

Python函数 之 匿名函数

1.概念 匿名函数: 使用 lambda 关键字 定义的表达式,称为匿名函数. 2.语法 lambda 参数, 参数: 一行代码 # 只能实现简单的功能,只能写一行代码 # 匿名函数 一般不直接调用,作为函数的参数使用的 3.代码 4.练习 # 1, 定义匿名函数, 参数…

Python excel知识库批量模糊匹配的3种方法实例(fuzzywuzzy\Gensim)

前言 当然,基于排序的模糊匹配(类似于Excel的VLOOKUP函数的模糊匹配模式)也属于模糊匹配的范畴,但那种过于简单,不是本文讨论的范畴。 本文主要讨论的是以公司名称或地址为主的字符串的模糊匹配。 使用编辑距离算法进…

【香橙派】Orange pi AIpro开发板评测,看小白如何从0到1快速入门,以及亲测手写数字识别模型训练与推理

作为业界首款基于昇腾深度研发的AI开发板,Orange Pi AIpro无论在外观上、性能上还是技术服务支持上都非常优秀。 接口丰富,扩展能力强。支持Ubuntu、openEuler操作系统,满足大多数AI算法原型验证、推理应用开发的需求。 目录 开发板介绍亮点顶…

APP专项测试之网络测试

背景 当前app网络环境比较复杂,越来越多的公共wifi,网络制式有2G、3G、4G网络,会对用户使用app造成一定影响;当前app使用场景多变,如进地铁、上公交、进电梯等,使得弱网测试显得尤为重要; 网络正…

SpringBootWeb 篇-入门了解 Swagger 的具体使用

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Swagger 介绍 1.1 Swagger 和 Yapi 的使用场景 2.0 Swagger 的使用方式 2.1 导入 knife4j 的 maven 坐标 2.2 在配置类中加入 knife4j 相关配置 2.3 设置静态资源…

「案例分析」不同发展阶段非人力资源部门的人力资源管理职能

引言: 企业人力资源管理应该是公司全体管理人员都应该承担的责任,是所有管理者日常工作的重要组成成分,非人力资源部门经理,作为公司的重要管理者,也应该参与公司人力资源管理活动,协调配合人力资源部门做…

2024年7月好用的图纸加密软件丨图纸加密软件分享

图纸加密是企业保护技术资产和知识产权的关键措施之一。随着信息技术的飞速发展,图纸作为企业核心竞争力的表现形式,其安全性越来越受到重视。图纸一旦泄露,不仅可能导致企业产品被模仿,市场份额受损,还可能引发法律风…

AI大模型推理过程与优化技术深度剖析

在人工智能的浩瀚星空中,AI大模型以其卓越的性能和广泛的应用前景,成为了推动技术进步的璀璨明星。本文旨在深入探讨AI大模型的推理过程及其背后的优化技术,为理解这一复杂而精妙的技术体系提供一个清晰的视角。 一、AI大模型的推理过程揭秘 …

昇思25天学习打卡营第二十天|基于MobileNetv2的垃圾分类

背景 提供免费算力支持,有交流群有值班教师答疑的华为昇思训练营进入第二十天了。 今天是第二十天,从第十天开始,进入了应用实战阶段,前九天都是基础入门阶段,具体的学习内容可以看链接 基础学习部分 昇思25天学习打卡…

Avalonia创建导航菜单

1. 简介 已开源,后续还会继续更新学习到的内容,欢迎Star,GitHub地址 开发Avalonia需要的一些资料,我已经分享到另一篇文章 示意图 涉及到内容: MVVM路由模板 开发: 开发工具:Rider&#x…

Kithara与OpenCV (一)

Kithara使用 OpenCV 库 目录 Kithara使用 OpenCV 库简介需求和支持的环境构建 OpenCV 库使用 CMake 进行配置以与 Kithara 一起工作 使用 OpenCV 库设置项目运行 OpenCV 代码图像采集和 OpenCV自动并行化限制和局限性1.系统建议2.实时限制3.不支持的功能和缺失的功能4.显示 Ope…

Mac数据恢复篇:Mac照片恢复工具

由于更新错误、意外删除或数据覆盖,照片可能会从 Mac 上消失。当您忘记在Mac上启用iCloud时,您也可能会丢失它们。 幸运的是,有多种方法可以从Mac恢复丢失或删除的照片:使用备份文件夹或专业的Mac照片恢复软件。但是,如…

暑期备考2024上海初中生古诗文大会:单选题真题和独家解析

现在距离2024年初中生古诗文大会初选还有不到4个月(11月3日正式开赛),我们继续来看10道选择题真题和详细解析。为帮助孩子自测和练习,题目的答案和解析统一附后。 本专题持续分享。 一、上海初中古诗文大会历年真题精选(参考答案…

VS Code 代码格式化插件,代码美观的插件

背景: 前端代码格式化插件有很多,不同的编辑器和集成开发环境(IDE)通常会有不同的插件。以下是一些常用的前端代码格式化工具及其特点: 代码更加美观,可以使用工具来实现。常用的工具有Pretter、vuter、ES…

gitlab 搭建使用

1. 硬件要求 ##CPU 4 核心500用户 8 核心1000用户 ##内存 4 G内存500用户 8 G内存1000用户 2. 下载 链接 3. 安装依赖 yum -y install curl openssh-server postfix wget 4. 安装gitlab组件 yum -y localinstall gitlab-ce-15.9.3-ce.0.el7.x86_64.rpm 5. 修改配置文…

低成本,高性能:10 万美元实现Llama2-7B级性能

高性能的语言模型如Llama2-7B已经成为推动自然语言处理技术进步的重要力量。然而,这些模型往往需要昂贵的计算资源和庞大的研发投入,使得许多研究团队和小型企业望而却步。现在,JetMoE架构以其创新的设计和优化策略,不仅成功地在只…