对商品评论进行文本分析(NLP)的实战项目

news2024/9/22 23:16:11

文本分析技术是指使用计算机程序或算法处理、分析和理解文本数据的一系列方法。这种技术在自然语言处理(NLP)领域中非常重要,它可以应用于多种场景,包括但不限于情感分析、主题识别、信息提取、文本分类等。以下是一些常见的文本分析技术和方法:

1. 分词(Tokenization):
   - 将文本分割成单独的词汇或短语,这是文本处理的第一步。

2. 词性标注(Part-of-Speech Tagging):
   - 识别文本中每个词汇的词性,如名词、动词、形容词等。

3. 句法分析(Parsing):
   - 理解句子的语法结构,包括短语结构和依存关系。

4. 情感分析(Sentiment Analysis):
   - 判断文本的情感倾向,如正面、负面或中性。

5. 主题建模(Topic Modeling):
   - 识别文本集合中的主题分布,常用于文档聚类和探索性数据分析。

6. 文本分类(Text Classification):
   - 将文本分配到一个或多个类别中,如垃圾邮件检测、新闻分类等。

7. 命名实体识别(Named Entity Recognition, NER):
   - 识别文本中的特定实体,如人名、地点、组织等。

8. 链接识别(Entity Linking):
   - 将文本中的实体链接到知识库中的相应条目。

9. 关键词提取(Keyword Extraction):
   - 自动提取文本中的关键词汇或短语。

10. 摘要生成(Summarization):
    - 生成文本的简短摘要,保留主要信息。

11. 语义分析(Semantic Analysis):
    - 理解文本的深层含义,包括词义消歧和句子的真正意图。

12. 机器翻译(Machine Translation):
    - 将一种语言的文本自动翻译成另一种语言。

13. 文本相似度计算(Text Similarity):
    - 计算文本之间的相似度,常用于信息检索和去重。

14. 自然语言理解(Natural Language Understanding, NLU):
    - 综合理解自然语言的意图、情感、语境等。

15. 预训练语言模型(Pretrained Language Models):
    - 使用大规模数据预训练的深度学习模型,如BERT、GPT等,用于各种NLP任务。

文本分析技术的应用非常广泛,从社交媒体监控到客户反馈分析,从自动化内容生成到智能搜索引擎,都是文本分析技术的用武之地。随着技术的发展,文本分析技术正变得越来越精准和智能,为各种行业提供数据驱动的洞察。

在这里介绍一个用于情感分析的Python库SnowNLP。SnowNLP是一个专为中文文本处理设计的Python库,它提供了包括分词、词性标注、情感分析、文本转换(简繁转换)、关键词提取、摘要生成、短语提取等多种功能。SnowNLP的核心优势在于对中文文本的处理能力,特别是情感分析功能。

SnowNLP的安装非常简单,可以通过pip命令直接安装:

pip install snownlp

或者使用这个命令:

#安装snownlp包
!pip install snownlp  -i https://pypi.tuna.tsinghua.edu.cn/simple

接下来将对关于一个包含对一个商品的3637条评论的文本数据集来进行文本分析。本文将使用jieba,snownlp,wordcloud,matplotlib等模块对文本数据进行了简要的情感分析及可视化。

数据观看和下载入口:‌​​​​‍‌‍​‬​​‍‬‍​‍⁠‬​⁠​‌​⁠​​‍‌‍​​​​‌​‌​​​​数据集_NLP - 飞书云文档 (feishu.cn)

一、情感分析

先导入数据:

import pandas as pd
data = pd.read_csv('./商品评论数据.csv')
data1 = data[['sku_id','content']]
data1.head(10)

显示数据样貌为:

from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x:SnowNLP(x).sentiments)
data1.head(10)

接下来利用先前提到的用于情感分析的Python库SnowNLP:

from snownlp import SnowNLP
data1['emotion'] = data1['content'].apply(lambda x:SnowNLP(x).sentiments)
data1.head(10)

可以得到如下结果:

情感分析的结果是一个介于0到1之间的分数,越接近1表示情感越正面,越接近0则表示情感越负面 ,因此我们可以根据情感评分筛选出积极评论和消极评论。

我们也可对这些情感评分进一步可视化:

#情感分直方图
import matplotlib.pyplot as plt
import numpy as np

plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

bins=np.arange(0,1.1,0.1)
plt.hist(data1['emotion'],bins,color='#4F94CD',alpha=0.9)
plt.xlim(0,1)
plt.xlabel('情感分')
plt.ylabel('数量')
plt.title('情感分直方图')

plt.show()

可以得到如下的直方图:

便可得到如下结论:

  • 由直方图可见,评论内容两级分化较为严重

二、所有评论的词云图

from wordcloud import WordCloud
import jieba
w = WordCloud()
text = ''
for s in data['content']:
    text += s
data_cut = ' '.join(jieba.lcut(text))

w = WordCloud(font_path='SimHei',
              stopwords=['的', '我', '了', '是', '和', '都', '就', '用'],
              width=2000,
              height=1200).generate(data_cut)
# 保存词云
w.to_file('词云图.png')
# 显示词云文件
plt.imshow(w)
plt.axis("off")
plt.show()

需要注意的是,为了运行这段代码,除了需要安装wordcloudjieba库之外,还需要安装matplotlib库来显示图片。

  • WordCloud 是一个用于生成词云的库。
  • jieba 是一个中文分词库,用于将中文文本拆分成单独的词语。
  • font_path='SimHei' 设置词云使用的字体,SimHei是一种常用的中文字体。
  • stopwords=['的', '我', '了', '是', '和', '都', '就', '用'] 设置停用词列表,这些词在生成词云时会被忽略。
  • width=2000 和 height=1200 设置生成的词云图片的宽度和高度。
  • generate(data_cut) 是根据分词后的文本数据生成词云。

以下为所有评论的词云图:

接下来我们提取其中的最常出现的前10个关键词:

#关键词top10
from jieba import analyse 
key_words = jieba.analyse.extract_tags(sentence=text, topK=10, withWeight=True, allowPOS=())
key_words

代码调用extract_tags函数来提取关键词,并带有以下参数:

  • sentence=text:要提取关键词的文本,这里使用之前拼接好的长字符串text
  • topK=10:指定提取关键词的数量,这里设置为10,表示提取出现频率最高的10个关键词。
  • withWeight=True:设置是否返回每个关键词的权重(即该关键词在文本中的出现频率),这里设置为True表示返回权重。
  • allowPOS=():这是一个可选参数,用来指定提取关键词时允许的词性。这里设置为空元组(),表示不限制词性,默认情况下会提取所有词性的关键词。

结果如下:

以上关键词显示,消费者比较在意手机的“屏幕”“拍照”“手感”等特性。

三、积极评论和消极评论的词云图

先根据第一步得出的情感评分进行分类,数值大于0.5的为积极评论,数值小于0.5的为消极评论。从而得出积极评论与消极评论占比:

#计算积极评论与消极评论各自的数目
pos = 0
neg = 0
for i in data1['emotion']:
    if i >= 0.5:
        pos += 1
    else:
        neg += 1
print('积极评论,消极评论数目分别为:',pos,neg)

得出结果为积极评论,消极评论数目分别为: 2791,846。

接下来我们对消极评论进行详细的分析:

#获取消极评论数据
data2=data1[data1['emotion']<0.5]
data2.head(10)

我们先了解消极评论数据样貌:

用与之前类似的方法得出消极评论的词云图:

#消极评论词云图
text2 = ''
for s in data2['content']:
    text2 += s
data_cut2 = ' '.join(jieba.lcut(text2))
w.generate(data_cut2)
image = w.to_file('消极评论词云.png')

# 显示词云文件
plt.imshow(w)
plt.axis("off")
plt.show()

结果如下:

随后我们再用与之前类似的方法提取消极评论中最常出现的前10个关键词:

#消极评论关键词top10
key_words = jieba.analyse.extract_tags(sentence=text2, topK=10, withWeight=True, allowPOS=())
key_words

结果如下:

  • 消极评论关键词显示,“屏幕”“快递”“充电”是造成用户体验不佳的几个重要因素;屏幕和充电问题有可能是手机不良品率过高或快递压迫;

  • 因此平台应注重提高手机品控,降低不良品率;另外应设法提升发货,配送,派件的效率和质量。

以上就完成了对商品评论进行文本分析(NLP)的实战项目的全部流程,可以帮助了解用户使用体验,以此对平台运营提出优化建议。

点下关注,分享更多有关AI,数据分析和量化金融的实用教程和实战项目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2057464.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot+Vue3整合minio,实现分布式文件存储

文章目录 几种常用的文件存储安装和使用minioSpringBoot整合minio 基本所有的软件项目都会需要文件存储功能&#xff0c;图片、视频存储。 几种常用的文件存储 经常用的几种方案&#xff0c;直接存在本地文件夹&#xff0c;开发一个简单的系统当然没有问题。随机系统所需的资源…

90.WEB渗透测试-信息收集-Google语法(4)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;89.WEB渗透测试-信息收集-Google语法&#xff08;3&#xff09; • inurl • 搜索特殊 UR…

Leetcode JAVA刷刷站(55)跳跃游戏

一、题目概述 二、思路方向 在Java中&#xff0c;为了解决这个问题&#xff0c;你可以采用贪心算法的思想。贪心算法在这里的应用主要体现在&#xff0c;每一步都尽可能跳得远&#xff0c;以此来判断是否能够到达数组的最后一个下标。 算法的思路是&#xff0c;遍历数组nums&am…

ICWS 2024 _ 基于生成长度预测的大语言模型推理请求调度

随着技术的快速迭代&#xff0c;大语言模型&#xff08;Larage Langugage Model, LLM &#xff09;在各种场景下都展示出强大的文本处理能力&#xff0c;越来越多的业务期待通过接入大模型服务&#xff0c;提升业务效果。区别于传统RPC请求服务时间相近&#xff0c;大模型请求服…

《计算机操作系统》(第4版)第2章 进程的描述与控制 复习笔记

第2章 进程的描述与控制 一、前趋图和程序执行 1. 前趋图 (1)定义 前趋图是指一个有向无循环图&#xff0c;可记为DAG, 它用于描述进程之间执行的先后顺序。 (2)图形表示 前趋图如图2-1所示。 图2-1 前趋图 2. 程序的执行 (1)程序顺序执行时的特征 ①顺序性。 ②封闭性。 ③ 可…

Robot Operating System——创建可执行文件项目的步骤

大纲 初始化环境创建Package代码添加依赖&#xff08;package.xml&#xff09;修改编译描述find_package寻找依赖库指定代码路径和编译类型&#xff08;可执行文件/动态库&#xff09;链接依赖的库完整文件 编译测试总结参考资料 之前我们看到ROS2中&#xff0c;有的Node的实现…

案例 | 生产制造中的直线度测量

关键词&#xff1a;直线度测量仪,直线度 生产中不仅需要评价产品的外观尺寸&#xff0c;还需要对直线度&#xff08;弯曲度&#xff09;等尺寸加以测量。作为一种评价产品直度的重要指标——直线度&#xff0c;能够对其进行检测是非常重要的。 关于直线度&#xff0c;对于一些弯…

初学者使用WordPress可能会遇到的问题以及如何解决

WordPress 作为一个普及度相当广的内容管理系统 (CMS)&#xff0c;对于刚刚开始建立自己第一个网站的初学者来说是非常合适的选择。它不需要你懂编写代码&#xff0c;且对 SEO 友好&#xff0c;管理起来也很方便。然而&#xff0c;许多初学者在使用 WordPress 时会犯一些错误&a…

各厂家BI对比

帆软BI、奥威BI、永洪BI、思迈特BI、亿信华辰BI是国内知名的BI产品&#xff0c;不少企业在选型BI软件时都需要对这些BI软件进行了解&#xff0c;从中选择适合自己的一款。经过过年的发展&#xff0c;这些BI&#xff08;商业智能&#xff09;软件各自在多个行业中都有广泛的应用…

Anti-Bandit Neural Architecture Search for Model Defense

模型防御的Anti-Bandit网络架构搜索 论文链接&#xff1a;https://arxiv.org/abs/2008.00698(ECCV2020) 项目链接&#xff1a;https://github.com/bczhangbczhang/ABanditNAS 模型防御的Anti-Bandit网络架构搜索Abstract1 Introduction2 Related Work3 Anti-Bandit网络架构搜…

前端项目重新打包部署后如何通知用户更新

前端项目重新打包部署后如何通知用户更新 前端项目重新打包部署后如何通知用户更新常用的webSocket解决方案纯前端方案路由拦截多线程main.ts中 创建多线程多线程逻辑处理 前端项目重新打包部署后如何通知用户更新 前端项目重新打包部署后&#xff0c;由于用户没及时更新页面&…

Vue 自定义文字提示框

目录 前言代码演示相关代码文字提示框组件定义组件调用前言 今天开发遇上了一个新的问题,要求写一个带着滑动动画的文字提示框。但是我经常使用的Element-UI组件库只有淡入淡出效果,并且想要修改样式只能全局修改,非常不利于后期的开发。因此,我最终选择直接自定义一个符合…

VAuditDemo文件漏洞

目录 VAuditDemo文件漏洞 一、首页文件包含漏洞 包含图片马 利用伪协议phar:// 构造shell.inc被压缩为shell.zip&#xff0c;然后更改shell.zip 为 shell.jpg上传 二、任意文件读取漏洞 avatar.php updateAvatar.php logCheck.php 任意文件读取漏洞利用 VAuditDemo文件…

Python中使用SQLite数据库的方法4-3

对于数据库的操作&#xff0c;主要包括“增”、“删”、“改”、“查”四种。在Python中使用SQLite数据库的方法4-1_python的sqlite怎么打开-CSDN博客和Python中使用SQLite数据库的方法4-2_python2 sqlite2-CSDN博客中实现增”、“删”和“查”三种操作。 1 带过滤条件的“查”…

C语言基础(七)

1、二维数组&#xff1a; C语言中的数组是一种基本的数据结构&#xff0c;用于在计算机内存中连续存储相同类型的数据。 数组中的每个元素可以通过索引&#xff08;或下标&#xff09;来访问&#xff0c;索引通常是从0开始的。数组的大小在声明时确定&#xff0c;并且之后不能…

在Linux下搭建go环境

下载go go官网&#xff1a;All releases - The Go Programming Language 我们可以吧压缩包下载到Windows上再传到Linux上&#xff0c;也可以直接web下载&#xff1a; wget https://golang.google.cn/dl/go1.23.0.linux-amd64.tar.gz 解压 使用命令解压&#xff1a; tar -x…

Leetcode JAVA刷刷站(57)插入区间

一、题目概述 二、思路方向 为了解决这个问题&#xff0c;我们可以遍历给定的区间列表 intervals&#xff0c;并同时构建一个新的列表来存储最终的合并结果。遍历过程中&#xff0c;我们检查当前区间是否与 newInterval 重叠或相邻&#xff0c;并根据需要进行合并。如果不重叠…

虚拟化平台kvm架构 部署kvm虚拟化平台

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…

在HarmonyOS中使用RelativeContainer实现相对布局

在应用开发中&#xff0c;布局设计至关重要&#xff0c;尤其是当我们需要处理复杂的界面时&#xff0c;合理的布局设计不仅能够提升界面的美观性&#xff0c;还能够提高应用的性能。在HarmonyOS中&#xff0c;RelativeContainer是一个强大的布局容器&#xff0c;它允许开发者通…

【Qt】 对象树 与 乱码问题

文章目录 1. 对象树在堆上开辟空间 并管理栈上开辟 与 堆上开辟 的区别 2. 乱码问题的解释编码方式的区分出现乱码的原因查看当前文件的编码方式如何处理 文件与 终端 编码方式 不统一 1. 对象树 在堆上开辟空间 并管理 该代码只进行new(在堆上开辟空间) 而没有delete 正常来说…