R语言对推特twitter数据进行文本情感分析

news2025/1/10 20:38:35


原文链接:http://tecdat.cn/?p=4012

我们以R语言抓取的推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息点击文末“阅读原文”获取完整代码数据)。

找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本。

tweets <-tweets_df>%select(id, statusSource, text, created) %>%
extract(statusSource, "source", "Twitter for (.*?)<")>%filter(source %in%c("iPhone", "Android"))

对数据进行可视化计算不同时间对应的推特比例.。

并且对比安卓手机和苹果手机上的推特数量的区别。

43f6b9314903044ce7d036b2dff7c8ab.jpeg

从对比图中我们可以发现,安卓手机和苹果手机发布推特的时间有显著的差别,安卓手机倾向于在5点到10点之间发布推特,而苹果手机一般在10点到20点左右发布推特。同时我们也可以看到,安卓手机发布推特数量的比例要高于苹果手机。


点击标题查阅往期内容

3fcc208cd9d18080cc8460d1b07e67ec.jpeg

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

outside_default.png

左右滑动查看更多

outside_default.png

01

94b56e59a107acf2612da2b8c2fd01fe.png

02

e9d6e7f8fb54cbed234f77781c971d28.png

03

4fa4a7cef04d9b462a9dc3ec1c751b06.png

04

52e7846d2997dcf33613c06bc473a418.png

然后查看推特中是否含有引用 ,并且对比不同平台上的数量。

ggplot(aes(source, n, fill = quoted)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="", y ="Number of tweets", fill ="")

7753c276c465ce78d91506b9bf50adc7.jpeg

从对比的结果来看,安卓手机没有被引用的比例要明显低于苹果手机。而安卓手机引用的数量要明显大于苹果手机。因此可以认为,苹果手机发的推特内容大多为原创,而安卓手机大多为引用。

然后查看推特中是否有链接或者图片,并且对比不同平台的情况

ggplot(tweet_picture_counts, aes(source, n, fill = picture)) +
geom_bar(stat ="identity", position ="dodge") +
labs(x ="",

44f1de9ace0dd0116a839a93ecd002d4.jpeg

从上面的对比图中,我们可以看到安卓手机没有图片或者链接的情况要多于苹果,也就是说,使用苹果手机的用户在发推特的时候一般会发布照片或者链接。

同时可以看到安卓平台的用户把推特一般不使用图片或者链接,而苹果手机的用户恰恰相反。

spr <-tweet_picture_counts>%spread(source, n) %>%
mutate_each(funs(. /sum(.)), Android, iPhone)
rr <-spr$iPhone[2] /spr$Android[2]

然后我们对推特中的异常字符进行检测,并且进行删除然后找到推特中关键词,并且按照数量进行排序

reg <- "([^A-Za-zd#@']|'(?![A-Za-zd#@]))
"tweet_words <-tweets>%filter(!str_detect(text, '^"')) %>%m
utate(text =str_replace_all(text, "https://t.co/[A-Za-zd]+|&", "")) %>%
unnest_tokens(word, text, token ="regex", pattern = reg) %>%
filter(!word %in%stop_words$word,str_detect(word, "[a-z]"))


tweet_words %>%count(word, sort =TRUE) %>%head(20) %>%
mutate(word =reorder(word, n)) %>%ggplot(aes(word, n)) +geom_b

ee0793050fec262a4045b1880b81b667.png

对数据进行情感分析,并且计算安卓和苹果手机的相对影响比例。

通过特征词情感倾向分别计算不同平台的情感比,并且进行可视化。

ba10464ca994a3bd6a209745e0b5521d.jpeg

在统计出不同情感倾向的词的数量之后,绘制他们的置信区间。从上面的图中可以看到,相比于苹果手机,安卓手机的负面情绪最多,其次是厌恶,然后是悲伤。表达积极的情感倾向很少。

然后我们对每个情感类别中出现的关键词的数量进行统计。

android_iphone_ratios %>%inner_join(nrc, by ="word") %>%
filter(!sentiment %in%c("positive", "negative")) %>%
mutate(sentiment =reorder(sentiment, -logratio),word =reorder(word, -logratio)) %>%

f43644880e67b2c2f28412a82b39dbd5.jpeg

从结果中我们可以看到,负面词大多出现在安卓手机上,而苹果手机上出现的负面词的数量要远远小于安卓平台上的数量。


2115a937fea62d23048795dc5a94c58c.jpeg

点击文末“阅读原文”

获取全文完整代码数据资料。

本文选自《R语言对推特twitter数据进行文本情感分析》。

点击标题查阅往期内容

【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组数据集

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

用于NLP的Python:使用Keras进行深度学习文本生成

长短期记忆网络LSTM在时间序列预测和文本分类中的应用

用Rapidminer做文本挖掘的应用:情感分析

R语言文本挖掘tf-idf,主题建模,情感分析,n-gram建模研究

R语言对推特twitter数据进行文本情感分析

Python使用神经网络进行简单文本分类

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

R语言文本挖掘使用tf-idf分析NASA元数据的关键字

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

Python使用神经网络进行简单文本分类

R语言自然语言处理(NLP):情感分析新闻文本数据

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言对推特twitter数据进行文本情感分析

R语言中的LDA模型:对文本数据进行主题模型topic modeling分析

R语言文本主题模型之潜在语义分析(LDA:Latent Dirichlet Allocation

01aeb5751014b1c6a6bd0d430e421adb.png

08b4b1bfaa7bcc08a3abcec6e1c30d46.jpeg

9e1051caf404378b91f5324366e0241a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/71198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++ Reference: Standard C++ Library reference: Containers: list: list: assign

C官网参考链接&#xff1a;https://cplusplus.com/reference/list/list/assign/ 公有成员函数 <list> std::list::assign C98 范围 (1) template <class InputIterator> void assign (InputIterator first, InputIterator last); 填充 (2) void assign (…

字符串处理【AC自动机】 - 原理 AC自动机详解

字符串处理【AC自动机】 - 原理 AC自动机详解 AC自动机&#xff08;Aho-Corasick automaton&#xff09;在1975年产生于贝尔实验室&#xff0c;是著名的多模匹配算法。 学习AC自动机&#xff0c;要有KMP和Trie&#xff08;字典树&#xff09;的基础知识。 KMP是单模匹配算法&a…

三代全长16s助攻,轻松搞定水体研究领域10+文章

基于PacBio三代测序平台&#xff0c;可高效获得16s rRNA全长序列&#xff0c;同时不必纠结引物选择带来的结果偏差&#xff0c;令物种分类更多更精准——到达“种”水平。Pacbio平台同时兼具时间短&#xff0c;无需扩增等优势&#xff0c;伴随着三代测序成本的下降&#xff0c;…

<VSCode下载、安装、配置以及连接云服务器进行Linux开发>

目录 1.下载、安装VSCode 2.配置环境及插件 2.1 实用插件安装 2.1.1 中文汉化插件 2.1.2 Remote-ssh插件​ 连接远程云服务器&#xff1a; 远程云服务器开发&#xff1a; Xshell界面与VSCode界面对比&#xff1a; 2.1.3 C/C Extension Pack&#xff08;C/C扩展包&#xff0…

Java实现后端跨域的常见解决方式

目录一、搭建服务&#xff08;cross-server&#xff09;1.1、maven依赖1.2、接口1.3、配置二、搭建服务&#xff08;cross-web&#xff09;2.1、maven依赖2.2、接口2.3、页面2.4、配置2.5、跨域请求结果2.6、常见跨域情况三、解决方案3.1、通过 CrossOrigin 注解3.2、通过配置类…

Kafka高级特性解析之主题

1、管理 使用kafka-topics.sh脚本&#xff1a; 选项说明--config <String: namevalue>为创建的或修改的主题指定配置信息。支持下述配置条目&#xff1a; cleanup.policycompression.typedelete.retention.msfile.delete.delay.msflush.messagesflush.msfollower.repli…

不影响1,4丁炔二醇(BYD)的情况下去除铜离子的工艺

1,4-丁炔二醇BYD&#xff08;but-2-yne-1,4-diol&#xff09;是一种重要的中间体化工原料&#xff0c;广泛应用于生产丁二醇及其下游产品、维生素B6的主要原料&#xff0c;还可以用于镀镍的增亮剂、防腐抑制剂等领域。 1,4&#xff0d;丁二醇&#xff08;BDO&#xff09;是一种…

(附源码)ssm人才市场招聘信息系统 毕业设计 271621

基于jsp的人才市场招聘信息系统的设计与实现 摘 要 人才市场招聘信息系统采用B/S结构、java开发语言、以及Mysql数据库等技术。系统主要分为管理员、用户、两部分&#xff0c;管理员管理主要功能包括&#xff1a;首页&#xff0c;站点管理&#xff08;轮播图、公告栏&#xf…

实验(七):串行口实验

一、实验目的与任务 实验目的&#xff1a; 1&#xff0e;运行Keil开发环境&#xff0c;完成串行口通信软件编程&#xff1b; 2&#xff0e;利用单片机串行口方式1与主机通信&#xff0c;建立Proteus仿真模型。 3&#xff0e;完成系统仿真与调试。。 任务&#xff1a; 1.根据要求…

mongodb 存引擎及配置

上次我们分享到了 wiredTiger 引擎以及他对于以前默认的 MMAPV1 引擎的优势 关于 wiredTiger 引擎 配置这里补充一下&#xff1a; storage:journal:enabled: truedbPath: /data/xiaomotong/mongo1/directoryPerDB: trueengine: wiredTigerwiredTiger:engineConfig:cacheSizeGB:…

Kotlin 开发Android app(二十):悬浮框WindowManager和动画AnimationDrawable

安卓的悬浮框&#xff0c;悬浮框相当于对桌面的一种控制&#xff0c;在安卓中是允许这样的自定义的小窗体出现在桌面的&#xff0c;其实这种小桌面可以使某些应用调用起来非常的方便&#xff0c;而动画的展现使得程序看起来更加有爱。 悬浮框 悬浮框的使用&#xff0c;通常是跟…

【负荷预测】长短期负荷预测(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️❤️&#x1f4a5;&#x1f4a5;&#x1f4a5; &#x1f389;作者研究&#xff1a;&#x1f3c5;&#x1f3c5;&#x1f3c5;主要研究方向是电力系统和智能算法、机器学…

Python学习-8.1.3 标准库(turtle库的基础与实例)

2.3 turtle库 turtle库是能够进行基本的图形绘制的标准库。 turtle库包含100多个功能函数&#xff0c;主要包括三类&#xff1a;窗体函数、画笔运动函数、画笔状态函数 2.3.1 窗体函数 注&#xff1a;像素是指组成图像的小方格&#xff0c;每个小方格都有一个明确的位置和被…

图解LeetCode——1812. 判断国际象棋棋盘中一个格子的颜色(难度:简单)

一、题目 给你一个坐标 coordinates &#xff0c;它是一个字符串&#xff0c;表示国际象棋棋盘中一个格子的坐标。下图是国际象棋棋盘示意图。 如果所给格子的颜色是白色&#xff0c;请你返回 true&#xff0c;如果是黑色&#xff0c;请返回 false 。 给定坐标一定代表国际象…

少走弯路 → PlantUML网站推荐

PlantUML官网 Real World PlantUML 建议画图前从这里拷贝模板 PlantUML在线编辑 虽然简洁但是比官网好用的多 PlantUML 在线编辑器画面美观推荐使用 文章目录类图类图 一直都没搞懂 关联&#xff0c;依赖&#xff0c;组合&#xff0c;聚合的关系&#xff0c;看了视频稍微…

hdfs-over-ftp使用说明

hdfs-over-ftp使用说明 一、介绍 hdfs-over-ftp可以将hdfs文件系统通过ftp服务方式暴露出来,可以通过ftp客户端下载和上传hadoop文件。 二、编译及安装配置 原作者很久不更新了https://github.com/iponweb/hdfs-over-ftp 如果要支持hadoop2、hadoop3需要自己编译&#xff1b;可…

阿里妈妈展示广告召回之多场景建模算法

丨目录&#xff1a; 摘要 背景 方法 实验分析 总结 参考文献1. 摘要工业推荐系统通常拥有多个业务场景&#xff0c;并需要同时为这些场景提供推荐服务。在召回阶段&#xff0c;从大量商品库中选出的个高质量商品需要针对不同场景进行相应调整。以阿里妈妈展示广告为例&#xf…

认识 MySQL数据库和Redis缓存的数据一致性问题

文章目录1. 什么是数据的一致性2. 数据不一致情况及应对策略3. 数据一致性中需要注意的其他问题有哪些&#xff1f;1. 什么是数据的一致性 “数据一致”一般指的是&#xff1a;缓存中有数据&#xff0c;缓存的数据值 数据库中的值。 但根据缓存中是有数据为依据&#xff0c;…

微信外卖点餐小程序毕业设计,微信订餐小程序系统设计与实现,微信小程序毕业设计论文怎么写毕设源码开题报告需求分析怎么做

基于微信小程序的毕业设计题目(5)php点菜外卖小程序(含开题报告、任务书、中期报告、答辩PPT、论文模板) 项目背景和意义 目的&#xff1a;本课题主要目标是设计并能够实现一个基于微信小程序外卖点菜系统&#xff0c;前台用户使用小程序&#xff0c;后台管理使用基PHPMySql的B…

【AI入门】利用Paddle实现简单的数字识别

梳理逻辑 整个流程 准备好Paddle的环境准备好训练样本设计模型(定义模型)训练模型模型测试 1、准备好环境 #加载飞桨和相关类库 import paddle from paddle.nn import Linear import paddle.nn.functional as F import os import numpy as np import matplotlib.pyplot as plt…