社交媒体分析的许多用途中的一些是情绪分析,我们评估特定问题的帖子是积极还是消极。我们把社交媒体分析、机器学习、预测建模等集成到文本数据挖掘中。最近我们被客户要求撰写关于推文的研究报告,包括一些图形和统计输出。
在这篇文章中,我们挖掘tweets分析它们的情绪并且可视化我们的结果。我们将看到tweets,城市和状态的空间 – 时间分布与最热门的tweets,我们还将挖掘tweets的情绪,帮助我们看到哪些评论被认为是积极的,哪些是负面的。 首先,让我们创建一个tweet的词云。 词云帮助我们可视化tweet中最常见的词:
col=brewer.pal(6,"Dark2")
wordcloud(corpus, min.freq=25, scale=c(5,2),rot.per = 0.25,
random.color=T, max.word=45, random.order=F,colors=col)
我们从云中看到,tweet中最常用的词是’muslim’,’muslims’,’ban’。 这表明大多数推文是关于特朗普最近的想法,暂时禁止穆斯林进入美国。
下面的信息中心显示了所抓取的tweets数量的时间序列。 我们可以在小时和天之间更改时间单位。 随时间推移的推文数量有助于我们深入了解每个活动变化方式。
获取tweet的地址。 下面的地图显示了我可以绘制tweets大小与每个tweet获得的转发数量成正比。
下面的仪表板显示了tweets,大小与每个tweet被转发的次数成正比。
在以下三个可视化中,显示了邮政编码、城市和州的推文数量。 在互动地图中,我们可以通过使用每个viz中显示的滚动条来更改要显示的邮政编码、城市和州的数量。
这些可视化帮助我们按邮政编码,城市和州查看tweet的分布。
情绪分析具有很多的用途。 例如,公司可以调查客户最喜欢公司产品的哪些方面,以及客户不满意的问题是什么? 当公司发布新产品时,产品是否会产生用户正面或负面情绪? 客户的情绪如何随时间和空间而变化? 在这篇文章中,我们评估唐纳德·特朗普的tweets的情绪。
下面的图显示了按地理编码分类的tweet的情绪分数。 我们看到推文在NY、NC和Tx有最高的正面情绪。
我们使用了来自包含特朗普的最近的tweets, 发现一些国家表现出强烈的积极情绪。 然而,在统计学上,为了得出可靠的结论,足够大的样本数据是非常重要的。
我们的情绪分析的准确性取决于tweets中的词语是否被包括在词典中。 此外,由于tweet可能包含俚语,行话和词典,可能不包括在词典中,情感分析需要仔细评估。