【传知代码】私人订制词云图-论文复现

news2024/11/17 21:38:07

文章目录

  • 概述
  • 原理介绍
  • 核心逻辑
    • 1、选取需要解析的txt文档
    • 2、选取背景图明确形状
    • 3、配置停用词
    • 4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题
  • 技巧
    • 1、中文乱码问题,使用的时候指定使用的文字字体
    • 2、更换背景图
    • 3、词库下载以及格式转换方式
    • 4、jieba的快速说明
    • 5、支持自定义文字颜色
  • 环境配置/部署方式
  • 小结

本文涉及的源码可从私人订制词云图该文章下方附件获取

概述

词云图(Word Cloud)是一种文本数据的可视化表示方法,它通过将文本中每个单词的大小与其在文本中出现的频率或重要性相关联,从而以视觉方式展示文本数据的关键信息。词云图在数据分析、文本挖掘、社交媒体分析等领域中广泛应用,因为它能够直观地展示大量文本数据中的主题、关键词或情感倾向。

在这里插入图片描述

在这里插入图片描述

原理介绍

词云图(Word Cloud)的原理可以清晰地分为以下几个步骤,这些步骤共同协作,以生成一种可视化的文本数据表示方式:

  1. 分词
    • 词云图的第一步是将输入的文本数据划分为一个个单独的词语。这个过程通常被称为分词,它涉及到将连续的文本字符串拆分成单独的词汇单元。
  2. 统计词频
    • 在分词完成后,词云图生成工具会统计每个词语在文本中出现的次数。这个步骤是确定词语在词云图中重要性的关键,因为词频高的词语通常会被视为更重要或更相关的。
  3. 去除停用词
    • 停用词是指那些出现频率高但通常不带有实际意义的词语,如“的”、“了”等。为了提高词云图的质量,这些词语通常会被从词频统计中去除,以便更准确地反映文本的主题。
  4. 去除重复词语
    • 如果文本中存在多个相同的词语,词云图生成工具通常只会计算它们的一次出现。这是为了确保词频统计的准确性,避免重复计数。
  5. 计算权重
    • 根据词语在文本中出现的频率,词云图生成工具会计算每个词语的权重。这个过程可能会使用到不同的算法,如TF-IDF(词频逆文档频率)算法,以更准确地反映词语在文本中的重要性。
  6. 显示词云
    • 在计算完词语的权重后,词云图生成工具会将这些词语按照其权重进行排列和分布,形成词云图。在这个过程中,词语的大小、颜色等视觉元素通常会被用来表示其权重,即出现频率高或重要性大的词语会显得更大、更突出。

核心逻辑

以python为例,主要使用的库

import wordcloud #词云库
import jieba #分词工具

1、选取需要解析的txt文档

text_file_path = "./《山海经》先秦白话文版.txt"

也可以从解析某个网站数据(本文是以txt文本为例,没有采取下面代码方式)

# 从网站获取文本内容
url = "https://baidu.com"
response = requests.get(url)
response.encoding = 'utf-8'  # 设置编码,确保正确处理中文字符
html_content = response.text

# 使用BeautifulSoup解析HTML,提取文本内容
soup = BeautifulSoup(html_content, "html.parser")
text_data = soup.get_text()

2、选取背景图明确形状

background_image_path = "./心.png" # 地图.png

3、配置停用词

# 设置停用词
#wordcloud库允你排除一些词汇,这样它们就不会出现在词云图中。你可以使用 stopwords 参数来指定要排除的词汇。
def load_stopwords(file_path):
    with open(file_path, "r", encoding="gb18030") as file:
        return set(file.read().splitlines())

stopwords_path = "./stopwords.txt"
stopwords = load_stopwords(stopwords_path)
# 添加额外的停用词
stopwords.update(["注释", "译文", "这座", "名称", "很多", "名曰", "之山", "一种"])

4、创建分词词典,主要解决新的网络热词、专有名词等不识别问题

# 加载词典(分词的时候不拆开,比如‘山海经’不应该被拆成‘山’、‘海’、‘经’等)
# 主要用于定义一些专有名词
jieba.load_userdict('山海经异兽_22个.txt')
jieba.add_word('山海经')
jieba.add_word('先秦')

技巧

所有技巧(坑)都在演示视频里面逐一演示,注意避坑。

1、中文乱码问题,使用的时候指定使用的文字字体

font_path = ("./simsun.ttc") #指定字体,否则可能会中文乱码

2、更换背景图

需要选择透明背景色的,有的白底的图,肉眼看起来没问题,但是程序却认为整张图片是一个形状,比如下面的图就不行(出来的词云图是外框矩形):

而这张图就可以:

在这里插入图片描述

3、词库下载以及格式转换方式

词库搜索下载地址

在这里插入图片描述

现在下来后的格式是.scel的,需要转换成txt
转换地址

在这里插入图片描述

4、jieba的快速说明

# -*- coding: utf-8 -*-
import jieba

seg_str = "好好学习,天天向上。"

print("/".join(jieba.lcut(seg_str))) # 精简模式,返回一个列表类型的结果
print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式,使用 'cut_all=True' 指定 
print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

结果:

好好学习/,/天天向上/。
好好/好好学/好好学习/好学/学习/,/天天/天天向上/向上/。
好好/好学/学习/好好学/好好学习/,/天天/向上/天天向上/。

5、支持自定义文字颜色

colormaps = mpl.colormaps['tab10'] # tab20
# 也支持自定义文字颜色
# colormaps = colors.ListedColormap(['#FF0000','#FF7F50','#FFE4C4'])

环境配置/部署方式

python wordsCloud.py

小结

词云图的一些主要特点:

  1. 可视化效果:词云图以图像的形式呈现文本数据,使得人们能够直观地看到文本中的主要词汇和它们之间的关系。通过颜色、大小、字体等视觉元素,词云图能够突出显示重要的词汇,帮助用户快速理解文本的核心内容。
  2. 频率或重要性表示:在词云图中,每个单词的大小通常与其在文本中出现的频率或重要性成正比。这意味着出现频率高或重要性大的词汇在词云图中会显得更大、更突出。这种表示方式有助于用户快速识别文本中的关键信息。
  3. 自定义程度高:词云图具有很高的自定义程度,用户可以根据需要调整词汇的颜色、大小、字体等属性,以及选择特定的词汇过滤条件,从而生成符合自己需求的词云图。
  4. 支持多种文本数据源:词云图可以处理来自各种文本数据源的数据,包括社交媒体帖子、新闻报道、用户评论、书籍、文章等。这使得词云图在各个领域都有广泛的应用前景。
  5. 揭示文本主题:通过词云图,用户可以快速了解文本的主题和关键词。例如,在社交媒体分析中,词云图可以帮助用户了解用户讨论的热点话题和关键词;在新闻报道分析中,词云图可以帮助用户了解新闻的主要内容和情感倾向。
  6. 局限性:虽然词云图具有很多优点,但也存在一些局限性。例如,词云图通常只能展示文本中的词汇信息,而无法展示词汇之间的语法关系或上下文信息。此外,词云图对于某些特定的文本数据可能不太适用,例如诗歌、散文等文学作品。

词云图是一种非常有用的文本数据可视化工具,它能够帮助用户快速了解文本的主要内容和关键词,揭示文本的主题和情感倾向。在实际应用中,用户可以根据需要选择合适的词云图生成工具和数据源,以生成符合自己需求的词云图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1704645.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数组单调栈-901. 股票价格跨度、leetcode

单调栈作为一种数据结构在求解类递增、递减方面的题目中有较为广泛的应用,在以往的leetcode中所见到的相关单调栈的题目均为单一元素,今天刷到901题目时,想到了将数组元素作为单调栈中元素的方法进行求解。 题目链接及描述 901. 股票价格跨…

C++ | Leetcode C++题解之第108题将有序数组转换为二叉搜索树

题目&#xff1a; 题解&#xff1a; class Solution { public:TreeNode* sortedArrayToBST(vector<int>& nums) {return helper(nums, 0, nums.size() - 1);}TreeNode* helper(vector<int>& nums, int left, int right) {if (left > right) {return nu…

Python 全栈体系【四阶】(五十四)

第五章 深度学习 十二、光学字符识别&#xff08;OCR&#xff09; 3. 文字识别技术 3.1 CRNNCTC(2015) CRNN&#xff08;Convolutional Recurrent Neural Network&#xff09;即卷积递归神经网络&#xff0c;是DCNN和RNN的组合&#xff0c;专门用于识别图像中的序列式对象。…

计算机组成原理易混淆知识点总结(持续更新)

目录 1.机器字长&#xff0c;存储字长与指令字长 2.指令周期,机器周期,时钟周期 3.CPI,IPS,MIPS 4.翻译程序和汇编程序 5.计算机体系结构和计算机组成的区别和联系 6.基准程序执行得越快说明机器的性能越好吗? 1.机器字长&#xff0c;存储字长与指令字长 不同的机器三者…

VMware ESXi 兼容性查询

官网兼容性查询地址&#xff1a;https://www.vmware.com/resources/compatibility/search.php

Android Studio自带Profiler工具进行CPU资源及线程问题分析步骤

1、运行需要检测CPU资源问题与线程问题的程序 这里以“com.example.opengltest”程序为例。 2、点击Profiler按钮 3、点击SESIONS ""号按钮选择设备&#xff0c;选择对应设备下的应用或进程 4、双击CPU区块 5、选择Trace config选项&#xff0c;选择“Java/Kotli…

Reader类的使用方法和技巧,你掌握了吗?

哈喽&#xff0c;各位小伙伴们&#xff0c;你们好呀&#xff0c;我是喵手。运营社区&#xff1a;C站/掘金/腾讯云&#xff1b;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点&#xff0c;并以文字的形式跟大家一起交流&#xff0c;互相学习&#xff0c;一…

raft 协议和etcd实战

文章目录 leader选举日志复制安全性preVote 阶段preVote 投票阶段preVote阶段的作用 集群成员变更etcd raft实践etcd raft写流程时序图问题如何保障消息的幂等性&#xff0c;不能重复提交如何保障消息的原子性&#xff0c;不能提交一半raft wal日志的作用是MVCC方式的作用etcd …

瑞吉外卖项目学习笔记(一)

项目展示&#xff1a; 一、软件开发整体介绍 1.1 软件开发流程 作为软件开发人员&#xff0c;我们的主要工作是在 编码阶段 1.2 角色分工 1.3 软件环境 二、瑞吉外面项目介绍 2.1 项目介绍 系统管理后台页面&#xff1a; 移动端页面&#xff1a; 2.2 产品原型展示 产品原型是…

2024 年科技裁员综合清单

推荐阅读&#xff1a; 独立国家的共同财富 美国千禧一代的收入低于父辈 创造大量就业机会却毁掉了财富 这四件事是创造国家财富的关键 全球财富报告证实联盟自始至终无能 美国人已陷入无休止债务循环中&#xff0c;这正在耗尽他们的财务生命 2024 年&#xff0c;科技行业…

二分例题(D.负重越野,I.路径规划)

这两天的训练赛都有一道二分的题&#xff0c;但是都没往二分上面想&#xff0c;同样不知道怎么二分。 D. Fast and Fat 思路 二分的关键也就是check函数怎么写了&#xff0c;求队伍最大速度&#xff0c;可以分为速度>mid和<mid两部分&#xff0c;再判断&#xff0c;能不…

课时138:变量进阶_变量实践_综合案例

2.1.3 综合案例 学习目标 这一节&#xff0c;我们从 免密认证、脚本实践、小结 三个方面来学习 免密认证 案例需求 A 以主机免密码认证 连接到 远程主机B我们要做主机间免密码认证需要做三个动作1、本机生成密钥对2、对端机器使用公钥文件认证3、验证手工演示 本地主机生成…

dolphinscheduler standalone安装

官方文档&#xff1a;https://dolphinscheduler.apache.org/en-us/docs/3.1.3/guide/installation/standalone 1.安装&#xff08;以放在/home为例&#xff09; 下载见&#xff1a;https://download.csdn.net/download/taotao_guiwang/89311365 tar -xvzf apache-dolphinsche…

《中国改革报》的发行范围有哪些?

《中国改革报》是国家发展和改革委员会主管的全国性综合类报纸&#xff0c;其发行范围广泛&#xff0c;涵盖了全国各地。 该报在全国范围内公开发行&#xff0c;读者群体包括政府部门、研究机构、企业界、学术界以及关注中国改革与发展的社会各界人士。 它通过订阅、零售等多…

力扣hot100学习记录(十)

21. 合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 题意 将两个有序列表合并 思路 用两个指针分别指向两个链表最开始&#xff0c;每次把较小的拿出来&#xff0c;相应指针后移&#xff0c;直到一个链表…

Java 多线程(01)

运行一个 Java 程序就是跑一个 Java 进程&#xff0c;该进程至少有一个线程即主线程&#xff0c;而 main 方法就是主线程的入口&#xff1b; 一、常见多线程名词解释 并发&#xff1a;一个 CPU 核心上&#xff0c;通过快速轮转调度的方式&#xff0c;执行多个进程&#xff0c…

linux文件编程api: creat

1.基本信息 功能 创建新文件 头文件 #include<fcntl.h> 函数形式 int creat(const char *pathname, mode_t mode); 返回值 如果成功&#xff0c;则返回文件描述符号 如果失败&#xff0c;则返回-1 参数 pathname: 创建的文件名 mode: 新建文件时&#xff0c;文件权限…

Android LAME原生音频

前言 我想大家都做过录音的功能吧&#xff0c;首先想到的是不是MediaRecorder&#xff1f;今天我们不用MediaRecorder&#xff0c;而是使用LAME库自己编译音频编码模块&#xff0c;很明显&#xff0c;这个需要用到NDK。凡是涉及到音视频编解码这块的&#xff0c;都需要用到And…

BUG: VS Code C++输出中文乱码

BUG: VS Code C输出中文乱码 环境 Windows 11 VS Code 编辑器详情 在Windows 使用 cout 函数输出中文时出现乱码 问题的原因在cmd的显示编码和c程序编码的不同。cmd默认的是gbk编码&#xff0c;而VS Code 软件的CMD终端默认是utf-8编码&#xff0c;因而在输出中文文本时会出…

QQ名片满级会员展示生成HTML源码

源码介绍 QQ名片满级会员展示生成HTML源码&#xff0c;源码由HTMLCSSJS组成&#xff0c;双击html文件可以本地运行效果&#xff0c;也可以上传到服务器里面&#xff0c;保存素材去选择QQ个性名片-选择大图模板-把图上传照片墙即可 源码效果 源码下载 蓝奏云&#xff1a;http…