基于Python的汉字字频统计实验

基于Python的汉字字频统计实验

news2025/3/11 0:41:03

完整资料进入【数字空间】查看——baidu搜索"writebug"

实验内容

针对不同语料统计汉字的字频，并进行比较。

实验要求和目的

给出前 100 个汉字高频字的频率统计结果；

分别给出前 1、20、100、600、2000、3000、6000 汉字的字频总和；

计算汉字的熵值；

针对不同规模语料重复上述实验；

以图表的形式表示上述结果；

提交实验报告，给出详细实验过程和结果；提交源代码和可执行程序。

实验环境

操作系统 macOS Sierra

内存 16G

开发语言 Python

程序主要算法

统计字频，利用 Python 内置的逐行读取和行内逐字读取功能进行字频统计，建立一个 dict 类型的变量用于记录每个字对应的个数，如果读取的字在 dict 中出现过，则 value 值加一，如果读取到的字在 dict 中未出现过，则在 key 值中添加新读取的字。核心代码如下：

with open(filepath, 'r') as txt_file:
for line in txt_file:
ustr = line.decode(encoding)
       for uchar in ustr:
           if is_chinese(uchar):
                       account += 1
                                  if _dict.has_key(uchar):
                                      _dict[uchar] = _dict[uchar] + 1
                                 else:
                                                         _dict[uchar] = 1

实验过程

首先进行语料的收集，我收集到有“人民日报 800 万字语料库”、“搜狗新闻库”，并在网上找了一些金庸的小说 TXT 版本。

然后进行代码的编写，先确定了核心算法，就是第四步中提及的代码，然后编写了如下函数完成实验指导中的要求：

给出前 100 个汉字高频字的频率统计结果，对应函数为：def cal_chinese_word_top100(_dict,_account):

分别给出前 1、20、100、600、2000、3000、6000 汉字的字频总和。对应代码为：def cal_chinese_word_7(_dict,_account):

计算汉字的熵值。对应代码为：def cal_entropy(_list): 在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/766145.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

makefile项目管理-规则和过程

makefile项目管理-规则和过程

目录 1、makefile基本规则 2、makefile执行过程 3、makefile的运行规则 1、makefile基本规则 （1）命名：makefile 和 Makefile （2）makefile文件：里面是多个命令的集合，使用make命令执行该文件 …

阅读更多...

岩土工程安全监测振弦传感器的发展史

岩土工程安全监测振弦传感器的发展史

岩土工程安全监测振弦传感器的发展史岩土工程安全监测是岩土工程学科领域的一个重要组成部分。随着科学技术的不断发展，传感器技术的应用也在不断地创新和完善。振弦传感器是一种重要的监测设备，其应用范围广泛，以其高灵敏度、高精度、长期…

阅读更多...

Python实现HBA混合蝙蝠智能算法优化BP神经网络回归模型(BP神经网络回归算法)项目实战

Python实现HBA混合蝙蝠智能算法优化BP神经网络回归模型(BP神经网络回归算法)项目实战

说明：这是一个机器学习实战项目（附带数据代码文档视频讲解），如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景蝙蝠算法是2010年杨教授基于群体智能提出的启发式搜索算法，是一种搜索全局最优解的有效方法…

阅读更多...

EPSG代号-坐标系对应表

EPSG代号-坐标系对应表

前言 EPSG 用于标识不同的地理空间参考系统，包括坐标系统、地理坐标系、投影坐标系等。这些标识符可用于许多应用程序和地理信息系统软件，以确保数据在不同系统之间的正确转换和处理。现在，EPSG已被Open Geospatial Consortium（OG…

阅读更多...

Js: 读取数据并动态生成表格（读取新数据时，应该删除之前已经渲染出来的数据）

Js: 读取数据并动态生成表格（读取新数据时，应该删除之前已经渲染出来的数据）

前言使用JS读取数据并动态生成表格，但是发现在读取新一轮的数据时，新数据是在之前已经渲染的数据后面进行追加。因此需要解决的问题是：在读取新数据之前，把之前已经渲染的数据进行清空。解决 1、首先写出表格的表头和主干 &…

阅读更多...

rsync增量原理，及C++实现

rsync增量原理，及C++实现

1、目标端将目标文件按700字节为大小分块计算强弱校验值（强：md5 弱：adler32，注：弱校验码计算量小速度快，先比对弱校验码，弱校验值一样再比对强校验码），再结合块号组成一…

阅读更多...

【代码随想录 | Leetcode | 第五天】链表 | 移除链表元素 | 设计链表

【代码随想录 | Leetcode | 第五天】链表 | 移除链表元素 | 设计链表

前言欢迎来到小K的Leetcode|代码随想录|专题化专栏，今天将为大家带来移除链表元素和设计链表的分享✨ 目录前言203. 移除链表元素707. 设计链表总结 203. 移除链表元素 ✨题目链接点这里给你一个链表的头节点 head 和一个整数 val ，请你删除链表中所…

阅读更多...

Nginx 解析漏洞复现

Nginx 解析漏洞复现

Nginx 解析漏洞复现一、环境搭建二、漏洞原理三、漏洞复现一、环境搭建如下介绍kali搭建的教程 cd ~/vulhub/nginx/nginx_parsing_vulnerability // 进入指定环境 docker-compose up -d // 启动环境docker-compose ps使用这条命令查看当前正在运行的环境访问http://y…

阅读更多...

生成对抗网络与优化算法（第十次组会）

生成对抗网络与优化算法（第十次组会）

生成对抗网络与优化算法（第十次组会）生成对抗网络(Generative Adversarial Network)优化算法生成对抗网络(Generative Adversarial Network) 优化算法

阅读更多...

126、仿真-基于51单片机16×16点阵滚动显示仿真设计(Proteus仿真+程序+配套资料等)

126、仿真-基于51单片机16×16点阵滚动显示仿真设计(Proteus仿真+程序+配套资料等)

方案选择单片机的选择方案一：STM32系列单片机控制，该型号单片机为LQFP44封装，内部资源足够用于本次设计。STM32F103系列芯片最高工作频率可达72MHZ，在存储器的01等等待周期仿真时可达到1.25Mip/MHZ(Dhrystone2.1)。内部128k字节…

阅读更多...

-bash: ./est.sh: /bin/bash^M: 坏的解释器: 没有那个文件或目录

-bash: ./est.sh: /bin/bash^M: 坏的解释器: 没有那个文件或目录

方法一： 方法二： sed -i s/\r$// xxx.sh

阅读更多...

完整的电商平台后端API开发总结

完整的电商平台后端API开发总结

对于开发一个Web项目来说，无论是电商还是其他品类的项目，注册与登录模块都是必不可少的；注册登录功能也是我们在日常生活中最长接触的，对于这个业务场景的需求与逻辑大概是没有什么需要详细介绍的，市面上常见的邮箱注册…

阅读更多...

数仓学习---7、数据仓库设计、数据仓库环境准备

数仓学习---7、数据仓库设计、数据仓库环境准备

这是本人的学习过程，看到的同道中人祝福你们心若有所向往，何惧道阻且长； 但愿每一个人都像星星一样安详而从容的，不断沿着既定的目标走完自己的路程； 最后想说一句君子不隐其短，不知则问，不能则…

阅读更多...

Stable Diffusion - 高清局部重绘 (Inpaint) 调整脸部和手部细节

Stable Diffusion - 高清局部重绘 (Inpaint) 调整脸部和手部细节

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/131775232 在 Stable Diffusion 中，局部重绘(Inpaint)功能是一种可以让你在图像上删除不想要的区域，并用周围的像素自动填…

阅读更多...

JAVA中的Socket编程、通信协议、传输协议

JAVA中的Socket编程、通信协议、传输协议

JAVA中的Socket编程一、Socket概述 Socket，建立起客户端和服务器之间的连接，实现数据的传输和交互，它既可以发送请求，也可以接受请求，一个Socket由一个IP地址和一个端口号唯一确定，利用Socket能比较方便的…

阅读更多...

Springboot + Vue 上传Word、PDF文档并保留内部格式

Springboot + Vue 上传Word、PDF文档并保留内部格式

因为业务需求，上传Word文件需要编辑，但如何使用Blob方式，在数据库里存文件，就会造成格式消失。所以修改思路：上传文件到服务器本地，保证数据存储的完整性。前端 <el-upload class"upload-demo&quo…

阅读更多...

centos7.8从卸载python2，安装python3

centos7.8从卸载python2，安装python3

因为目前所有环境都是python2.7.5，但是项目上使用的是python3.7.5，迫切需要使用python3.7.5验证。安装遇到困难，记录一下。首先卸载python2，如果不想卸载python2的可以跳过这里卸载python2和其依赖的yum 先卸载python2.7.5 …

阅读更多...

基于意外流行的自适应模因算法求解分布式柔性作业车间调度问题——付源代码和论文

基于意外流行的自适应模因算法求解分布式柔性作业车间调度问题——付源代码和论文

实在是太忙了，终于闲下来更新一下CSDN来介绍自己的工作《Surprisingly Popular-Based Adaptive Memetic Algorithm for Energy-Efficient Distributed Flexible Job Shop Scheduling》发表在IEEE Transactions on Cybernetics上。原文链接-可下载 Matlab代码 IEEE…

阅读更多...

pdf能转成ppt格式吗？这几个方法你试过了吗

pdf能转成ppt格式吗？这几个方法你试过了吗

作为办公人士，掌握不同文件格式之间的转换技能是必不可少的。每当毕业季来临，我都会收到许多刚刚步入职场的小伙伴们的求助，寻找PDF转PPT的方法。所以，我总结了以下三种方法，希望能帮助大家解决这个一直以来困扰着许多…

阅读更多...

RabbitMQ死信交换机、TTL及延迟队列

RabbitMQ死信交换机、TTL及延迟队列

一，死信交换机 1，什么是死信交换机了解死信交换机之前我们先来了解一下什么是死信，当一个队列满足下面的三种情况的时候我们一般称为死信（dead letter）： 消费者使用basic.reject或 basic.nack声明消费失…

阅读更多...

推荐文章

最新文章