【C/C++ 07】词频统计

news2024/11/26 0:27:52

一、题目

读入一篇英文短文,去除介词、连词、冠词、副词、代词等非关键性单词后,统计每个单词出现的次数,并将单词按出现次数的降序和单词字符的升序进行显示5个单词。

二、算法

1. 通过<fstream>库创建fstream流对象,并从文件中读取全部字符存入内存。

2. 将内存的字符串进行空格、标点符号、换行符的分割,若分割后的单词属于需要记入统计的单词,则将其存入map容器中,通过map进行词频统计。

3. 对map中的词频统计结果写入vector中进行排序,并按照规定的排序顺序进行打印。

三、代码

#define _CRT_SECURE_NO_WARNINGS 1

#include <iostream>
#include <fstream>
#include <cstring>
#include <map>
#include <vector>
#include <algorithm>
using namespace std;

// 不计入统计的单词表:介词、连词、冠词、副词、代词
vector<string> g_delWord = {
	"to", "in", "on", "for", "of", "from", "between", "behind", "by", "about", "at", "with", "than",
	"a", "an", "the", "this", "that", "there",
	"and", "but", "or", "so", "yet",
	"often", "very", "then", "therefore",
	"i", "you", "we", "he", "she", "my", "your", "hes", "her", "our", "us", "it", "they", "them",
	"am", "is", "are", "was", "were", "be",
	"when", "where", "who", "what", "how",
	"will", "would", "can", "could"
};

// 仿函数
struct Compare
{
	bool operator()(const pair<string, int> e1, const pair<string, int> e2)
	{
		return e1.second > e2.second;
	}
};

int main()
{
	// 1. 读入文件数据
	//    ofstream:写文件
	//	  ifstream:读文件
	//	  fstream:读写文件
	fstream f;

	//	  ios::in
	//	  ios::out
	//	  ios::app,追加写,配合ios::out使用
	//	  ios::trunc,覆盖写,配合ios::out使用
	//	  ios::binary,以二进制的形式
	f.open("./test1.txt", ios::in);
	if (!f.is_open())
	{
		cout << "file open failed!" << endl;
		return 1;
	}
	char text[4096] = { 0 };
	f.read(text, 4096);

	// 2. 分割字符串存入map
	map<string, int> wordMap;
	const char* cut = " ,.!?;:\n";	// 部分单词分隔符
	char* w = strtok(text, cut);
	while (w)
	{
		string word = w;

		// 单词转小写
		string lwrWord;
		transform(word.begin(), word.end(), back_inserter(lwrWord), ::tolower);

		// 排除不计入统计的单词
		if (find(g_delWord.begin(), g_delWord.end(), lwrWord) == g_delWord.end())
		{
			wordMap[lwrWord]++;
			// map 的 “[]”重载,有插入、查询、修改功能,返回值为键值对的second值或false
		}

		w = strtok(NULL, cut);
	}

	// 3. 词频排序
	vector<pair<string, int>> wordVec;
	for (auto& e : wordMap)
	{
		wordVec.push_back(e);
	}

	// sort是基于快速排序实现的算法,是不稳定的排序算法,可用stable_sort代替
	stable_sort(wordVec.begin(), wordVec.end(), Compare());

	for (int i = 0; i < 5; ++i)
	{
		cout << "<" << wordVec[i].first << "," << wordVec[i].second << ">" << endl;
	}

	return 0;
}

四、测试

测试文档test1.txt

No one can help others as much as you do. 
No one can express himself like you. 
No one can express what you want to convey. 
No one can comfort others in your own way. 
No one can be as understanding as you are. 
No one can feel happy, carefree, and no one can smile as much as you do. 
In a word, no one can show your features to anyone else.
hi, how are you? I love you!

运行结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1426349.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数学建模 - 线性规划入门:Gurobi + python

在工程管理、经济管理、科学研究、军事作战训练及日常生产生活等众多领域中&#xff0c;人们常常会遇到各种优化问题。例如&#xff0c;在生产经营中&#xff0c;我们总是希望制定最优的生产计划&#xff0c;充分利用已有的人力、物力资源&#xff0c;获得最大的经济效益&#…

idea docker 镜像生成太慢太大问题

文章目录 前言一、更小的jdk基础镜像二、服务瘦包&#xff08;thin jar&#xff09;2.1 maven2.2 修改dockerfile2.3 container run options 三、 基础jdk镜像入手&#xff1f;总结 前言 idea docker 内网应用实践遗留问题 idea docker插件 build 服务镜像太慢服务镜像太大 …

【网络】端口号范围

一、端口号的几个范围 在计算机网络中&#xff0c;一个端口号是一个16位的无符号整数&#xff0c;意味着端口号的范围是从0到65535。不过&#xff0c;并非所有端口都可以随意使用。根据惯例和技术标准&#xff0c;端口号被分为几个范围&#xff1a;1. 系统或保留端口&#xff…

草图导入3d后模型贴材质的步骤?---模大狮模型网

3D模型在导入草图大师后出现混乱可能有多种原因&#xff0c;以下是一些可能的原因和解决方法&#xff1a; 模型尺寸问题&#xff1a;如果3D模型的尺寸在导入草图大师时与画布尺寸不匹配&#xff0c;可能导致模型混乱。解决方法是在3D建模软件中调整模型的尺寸&#xff0c;使其适…

ubuntu16.04环境轻松安装和应用opencv4.9.0(基于源码编译)

目录 一、环境准备 1、安装cmake 2、安装依赖 3、从github上下载opencv4.9.0.zip 二、安装opencv4.9.0 1、解压4.9.0.zip 2、进入build目录编译 3、安装编译好的相关库 4、修改opencv配置文件并使其生效 5、添加PKG_CONFIG路径&#xff0c;并使其生效 三、opencv环境…

Redis核心技术与实战【学习笔记】 - 10.浅谈CPU架构对Redis性能的影响

概述 可能很多人都认为 Redis 和 CPU 的关系简单&#xff0c;Redis 的线程在 CPU 上运行&#xff0c;CPU 快 Reids 处理请求的速度也很快。 其实&#xff0c;这种认知是片面的&#xff0c;CPU 的多核架构及多 CPU 结构&#xff0c;也会影响到 Redis 的性能。如果不了解 CPU 对…

STM32存储左右互搏 QSPI总线读写FLASH W25QXX

STM32存储左右互搏 QSPI总线读写FLASH W25QXX FLASH是常用的一种非易失存储单元&#xff0c;W25QXX系列Flash有不同容量的型号&#xff0c;如W25Q64的容量为64Mbit&#xff0c;也就是8MByte。这里介绍STM32CUBEIDE开发平台HAL库Qual SPI总线操作W25Q各型号FLASH的例程。 W25Q…

云上自动部署丨使用 Terraform 在 AWS 上搭建 DolphinDB

HashiCorp Terraform 是一款基础架构即代码工具&#xff0c;旨在实现 "Write, Plan, and Create Infrastructure as Code"。它通过配置文件来描述云资源的拓扑结构&#xff0c;包括虚拟机、存储账户和网络接口。Terraform 几乎支持市面上所有的云服务&#xff0c;能够…

LeetCode --116

116. 填充每个节点的下一个右侧节点指针 给定一个 完美二叉树 &#xff0c;其所有叶子节点都在同一层&#xff0c;每个父节点都有两个子节点。二叉树定义如下&#xff1a; struct Node {int val;Node *left;Node *right;Node *next; } 填充它的每个 next 指针&#xff0c;让…

Python 数据处理临近匹配:找到最接近的元素

更多Python学习内容&#xff1a;ipengtao.com 在数据处理中&#xff0c;经常需要找到最接近给定值的元素或数据点。这种需求在科学、工程和统计分析中非常常见。Python 提供了多种方法来实现这种临近匹配。本文将介绍一些常见的方法和示例代码&#xff0c;以帮助大家更好地处理…

探索微服务治理:从发展到实践构建高效稳定的系统|负载均衡技术解析

二、微服务治理的相关技术 微服务治理涉及多个方面&#xff0c;包括服务注册与发现、负载均衡、容错处理、服务配置管理等&#xff0c;这些技术共同确保微服务架构的稳定运行。 2、负载均衡 负载均衡作为服务治理中的核心技术之一&#xff0c;对于提高系统的可用性、性能和扩…

【Axure教程0基础入门】02高保真基础

02高保真基础 1.高保真原型的要素 &#xff08;1&#xff09;静态高保真原型图 尺寸&#xff1a;严格按照截图比例&#xff0c;参考线 色彩&#xff1a;使用吸取颜色&#xff0c;注意渐变色 贴图&#xff1a;矢量图/位图&#xff0c;截取&#xff0c;覆盖等 &#xff08;…

DevOps落地笔记-08|技术债务:勤借勤还,再借不难

上一讲主要介绍了如何有效管理第三方组件的实际案例&#xff0c;目的是让你意识到依赖组件的质量也会影响到软件的质量。前面几个课时谈论的主要内容都是跟软件质量相关&#xff0c;通过各种方式方法提高软件交付的质量。这时就会遇到一个问题&#xff0c;软件质量固然重要&…

c++设计模式之观察者模式(发布-订阅模式)

介绍 观察者模式主要关注于对象的一对多关系&#xff0c;其中多个对象都依赖于一个对象&#xff0c;当该对象的状态发生改变时&#xff0c;其余对象都能接收到相应的通知。 如&#xff0c;现在有 一个数据对象三个画图对象&#xff0c;分别wield曲线图、柱状图、饼状图三个对象…

基于SSM+MySQL的的新闻发布系统设计与实现

目录 项目简介 项目技术栈 项目运行环境 项目截图 代码截取 源码获取 项目简介 新闻发布系统是一款基于Servletjspjdbc的网站应用程序&#xff0c;旨在提供一个全面且高效的新闻发布平台。该系统主要包括后台管理和前台新闻展示两个平台&#xff0c;涵盖了新闻稿件的撰写…

为什么SSL会握手失败?SSL握手失败原因及解决方案

随着网络安全技术的发展&#xff0c;SSL证书作为网站数据安全的第一道防线&#xff0c;被越来越多的企业选择。SSL证书使用的是SSL协议&#xff0c;而SSL握手是SSL协议当中最重要的一部分。当部署SSL证书时&#xff0c;如果服务器和客户端之间无法建立安全连接&#xff0c;就会…

蓝桥杯刷题 #1 最小化战斗力差距

知识点&#xff1a;for 循环和简单排序 收录原因&#xff1a;对题目理解有误&#xff0c;逻辑出现错误&#xff0c;解题思路不清晰 n int(input()) w list(map(int,input().split())) def sort_min(n,s):s.sort()l []for i in range(1,len(s)):result s[i] - s[i-1]l.app…

Ps:自动混合图层

Ps菜单&#xff1a;编辑/自动混合图层 Edit/Auto-Blend Layers 自动混合图层 Auto-Blend Layers命令可以自动地混合多个图层&#xff0c;特别适合于制作全景图、焦点堆叠、曝光合成或任何需要平滑融合多个图像的场景。 自动混合图层命令仅适用于 RGB 或灰度图像&#xff0c;不适…

react中使用useEffcet抛出错误“超出最大更新深度”

目录 【项目中部分代码】&#xff1a; 【说明】&#xff1a; 【抛出错误】&#xff1a;“超出最大更新深度” 【造成原因】&#xff1a; 【例如&#xff1a;】 【解决】&#xff1a; 【项目中部分代码】&#xff1a; // 类组件中&#xff1a;一进页面就拿到要notiveType的…

(亲测)开发API接口调用管理系统网站源码2024全新接口平台多用户管理系统 api接口调用教程

2024全新开发API接口调用管理系统网站源码 附教程 用layui框架写的 个人感觉很简洁 方便使用和二次开发 搭建说明&#xff1a; 测试环境&#xff1a;Nginx PHP7.0 MySQL5.6 导入数据库 数据库配置文件修改路径&#xff1a;/includes/config.php 后台登录地址&#xff1a;http…