Linux下实现统计文件单词个数和出现次数

news2024/10/5 18:30:31

本文介绍的是在Linux下实现统计文件单词个数和出现次数,以及实践过程中遇到的gcc编译器不匹配问题

一、实现文件单词个数统计

#include <stdio.h>

#define IN_Word 1
#define OUT_Word 0
#define INIT OUT_Word

int splite(char c){
    if  ((c==' ') || (c=='\n') || (c=='\t') || (c == '\"') || (c == '\'') || (c == '+')|| (c == '-')|| (c == ',')
        || (c == ';'))
        return 1;
    else
        return 0; 
}

int countWord(char* fileName){
    //定义初始状态
    int status=INIT;
    int count=0;

    //以只读方式打开文本
    FILE *file=fopen(fileName,"r");
    if (file == NULL) return -1;

    char c;
    //读取文本,判断处于何种状态
    while ((c = fgetc(file)) != EOF){
        if ( splite(c)){
            status=OUT_Word;  //处于单词之外,更新状态为OUT_Word
        }
        else if (OUT_Word==status){  
            //处于单词之内,更新状态为IN_Word。记录每次状态更新的次数(OUT -> IN),也就是单词个数
            status=IN_Word;
            count++;
        }
    }
    return count;
}

int main(int argc,char*argv[]){
    if (argc<2) return -1;
    printf("word:%d\n",countWord(argv[1]));
}

// int main(){
//     printf("word:%d\n",countWord("b.txt"));
// }

执行编译执行命令

gcc -o countWord countWord.c
./countWord b.txt

二、实现文件单词出现次数统计

#include<stdio.h>
#include<string.h>
#include<stdlib.h>

typedef struct{
	char str[50]; //单词最大长度设为50
	int cnt;//单词出现次数
}Str;

void countWordNum(char* fileName){
    char tmp[50]; 
	Str words[200]; //单词数量上限 
	int num=0;//实际单词数量 
	int i,j,neww=1;//neww标志位,判断是否为新单词 

	FILE *fp = fopen(fileName, "r");
	//fscanf从文件中获取单个字符串 
	while ( fscanf(fp,"%s",tmp)!=EOF ) {
		neww=1;
		for (i=0; i<num; i++) {
			//重复的单词 
			if ( strcmp(tmp, words[i].str)==0 ) {
				neww=0;
				words[i].cnt++;
			}
		}
		if (neww){
			// 复制字符串
			for (j=0; tmp[j]!='\0'; j++) {
				words[num].str[j] = tmp[j];
			}
			//单词末尾添加结束符 
			words[num].str[j] = '\0';
			// 新单词数量+1 
			words[num++].cnt = 1;
		}
	}
    printf("一共%d个不同的单词,每个单词出现次数如下:\n",num);
	for (int i=num-1; i>=0; i--) {
		printf("%-10s %2d\n", words[i].str, words[i].cnt);
	}
	fclose(fp);
}

int main(int argc,char*argv[]){
    if (argc<2) return -1;
    countWordNum(argv[1]);
}

// int main() {
//     countWordNum("b.txt");
// 	return 0;
// }

三、出现的问题

在linxu系统中,编写c语言程序我们需要使用到GCC编译器。但是当编译程序,出现如下错误
在这里插入图片描述
主要原因可能是因为修改软件下载源地址的时候没有考虑系统版本。选择了错误的系统版本,导致下载的gcc编译器不匹配。
解决办法如下:
1、查看系统代号
打开终端,输入下列命令:lsb_release -a,然后结果如下图
在这里插入图片描述
Codename的值 focal 即为系统代号。我们先暂时记录该系统代号。
2、检查源地址系统代号是否正确
在终端中输入:sudo vim /etc/apt/sources.list
在弹出的文本编辑器中,检查源地址中的系统代号是否与第一步中的代号一致。
一般出现上述错误都是这里出了问题。只要把它修改为自己的系统代号问题就可以解决了。
我这边都修改为了 xenial
在这里插入图片描述
3,在终端执行sudo apt-get update进行更新

4、配置完成后,卸载原来已经安装的gcc,然后重新安装就可以使用了。
sudo apt-get remove gcc
5、重新安装gcc
sudo apt-get install gcc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/543850.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

上海丨阿里云 Serverless 技术实战营邀你来玩!

活动简介 本次沙龙深度探讨 “Serverless 在中国企业的落地和开发者实操” 主题&#xff0c;我们特别邀请了来自阿里云一线技术专家&#xff0c;分享当前 Serverless 趋势和落地实践过程中的挑战和机遇&#xff1b;带来数据库 Serverless 技术架构及应用实践&#xff1b;浅析云…

地铁之家—车辆段

城市轨道交通列车也有一个家——车辆段&#xff0c;它通常由停车区、维修区和清洗区等组成&#xff0c;用于停放、维修保养。 一、地铁车辆段和停车场有何不同&#xff1f; 停车场在管理上一般附属于主要车辆段&#xff0c;规模较小&#xff0c;功能上可以实现车辆的运用管理…

如何进行MySQL漏洞扫描

MySQL是一款广泛使用的关系型数据库管理系统&#xff0c;但由于其复杂的结构和功能&#xff0c;也存在不少安全漏洞&#xff0c;容易被黑客攻击。为了解决这些安全问题&#xff0c;进行MySQL漏洞扫描是必要的。那么MySQL怎么进行漏洞扫描?如何进行漏洞扫描?接下来就让小编带大…

ChatGPT为什么能生成图片?

有小伙伴说我想用ChatGPT生成图片怎么操作&#xff0c;ChatGPT怎么画图等 这里阐明一下&#xff0c;ChatGPT是不能够做到画图的 因为它是一种自然语言处理模型&#xff0c;主要用于处理文本和语言相关的任务&#xff0c;例如问答、对话、翻译等。但是&#xff0c;我们可以使用C…

技术干货|如何利用 ChunJun 实现数据离线同步?

ChunJun 是⼀款稳定、易⽤、⾼效、批流⼀体的数据集成框架&#xff0c;基于计算引擎 Flink 实现多种异构数据源之间的数据同步与计算。ChunJun 可以把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中&#xff0c;从⽽为企业提供全⾯的数据共享&#xff0c;目前已在上…

针对电子企业的仓储需求,提出WMS仓储管理系统解决方案

随着电子行业的快速发展&#xff0c;仓储管理已经成为电子企业日常运营中不可或缺的一环。然而&#xff0c;由于缺乏有效的仓储管理系统&#xff0c;电子企业经常面临库存不准确、库存滞销等问题。这就是电子企业仓储管理面临的严重问题&#xff0c;引出了需要提出一套有效的仓…

【每日一题Day211】LC1079活字印刷 | 回溯 计数dp

活字印刷【LC1079】 你有一套活字字模 tiles&#xff0c;其中每个字模上都刻有一个字母 tiles[i]。返回你可以印出的非空字母序列的数目。 **注意&#xff1a;**本题中&#xff0c;每个活字字模只能使用一次。 我反正是写的相当暴力 计数回溯 思路&#xff1a; 为了构成不同的…

win10设置notepad++默认打开txt - 两步解决

第一步&#xff1a;Notepad注册.txt 以管理员的方式打开notepad 步骤&#xff1a;打开设置 -> 首选项 -> 文件关联 双击.txt .txt移动到注册框即可 第二步 设置Notepad默认打开 按照以下步骤将Notepad设置为默认打开.txt文件&#xff1a; 右键单击任何一个.txt文件…

车规级MCU芯片

作为车辆控制的核心器件&#xff0c;MCU主要用于车身控制、驾驶控制、信息娱乐和驾驶辅助系统。 8位MCU &#xff1a;提供低端控制功能:风扇控制、空调控制、雨刷、天窗、 车窗升降、低端仪表盘、集线盒、座椅控制、门控模块。 16位MCU &#xff1a;提供中端控制功能:用于动力…

生物信息学——用好源代码的技巧与心法

如果你是一名科研人员&#xff0c;在研究的过程中需要用到代码&#xff0c;那么你可能不需要像专业码农那样从头到尾一句一句去写完整的&#xff0c;而是可以将网上的一段符合应用场景的现成代码拿过来直接用。 这听起来是不是很简单&#xff1f;然而实际上... 目前&#xff0c…

Tuxera NTFS2023苹果电脑专用磁盘读写软件

Tuxera NTFS for Mac是苹果上专门的NTFS磁盘读写工具&#xff0c;帮助Mac用户解决苹果操作系统读写U盘、硬盘等NTFS格式分区的磁盘的困难。其实&#xff0c;最早读写NTFS软件是Tuxera NTFS-3G&#xff0c;但是当时是开源的&#xff08;直接让用户免费使用的&#xff09;&#x…

ubuntu1804替换系统的cups后,启动cups时报错 undefined symbol:_cupsMessageSave。。。

开发环境&#xff1a; Ubuntu18.04 cups-2.2.7 最终要将cups-2.2.7替换为cups-.2.3.3 好&#xff0c;在编译完cups后&#xff0c;对系统的cups进行替换&#xff0c;&#xff0c;此操作已完成。。。。 接下来&#xff0c;启动cups&#xff0c;发现启动失败。。 紧接着执行 jo…

《Java 核心技术面试》课程笔记(九)

对比 Hashtable、HashMap、TreeMap 有什么不同&#xff1f; 典型回答 Hashtable、HashMap、TreeMap 都是最常见的⼀些 Map 实现&#xff0c;是以键值对的形式存储和操作数据的容器类型。Hashtable 是早期 Java 类库提供的⼀个哈希表实现&#xff0c;本身是同步的&#xff0c;…

GE H201TI 全系统自检和自诊断

Hydran 201Ti是一个小型在线预警发射器。它永久安装在变压器上&#xff0c;将为工作人员提供各种故障气体复合值的单一ppm读数&#xff0c;以提醒他们潜在的问题。 可以下载该值&#xff0c;并且可以将警报设置在预定水平&#xff0c;以提醒人员并能够监控发展中的故障状况。 …

作为一位php程序员应具要有那些能力

最近&#xff0c;随着信息技术的发展&#xff0c;更多的人开始关注PHP程序员的职业发展&#xff0c;并渴望成为一名高薪稳定就业的PHP程序员。但是&#xff0c;想要成为一名优秀的PHP程序员&#xff0c;并不仅仅需要掌握PHP的语言基础&#xff0c;还需要具备其他的技能和能力。…

本地代码提交到gitee

提交步骤 注意&#xff1a;该步骤需要使用git工具&#xff0c;请提前下载 参考文章1&#xff1a;如何将本地代码上传到 gitee 该博客包含了gitee创建仓库流程 参考文章2&#xff1a;Git push命令报hint: Updates were rejected because the remote contains work that you do问…

【论文阅读笔记】Federated Unlearning with Knowledge Distillation

个人阅读笔记&#xff0c;如有错误欢迎指出 Arxiv 2022 [2201.09441] Federated Unlearning with Knowledge Distillation (arxiv.org) 问题&#xff1a; 法律要求客户端有随时要求将其贡献从训练中消除的权利 让全局模型忘记特定客户的贡献的一种简单方法是从头开始对模型进…

【机器视觉4】双目立体视觉标定

双目立体视觉标定的目的是标定左、右两个摄像机之间的坐标转换关系。 双目立体视觉的标定过程&#xff1a;采用MATLAB图像处理和计算机视觉库中的 Stereo Camera Calibrator(SCC)来标定双目立体视觉系统中左、右摄像机并获得左右摄像机的内参矩阵 M 1 M_1 M1​、 M 2 M_2 M2​…

Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学

Midjourney|文心一格prompt教程[技巧篇]&#xff1a;生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学 1.技巧一&#xff1a;临摹 我认为学习图片类的 prompt&#xff0c;跟学习画画是类似的&#xff0c;最好的学习方法不是直接用模板。…

【FMC155】2 路14-bit、500MSPS/1GSPS/1.25GSPS 直流耦合ADC 同步采集FMC 子卡模块(AD9680)中文资料

板卡概述 FMC155 是一款基于VITA57.1 标准的&#xff0c;实现2 路14-bit、500MSPS/1GSPS/1.25GSPS 直流耦合ADC 同步采集FMC 子卡模块。该模块遵循VITA57.1 规范&#xff0c;可直接与FPGA 载卡配合使用&#xff0c;板卡ADC 器件采用ADI 的AD9680 芯片&#xff0c;该芯片具有两…