【Java数据结构】前K个高频单词

news2025/3/14 11:08:13

前K个高频单词

692. 前K个高频单词 - 力扣(LeetCode)

解决这个问题我们先得知道每个单词出现的次数,用map存储下来,然后将出现次数最多的通过建立小根堆解决top-K问题 ,重点是top-K的求取。

1.建立map 

首先我们可以先将这些单词的出现次数都通过map中的key和value记录下来。第一步先创建一个map

Map<String, Integer> map = new HashMap<>();

2.将单词以及单词出现的次数存储到map中

在这里需要注意第一次出现的单词,第一次出现的单词没有对应的value值就会返回一个空指针null,往后再出现就直接在value中加1即可。 

       for (String word : words){
            //为什么不直接在map的基础上加1呢?原因在于第一次记录某一个单词时get(word)会返回null(Integer类型的默认值就是null),如果为空就不能进行加1的操作并且报空指针异常
            //map.put(word, map.get(word)+1);

            //方法1,可以通过map中getOrDefault方法设置它的第一次出现
            //map.put(word, map.getOrDefault(word,0)+1);

            //方法2,通过if-else,当出现为空时,那就更新value值;不为空时就加1
            if (map.get(word) == null){//如果这个单词在之前遍历时没有出现过,那就
                map.put(word, 1);
            }else{
                map.put(word, map.get(word)+1);
            }
        }

3.建立小根堆

要得到单词次数最多的前K个,就需要建立小根堆(在之前的优先级对列中已经讲过),会用到PriorityQueue。 建立小根堆需要上传一个比较器,这个比较器是将

    //建立小根堆
    PriorityQueue<Map.Entry<String, Integer>> minHeap = new PriorityQueue<>(new Comparator<Map.Entry<String, Integer>>() {
        @Override
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
            return o1.getValue() - o2.getValue();
        }
    });

4.遍历map,依次加入堆中

现在我们想想,要将单词加入堆中,可能会出现k大于words中所有单词的个数,这样就可以直接把所有单词都加入堆中;

if (minHeap.size() < k){
    minHeap.offer(entry);
}

剩下一种可能就是k<=words.length(),对于这个情况来说每次加入一个单词都需要进行比较,比较的情况也很多种。下面仔细的讲一下如果比较,首先我们需要知道在这个堆中的堆顶元素top,当加入的单词频率与top相同时,需要把top出队,然后让字母小的进来;还有就是可能会出现频率比top的大的情况,这种情况也需要先出队然后再进队。

        else{
        Map.Entry<String, Integer> top = minHeap.peek();
        //频率相同时,也就是出现次数相同时
         if (top.getValue().compareTo(entry.getValue()) == 0){
             //字母小的先进来
             if(top.getKey().compareTo(entry.getKey()) > 0){
                //top的单词比进来的要大,所以top要出队,entry要进队
                 minHeap.poll();
                 minHeap.offer(entry);
             }
         }else{
             //
             if(top.getValue().compareTo(entry.getValue())<0){
                 minHeap.poll();
                 minHeap.offer(entry);
             }
         }

5.依次讲堆中的单词放进List<String>类型中

 List<String>类型,所以我们需要创建一个ArrayList类型的集合用于存放堆中单词,但是题目需要的是从大到小的单词频率,从堆中拿出来的是从小到大的,所以最后还需要逆序一遍顺序表。

    List<String> ret = new ArrayList<>();
    for (int i = 0; i < k; i++){
        Map.Entry<String, Integer> top = minHeap.poll();
        ret.add(top.getKey());
    }
    Collections.reverse(ret);
    return ret;

6.改进比较器

如果把以上全部代码放到在线OJ题中,会发现总有一个结过时不通过的。那为什么呢?主要在于如果k>所有单词的个数,那么在堆中就没有相同频率的比较,所以我们还需要在比较器中添加频率相同时需要建立一个大根堆。

    PriorityQueue<Map.Entry<String, Integer>> minHeap = new PriorityQueue<>(new Comparator<Map.Entry<String, Integer>>() {
        @Override
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
            //当字母频率相同时,按照字母建立大根堆
            if (o1.getValue().compareTo(o2.getValue()) == 0){
                return o2.getKey().compareTo(o1.getKey());
            }
            return o1.getValue() - o2.getValue();
        }
    });

以下是全部代码,大家可以参考一下哦~

public static List<String> topKFrequent(String[] words, int k) {//
        HashMap<String, Integer> map = new HashMap<>();
        for (String word : words){
            //为什么不直接在map的基础上加1呢?原因在于第一次记录某一个单词时get(word)会返回null(Integer类型的默认值就是null),
            //如果为空就不能进行加1的操作并且报空指针异常
            //map.put(word, map.get(word)+1);

            //方法1,可以通过map中getOrDefault方法设置它的第一次出现
            //map.put(word, map.getOrDefault(word,0)+1);

            //方法2,通过if-else,当出现为空时,那就更新value值;不为空时就加1
            if (map.get(word) == null){//如果这个单词在之前遍历时没有出现过,那就
                map.put(word, 1);
            }else{
                map.put(word, map.get(word)+1);
            }
        }
    //建立小根堆
    PriorityQueue<Map.Entry<String, Integer>> minHeap = new PriorityQueue<>(new Comparator<Map.Entry<String, Integer>>() {
        @Override
        public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
            //当字母频率相同时,按照字母建立大根堆
            if (o1.getValue().compareTo(o2.getValue()) == 0){
                return o2.getKey().compareTo(o1.getKey());
            }
            return o1.getValue() - o2.getValue();
        }
    });
        //遍历map,调整优先级队列
        for(Map.Entry<String, Integer> entry : map.entrySet()){
            if (minHeap.size() < k){
                minHeap.offer(entry);
        }
        else{
        Map.Entry<String, Integer> top = minHeap.peek();
        //频率相同时,也就是出现次数相同时
         if (top.getValue().compareTo(entry.getValue()) == 0){
             //字母小的先进来
             if(top.getKey().compareTo(entry.getKey()) > 0){
                //top的单词比进来的要大,所以top要出队,entry要进队
                 minHeap.poll();
                 minHeap.offer(entry);
             }
         }else{
             //
             if(top.getValue().compareTo(entry.getValue())<0){
                 minHeap.poll();
                 minHeap.offer(entry);
             }
         }
        }
        }

    List<String> ret = new ArrayList<>();
    for (int i = 0; i < k; i++){
        Map.Entry<String, Integer> top = minHeap.poll();
        ret.add(top.getKey());
    }
    Collections.reverse(ret);
    return ret;
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2311382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ubuntu20.04本地配置IsaacLab 4.5.0的训练环境(一)

Ubuntu20.04本地配置IsaacLab 4.5.0的训练环境&#xff08;一&#xff09; 配置conda虚拟环境&#xff08;对于这一步&#xff0c;个人感觉跟在配置IsaacLab那一节的./isaaclab.sh --install同样要执行这一步&#xff0c;建议先不执行&#xff09;配置IsaacSim配置IsaacLab 写在…

第二次CCF-CSP认证(含C++源码)

第二次CCF-CSP认证 第一道&#xff08;easy&#xff09;思路及AC代码 第二道&#xff08;easy&#xff09;基本思路及AC代码 第三道&#xff08;mid&#xff09;基本思路及AC代码solution 1 (模拟)solution 2&#xff08;KMP&#xff09; 第一道&#xff08;easy&#xff09; 题…

【项目】视频点播

一、项目介绍 1. 对视频点播系统的认识 搭建视频共享点播服务器&#xff0c;可以让所有人通过浏览器访问服务器&#xff0c;实现视频的上传查看&#xff0c;以及管理并播放的功能。主要是完成服务器端的程序业务功能的实现以及前端访问界面 html 的编写&#xff0c;能够支持客…

vue videojs使用canvas截取视频画面

前言 刚开始做的时候太多坑&#xff0c;导致一直报错&#xff1a; Uncaught (in promise) TypeError: Failed to execute ‘drawImage’ on ‘CanvasRenderingContext2D’: The provided value is not of type ‘(CSSImageValue or HTMLCanvasElement or HTMLImageElement or H…

uniapp+微信小程序+地图+传入多个标记点显示+点击打开内置地图导航+完整代码

一、效果展示 二、完整代码 <template><view class"container"><map class"map-container" :latitude"latitude" :longitude"longitude" :markers"markers" :controls"controls" show-location m…

摄像头应用编程(四):ARM Linux LCD实时预览UVC摄像头画面

文章目录 1、前言2、环境介绍3、步骤4、应用程序编写4.1、lcd初始化4.2、摄像头初始化4.3、jpeg解码4.4、开启摄像头4.5、完整的程序如下 5、测试5.1、编译应用程序5.2、运行应用程序 6、总结 1、前言 本次应用程序主要针对支持MJPEG格式输出的UVC摄像头。 2、环境介绍 rk35…

Linux下的c进程和java进程的通信-UnixSocket

1、开发c代码 引用的库 /usr/include c代码 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <sys/socket.h> #include <sys/un.h> #include <unistd.h>#define SOCKET_PATH "/tmp/my_socket"int mai…

音视频入门基础:RTP专题(15)——FFmpeg源码中,获取RTP的视频信息的实现

一、引言 通过FFmpeg命令可以获取到SDP文件描述的RTP流的视频压缩编码格式、色彩格式&#xff08;像素格式&#xff09;、分辨率、帧率信息&#xff1a; ffmpeg -protocol_whitelist "file,rtp,udp" -i XXX.sdp 本文以H.264为例讲述FFmpeg到底是从哪个地方获取到这…

【2025小白版】计算复试/保研机试模板(个人总结非GPT生成)附代码

一、编程语言选择 很多高校在机试中对编程语言都有明确规定&#xff0c;像复旦大学计算机学院就说明可选择 C、C 或 Java 语言答题&#xff0c;还支持 C11&#xff08;gcc5.4&#xff09;&#xff0c;C14&#xff08;g5.4&#xff09;&#xff0c;Java (openjdk1.8&#xff09…

aardio - 虚表 —— 两个虚表之间互相拖动交换数据

插入到虚表末尾的方法&#xff1a; import win.ui; import godking.vlistEx; /*DSG{{*/ mainForm win.form(text"vlistEx - table adapter";right849;bottom578;border"thin") mainForm.add( radiobutton{cls"radiobutton";text"移动&qu…

第一:goland安装

GOPROXY (会话临时性)&#xff0c;长久的可以在配置文件中配置 go env -w GOPROXYhttps://goproxy.cn,direct 长久的&#xff0c;在~/.bashrc文件中添加&#xff1a; export GOPROXYhttps://goproxy.cn,direct &#xff0d;&#xff0d;&#xff0d;&#xff0d;&#xff0d…

Dockerfile 深入浅出:从基础到进阶全解析

Dockerfile 深入浅出&#xff1a;从基础到进阶全解析 各位同学&#xff0c;大家好&#xff01;欢迎来到今天的 Dockerfile 课程。Docker 技术在当今的软件开发和部署领域可以说是非常热门&#xff0c;而 Dockerfile 作为构建 Docker 镜像的关键文件&#xff0c;掌握它对于我们…

Mybatis中的分页操作,如何使用PageHelper进行分页,以及Spring Boot整合Mybatis Plus分页

目的&#xff1a; 学会分页功能&#xff0c;学会分页方法 场景&#xff1a; 将下面的数据进行分页&#xff1a; 文章目录 Mybatis 单独使用分页&#xff08;没有整合&#xff09;1. PageHelper 插件 Spring Boot 整合 Mybatis Plus 使用分页1. selectPage 方法实现分页2. selec…

【网络安全】API安全防护完整指南

文章目录 API安全为什么 API 安全性重要?API 安全性与通用应用程序安全性的区别传统 Web 安全的主要特征API 安全的关键特征OWASP API 前 10 大安全威胁API1:2019 - 破坏对象级授权(Broken Object-Level Authorization)API2:2019 - 破坏用户身份验证(Broken User Authentic…

Docker 学习(四)——Dockerfile 创建镜像

Dockerfile是一个文本格式的配置文件&#xff0c;其内包含了一条条的指令(Instruction)&#xff0c;每一条指令构建一层&#xff0c;因此每一条指令的内容&#xff0c;就是描述该层应当如何构建。有了Dockerfile&#xff0c;当我们需要定制自己额外的需求时&#xff0c;只需在D…

本地部署 DeepSeek:从 Ollama 配置到 Spring Boot 集成

前言 随着人工智能技术的迅猛发展&#xff0c;越来越多的开发者希望在本地环境中部署和调用 AI 模型&#xff0c;以满足特定的业务需求。本文将详细介绍如何在本地环境中使用 Ollama 配置 DeepSeek 模型&#xff0c;并在 IntelliJ IDEA 中创建一个 Spring Boot 项目来调用该模型…

算法之 前缀和

文章目录 前缀和基础3427.变长子数组求和 前缀和与哈希表1524.和为奇数的子数组数目 距离和1685.有序数组中绝对值之和 前缀异或和1177.构建回文串检测 其他一维前缀和1310.子数组异或查询 二维前缀和1314.矩阵区域和 前缀和&#xff0c;就是定义pre[i] 为nums的前i个元素的和值…

机器视觉运动控制一体机在天地盖同步跟随贴合解决方案

市场应用背景 纸盒天地盖是一种包装形式&#xff0c;广泛应用于消费电子、食品礼盒、奢侈品及化妆品等领域。其采用高强度纸板&#xff0c;经过预组装处理&#xff0c;结构坚固稳定&#xff0c;能有效保护产品并提升品牌形象。随着包装行业快速发展&#xff0c;市场对天地盖的…

B站文生视频模型工程实践

1.前言 近年来&#xff0c;AI 内容生成&#xff08;AIGC&#xff09;领域的快速发展令人雀跃&#xff0c;OpenAI 在 2023 年初推出大型语言模型&#xff08;LLM&#xff09;GPT-4 受到了学术界和工业界的极大关注。OpenAI 随后在 2024 年初推出文生视频&#xff08;T2V&#xf…

嵌入式开发:傅里叶变换(5):基于STM32,实现CMSIS中的DSP库

目录 步骤 1&#xff1a;准备工作 步骤 2&#xff1a;创建 Keil 项目&#xff0c;并配置工程 步骤 3&#xff1a;在MDK工程上添加 CMSIS-DSP 库 步骤 5&#xff1a;编写代码 步骤 6&#xff1a;配置时钟和优化 步骤 7&#xff1a;调试与验证 步骤 8&#xff1a;优化和调…