前K个高频单词(Java详解)

news2024/11/27 18:39:23

一、题目描述

给定一个单词列表 words 和一个整数 k ,返回前 k 个出现次数最多的单词。

返回的答案应该按单词出现频率由高到低排序。如果不同的单词有相同出现频率, 按字典顺序 排序。

示例1:

输入: words = ["i", "love", "leetcode", "i", "love", "coding"], k = 2
输出: ["i", "love"]
解析: "i" 和 "love" 为出现次数最多的两个单词,均为2次。
    注意,按字母顺序 "i" 在 "love" 之前。

示例2:

输入: ["the", "day", "is", "sunny", "the", "the", "the", "sunny", "is", "is"], k = 4
输出: ["the", "is", "sunny", "day"]
解析: "the", "is", "sunny" 和 "day" 是出现次数最多的四个单词,
    出现次数依次为 4, 3, 2 和 1 次。

二、题解

题目分析:

题目要求我们找到前k个出现次数最多的单词,因此我们首先要统计每个单词出现的次数,再根据每个单词出现的次数找到前k个出现次数最多的单词

思路分析:

(1)统计每个单词出现的次数

如何统计每个单词出现的次数?

我们可以使用哈希表来统计单词出现的次数,遍历数组,若单词未出现过,则将其放入哈希表中,且次数为1;若单词已出现过,则将其次数+1

代码实现:

//统计单词出现次数
//创建哈希表
Map<String, Integer> map = new HashMap<>();
//遍历数组
for(String str: words){
    //若单词未出现过,则将其放入哈希表中,并将次数置为1
    if(map.get(str) == null){
        map.put(str,1);
    }else{
        //若单词已在哈希表中,则将其次数+1
        int val = map.get(str);
        map.put(str,val+1);
    }
}

(2)找出前k个出现次数最多的单词

如何找出前k个出现次数最多的单词?

我们可以创建一个大小为k的小根堆,来找出前k个出现次数最多的单词。遍历哈希表,若堆中的单词个数小于k,则将其放入小根堆中,但当堆中的单词数等于k时,就要判断是否需要更新小根堆中的元素。

由于我们创建的是小根堆,因此堆顶元素是最小的的,我们只需判断,当前遍历到的单词的出现次数是否比堆顶单词的出现次数大,

若当前单词的出现次数大于堆顶单词的出现次数,则将堆顶元素弹出,并将当前元素放入小根堆中;

若当前单词的出现次数小于堆顶单词的出现次数,则继续遍历;

由于题目要求:当有不同的单词有相同出现频率,按照字典顺序排序,因此在当前单词的出现次数等于堆顶单词的出现次数时,我们则需要根据单词的字母顺序来判断,若当前单词的字母顺序在堆顶单词之前,则将堆顶元素弹出,并将当前元素放入小根堆中;反之,则继续遍历。

堆中的单词个数始终为k个,在遍历完成后,堆中的元素即为前k个出现次数最多的单词

具体实现:

由于我们创建的是小根堆,从堆顶弹出的元素顺序是从小到大的,因此我们在将堆中的单词放入集合后,还需要将集合反转

然而,在上述情况中,我们只考虑了堆中元素大于k时,出现两个次数相同的单词,未考虑当堆中元素小于k时,出现两个次数相同的单词

若在堆中元素小于k时出现了两个次数相同的单词,我们则需要将单词字母顺序大的元素放在堆顶,即按照单词的字母顺序创建大根堆(字母顺序大的在上,字母顺序小的在下)

为什么要将单词字母顺序大的放在堆顶?

因为我们创建的是小根堆,在弹出堆顶元素进行比较时,应将字母顺序大的元素弹出,与当前元素进行比较,且在遍历完成后,弹出元素创建集合时,应先弹出字母顺序大的,后弹出字母顺序小的,这样,在反转集合后,才能得到正确的顺序

因此,我们在堆中元素小于k时,若两元素次数不相同,根据出现次数创建小根堆,若两元素次数相同,则根据单词的字母顺序创建大根堆

代码实现:

//找出前K个出现次数最多的单词
//创建小根堆
PriorityQueue<Map.Entry<String,Integer>> minHeap = new PriorityQueue<>(new Comparator<Map.Entry<String, Integer>>() {
    @Override
    public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
        //按照出现次数创建小根堆
        //若次数相同,则按照字典顺序创建大根堆
        if(o1.getValue().compareTo(o2.getValue()) == 0) {
            return o2.getKey().compareTo(o1.getKey());
        }
        return o1.getValue().compareTo(o2.getValue());
    }
});
//遍历map,将前k个高频单词放入小根堆
for(Map.Entry<String, Integer> entry: map.entrySet()){
    //若堆中元素小于k,将元素放入堆中
    if(minHeap.size() < k){
        minHeap.offer(entry);
    }else {
        //若堆中元素等于k,判断是否需要更新堆中元素
        Map.Entry<String, Integer> top = minHeap.peek();
        if(top.getValue().compareTo(entry.getValue()) < 0){
            minHeap.poll();
            minHeap.offer(entry);
        }else if(top.getValue().compareTo(entry.getValue()) == 0){
            if(top.getKey().compareTo(entry.getKey()) > 0){
                minHeap.poll();
                minHeap.offer(entry);
            }
        }
    }
}
//创建集合
List<String> ret = new ArrayList<>();
//将堆中元素弹出,并将单词放入集合中
for (int i = 0; i < k; i++) {
    Map.Entry<String, Integer> top = minHeap.poll();
    ret.add(top.getKey());
}
//反转集合
Collections.reverse(ret);

完整代码:

class Solution {
    public List<String> topKFrequent(String[] words, int k) {
        //统计单词出现次数
        //创建哈希表
        Map<String, Integer> map = new HashMap<>();
        //遍历数组
        for(String str: words){
            //若单词未出现过,则将其放入哈希表中,并将次数置为1
            if(map.get(str) == null){
                map.put(str,1);
            }else{
                //若单词已在哈希表中,则将其次数+1
                int val = map.get(str);
                map.put(str,val+1);
            }
        }
        //找出前K个出现次数最多的单词
        //创建小根堆
        PriorityQueue<Map.Entry<String,Integer>> minHeap = new PriorityQueue<>(new Comparator<Map.Entry<String, Integer>>() {
            @Override
            public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
                //按照出现次数创建小根堆
                //若次数相同,则按照字典顺序创建大根堆
                if(o1.getValue().compareTo(o2.getValue()) == 0) {
                    return o2.getKey().compareTo(o1.getKey());
                }
                return o1.getValue().compareTo(o2.getValue());
            }
        });
        //遍历map,将前k个高频单词放入小根堆
        for(Map.Entry<String, Integer> entry: map.entrySet()){
            //若堆中元素小于k,将元素放入堆中
            if(minHeap.size() < k){
                minHeap.offer(entry);
            }else {
                //若堆中元素等于k,判断是否需要更新堆中元素
                Map.Entry<String, Integer> top = minHeap.peek();
                if(top.getValue().compareTo(entry.getValue()) < 0){
                    minHeap.poll();
                    minHeap.offer(entry);
                }else if(top.getValue().compareTo(entry.getValue()) == 0){
                    if(top.getKey().compareTo(entry.getKey()) > 0){
                        minHeap.poll();
                        minHeap.offer(entry);
                    }
                }
            }
        }
        //创建集合
        List<String> ret = new ArrayList<>();
        //将堆中元素弹出,并将单词放入集合中
        for (int i = 0; i < k; i++) {
            Map.Entry<String, Integer> top = minHeap.poll();
            ret.add(top.getKey());
        }
        //反转集合
        Collections.reverse(ret);
        return ret;
    }
}

题目来自:

692. 前K个高频单词 - 力扣(LeetCode)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1170207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

curl(四)证书相关

一 证书相关 ① -k 1、客户端忽略服务端证书校验 -k | --insecure --> 单向[1]、这个选项显式地允许curl 执行不安全 的SSL连接和传输[2]、所有SSL连接都试图通过使用默认安装的CA证书捆绑包来确保安全[3]、这使得所有被认为是不安全的连接失败,除非使用-k --> 自签…

Android logd日志简介及典型案例分析

在程序开发过程中&#xff0c;日志打印属于最普遍的操作&#xff0c;是代码调试和验证过程必不可少的手段。在Android开发过程中&#xff0c;我们经常通过Log\Slog等方式写入日志&#xff0c;然后通过对应的logcat命令读取相应的日志信息。具体日志如何写入或者读出&#xff0c…

oracle查询数据库内全部的表名、列明、注释、数据类型、长度、精度等

Oracle查询数据库内全部的表名、列明、注释、数据类型、长度、精度 SELECT a.TABLE_NAME 表名, row_number() over(partition by a.TABLE_NAME order by a.COLUMN_NAME desc) 字段顺序,a.COLUMN_NAME 列名, b.COMMENTS 注释,a.DATA_TYPE 数据类型, a.DATA_LENGTH 长度,DATA_SC…

Linux高级命令(扩展)二

一、Linux下用户管理 1、用户概念以及基本作用 用户&#xff1a;指的是Linux操作系统中用于管理系统或者服务的人 一问&#xff1a;管理系统到底在管理什么&#xff1f; 答&#xff1a;Linux下一切皆文件&#xff0c;所以用户管理的是相应的文件 二问&#xff1a;如何管理…

SpringBoot集成Redis客户端

文章目录 Redis 的 Java 客户端Spring Data Redis 介绍Spring Data Redis 使用方式 Redis 的 Java 客户端 Redis 的 Java 客户端很多&#xff0c;常用的几种&#xff1a; JedisLettuceSpring Data Redis Spring Data Redis 介绍 Spring Data Redis 是 Spring 的一部分&…

跨境电商年底风控升级,测评养号如何选择稳定且纯净的IP环境?

随着年底跨境电商平台风控的升级&#xff0c;许多测评团队的账号存活率有所下降。对于自养号测评的卖家来说&#xff0c;IP的重要性不言而喻。除了设置参数阻断&#xff0c;IP的质量也直接影响到账户的稳定性和成功率。因此&#xff0c;在年底这个特殊时期&#xff0c;所有测评…

Kali Linux:网络与安全专家的终极武器

文章目录 一、Kali Linux 简介二、Kali Linux 的优势三、使用 Kali Linux 进行安全任务推荐阅读 ——《Kali Linux高级渗透测试》适读人群内容简介作者简介目录 Kali Linux&#xff1a;网络与安全专家的终极武器 Kali Linux&#xff0c;对于许多网络和安全专业人士来说&#x…

【APUE】并发 — 线程

目录 一、线程的概念 1.1 定义 1.2 POSIX 线程标准 1.3 线程标识 1.4 相关函数 1.5 一些补充 二、线程的创建、终止与取消 2.1 创建 2.2 终止 2.2.1 return 2.2.2 pthread_exit 2.3 取消 2.3.1 函数介绍 2.3.2 禁止线程被取消 2.3.3 线程取消方式 2.4 清…

第7章_单行函数

文章目录 1 函数的理解1.1 什么是函数1.2 不同DBMS函数的差异 2 数值函数2.1 基本函数2.2 角度与弧度2.3 三角函数2.4 指数函数、对数函数2.5 进制间的转换 3 字符串函数4 日期和时间函数4.1 获取日期、时间4.2 日期与时间戳的转换4.3 获取月份、星期、星期数、天数4.4 日期的操…

零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(二)

零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路&#xff08;二&#xff09;-关键基因集的获取和生存数据准备 前面的分析中&#xff0c;下载TCGA和GEO的数据&#xff0c;并进行简单的处理&#xff0c;接下来就是相关基因集的获取和整理&#xff0c;为后期聚类和降维做准…

[ element-ui:table ] 设置table中某些行数据禁止被选中,通过selectable 定义方法解决

业务需求&#xff1a;需要做到table表格中某些行数据不能被选中&#xff0c;比如在审核一些记录数据时&#xff0c;已经被审核的数据就不能再次提交审核&#xff0c;特别是批量多选的情况&#xff0c;列表中既有已经审核的&#xff0c;也有未审核的&#xff0c;只要求选中未审核…

USB Type-C reference circuit

1.OTG功能&#xff0c;只能对负载供电&#xff0c;不能从电脑端给板子供电 2. USB TTL作为usb串口&#xff0c;可以从电脑端给板子供电 3.USB Type-C power supply,仅仅用来从USB电源得到工作电压。但是外部电源供电电压must supply 12V or greater. 4.功能完整的USB3.0 T…

​实现1个电脑打开多个微信​

实现1个电脑打开多个微信&#xff1a;1、快速双击打开微信&#xff0c;可打开多个微信。2、按住回车键&#xff0c;双击打开微信&#xff0c;并快速放开回车键即可打开多个微信。3、用命令符也可打开多个微信。4、建立一个批处理文件实现打开多个微信。 方法一&#xff1a;最简…

飞书开发学习笔记(一)-应用创建和测试

飞书开发学习笔记(一)-应用创建和测试 一.前言 现在大企业用的办公IM软件中,飞书是口碑最好的&#xff0c;不得不说&#xff0c;字节在开发产品方面&#xff0c;确实有自己独到的竞争力&#xff0c;比如说抖音、头条、飞书。在办公会议和云文档的体验上&#xff0c;其它的办公…

[JavaWeb]——过滤器filter与拦截器Interceptor的使用、执行过程、区别

&#x1f308;键盘敲烂&#xff0c;年薪30万&#x1f308; 目录 一、过滤器filter 概念介绍&#xff1a; 过滤器的使用&#xff1a; 过滤器的执行流程&#xff1a; 应用场景(登录校验)&#xff1a; 二、拦截器Interceptor 概念介绍&#xff1a; 拦截器的使用&#xff1…

智慧建筑工地管理平台源码

智慧工地是聚焦工程施工现场&#xff0c;紧紧围绕人、机、料、法、环等关键要素&#xff0c;综合运用物联网、云计算、大数据、移动计算和智能设备等软硬件信息技术&#xff0c;与施工生产过程相融合。 智慧工地管理平台充分运用数字化技术&#xff0c;聚焦施工现场岗位一线&am…

生成带分表和水印的excel压缩文件

功能描述 将查询结果生成带分表和水印的excel压缩文件 功能点 1、将查询结果导出为excel文件 2、每个表格存放50万条数据&#xff0c;超过50万条数据&#xff0c;生成新的分表 3、生成的表格需要添加水印 4、将生成的全部分表&#xff0c;打包成zip压缩文件 引入依赖 <…

【鸿蒙软件开发】ArkUI之Column、ColumnSplit组件

文章目录 前言一、Column1.1 子组件1.2 接口参数 1.3 属性1.4 示例代码 二、ColumnSplit2.1 子组件2.2 接口2.3 属性2.4 示例代码 总结 前言 Column容器组件&#xff1a;沿垂直方向布局的容器。 ColumnSplit组件&#xff1a;将子组件纵向布局&#xff0c;并在每个子组件之间插…

迈巴赫S480升级主动式氛围灯 浪漫又婉转的气氛

主动式氛围灯有263个可多色渐变的LED光源&#xff0c;营造出全情沉浸的动态光影氛围。结合智能驾驶辅助系统&#xff0c;可在转向或检测到危险时&#xff0c;予以红色环境光提示&#xff0c;令光影艺术彰显智能魅力。配件有6个氛围灯&#xff0c;1个电脑模块。 1、气候&#x…

操作系统的线程模型

操作系统的线程调度有几个重要的概念&#xff1a; 调度器&#xff08;Thread Scheduler&#xff09;&#xff1a;内核通过操纵调度器对内核线程进行调度&#xff0c;并负责将线程的任务映射到各个处理器上内核线程&#xff08;Kernel Level Thread&#xff09;&#xff1a;简称…