【算法】LFU及其优化

news2025/1/19 23:13:17

文章目录

  • 什么是LFU?
  • 设计思路
  • 代码实现(基础版本)
  • 参考论文
  • 代码实现(优化版本)
  • 区别

什么是LFU?

LRU及其实现

上文讲解了LRU,他是一个基于最近是否被访问来做缓存淘汰的策略。
那么今天介绍一个新的,LFU (Least Frequently Used)最不经常使用。
即淘汰访问频率最低的元素。
LFU 和 LRU 的区别,LRU 的淘汰规则是基于访问时间,而 LFU 是基于访问次数。
其思想依据是:如果数据最近被访问过,那么将来被访问的几率也更高。

当然,如果直接存储的是访问的频次,那么很可能出现一个问题:缓存污染
首先,如果一个数据在早期比如初始化加载的时候,我们需要多次的访问,但是这个数据在初始化完毕之后几乎不会再被访问,但是由于一开始他的访问次数特别高,所以并不会被淘汰而是一直占用空间,那么就会导致无用数据一直占用缓存,也就是我们所谓的缓存污染。

那么为了解决这个问题,我们可以把访问时间也纳入为是否淘汰缓存的一个因素之一。
这个算法的名字叫做,LFU-Aging。

虽然LFU-Aging考虑时间因素,但其算法并不直接记录数据的访问时间,而是通过平均引用计数来标识时间。

LFU-Aging在LFU的基础上,增加了一个最大平均引用计数。当当前缓存中的数据“引用计数平均值”达到或者超过“最大平均引用计数”时,则将所有数据的引用计数都减少。减少的方法有多种,可以直接减为原来的一半,也可以减去固定的值等。(Redis的底层就考虑了这种算法)

设计思路

与LRU差不多,作为缓存淘汰策略,LFU也应该保证获取和放入数据的速度是极快的。
有了LRU的基础,我们就知道,为了快速的获取数据,我们可以使用HashMap,用其快速的get到某一个具体的key。

同时,LFU相比于LRU还需要保存一个访问的频次,那么很容易可以想到创建一个key-freq(访问频次)的HashMap。当然,如果真的这样子设计,那么我们需要遍历一整个HashMap才能得到那个访问频次最小的key,很明显不太合适。我们可以反转一下,freq-key,也就是访问频次对应一个key,当然,由于同一访问频次可能对应多个key,所以我们可以设定结构为freq-List

从上总结,我们可以得到如下设计思路:

1:使用一个HashMap存储key到value的映射,并且通过get(key)快速得到value。

2:使用一个HashMap存储key到freq的映射,就可以快速得到key对应的freq。
需要存储一个freq到key的映射,用来找到最小的freq对应的key。可能有多个key拥有相同的freq,所以freq对key是一对多的关系,即一个freq对应一个key的列表(List)。

3:freq对应的key的列表是存在时序的,便于快速查找并删除最旧的key。

4:能够快速删除key列表中的任何一个key,因为如果频次为freq的某个key被访问,那么它的频次就会变成freq+1,就应该从freq对应的key列表中删除,加到freq+1对应的key的列表中。

我们现在逐点分析设计思路:

1:存储真正的数据
我们的键可以设置为String类型,值对应的为Node类型。
之所以为Node类型是因为,在第二点中我们提到了,我们需要使用到List类型,也就是链表类型,这意味着,为了方便我们更快的在链表中插入和删除数据,同时删除Hash表中的数据,我们应该保证能从链表中也能获取到Key,所以这里使用的是Node<K,V>类型

2:存储访问的频率
上面分析我们得出,我们的key应该是频率freq,那么我们可以设定为一个Long/Integer类型。
而value我们设定为一个List< Node >类型。

3:为了保证时序,我们其实可以用链表来做到,在JDK1.8之后的HashMap中的链表,使用的是尾插法,那么头节点就是最旧的数据。

4:要求快速访问数据,并且要求能快速的插入和删除数据,很明显,可以使用LinkedHashSet。

代码实现(基础版本)

package com.base.learn.cache;

import org.junit.platform.commons.util.CollectionUtils;

import java.util.*;
import java.util.Map.Entry;

public class LFUCache<V> {

    private Map<String, Node<V>> cache = null;
    private Map<Long, LinkedHashSet<Node<V>>> countMap = null;
    private int capacity = 0;
    private int size = 0;

    public LFUCache(int capacity) {
        this.capacity = capacity;
        this.countMap = new HashMap<>();
        cache = new LinkedHashMap<>(capacity, 0.75f, true);
    }

    public V get(String key){
        Node<V> node = cache.get(key);
        if (node==null){
            return null;
        }
        node.count++;
        node.lastGetTime=System.nanoTime();
        cache.put(key,node);
        LinkedHashSet<Node<V>> set = countMap.get(node.count);
        if (set==null){
            set = new LinkedHashSet<>();
        }
        set.add(node);
        countMap.put(node.count,set);
        return node.value;
    }


    public void put(String key, V value) {
        size++;
        //更新操作
        if (cache.get(key) != null) {
            cache.remove(key);
            size--;
        }
        Node<V> node = new Node<V>();
        node.value = value;
        //由于是更新操作 把使用次数设定为1
        node.count = 1;
        node.lastGetTime = System.nanoTime();
        //判断是否还有空间存放
        if (size <= this.capacity) {
            cache.put(key, node);
        } else {
            //没有空间则移除那个访问频次最少的数据
            removeLastNode();
            if (cache.size() < this.capacity) {
                cache.put(key, node);
            }
        }

    }

    // 淘汰最少使用的缓存
    private void removeLastNode() {
        long minCount = 0; //最小的计数数
        long oldestGetTime = 0; //最老的获取时间
        String waitRemoveKey = null; //等待要删除的key
        long flag = 0; //表示当前遍历的数据的个数
        //首先获取到cache缓存中的所有节点
        //然后去记录了频次的链表中再去查找频次最低,访问时间最早的数据
        //然后删除这个数据
        Set<Entry<String, Node<V>>> cacheSet = this.cache.entrySet();
        LinkedHashSet<Entry<String, Node<V>>> linkedHashSet = new LinkedHashSet<>(cacheSet);
        Iterator<Entry<String, Node<V>>> iterator = linkedHashSet.iterator();
        while (iterator.hasNext()) {
            Entry<String, Node<V>> entry = iterator.next();
            flag++;
            String key = entry.getKey();
            long count = entry.getValue().count;
            long lastGetTime = entry.getValue().lastGetTime;
            //判断当前记录是否是第一条记录
            if (flag == 1) {
                minCount = count;
                waitRemoveKey = key;
                oldestGetTime = entry.getValue().lastGetTime;
                if (minCount == 1) { //是第一条记录并且访问次数为最少的1
                    break; //直接退出循环并且删除该数据
                }
            }
            //判断当前数据是否count数更小
            if (count < minCount) {
                minCount = count;
                waitRemoveKey = key;
                oldestGetTime = lastGetTime;
            }
            if (minCount == count) {//两条记录他们的访问次数一样
                //访问次数一样并且数据的访问时间更老
                if (oldestGetTime > lastGetTime) {
                    minCount = count;
                    waitRemoveKey = key;
                    oldestGetTime = lastGetTime;
                }
            }
        }
        //删除数据
        if (waitRemoveKey != null) {
            this.cache.remove(waitRemoveKey);
        }

    }

    class Node<V> {

        public V value;
        public long count;
        public long lastGetTime;

    }

    public static void main(String[] args) {
        LFUCache<Integer> cache = new LFUCache(2);
        cache.put("1", 1);
        cache.put("2", 2);
        cache.put("3", 3);
        //空间不足 剔除1 放入3
        System.out.println(cache.get("3"));
        System.out.println(cache.get("2"));
        //空间不足 此时有3 2 ,访问次数都为1,但是3的访问时间更久之前,剔除3
        cache.put("4", 4);
        System.out.println(cache.get("3"));
        System.out.println(cache.get("4"));
        System.out.println(cache.get("2"));
    }

}

参考论文

早期的LFU算法的实现是基于堆排序的,时间复杂度做不到O(1),后来有人提出了使用Hash+Set+链表的方式来优化,使得时间复杂度达到了O(1),下面是那篇论文。

论文链接

考虑一个HTTP协议的缓存网络代理应用程序。这种代理通常位于互联网和用户或一组用户之间。它确保所有用户都能够访问互联网,并能够共享所有可共享资源,以实现最佳的网络利用率和改进的响应性。
这样的缓存代理应该尝试在有限的存储或内存量中最大限度地缓存数据量。
通常,许多静态资源,如图像、CSS样式表和javascript代码,在被新版本取代之前,可以很容易地缓存相当长的时间。这些静态资源或程序员所说的“资产”几乎包含在每个页面中,因此缓存它们是最有益的,因为几乎每个请求都将需要它们。
此外,由于网络代理需要每秒处理数千个请求,因此这样做所需的开销应该保持在最低限度。
为此,它应该只驱逐那些不经常使用的资源。因此,应保留经常使用的资源,以牺牲不经常使用的资源为代价,因为前者在一段时间内已证明是有用的。当然,也有相反的观点认为,可能已经被广泛使用的资源在未来可能不再需要,但我们观察到,在大多数情况下,情况并非如此。例如,频繁使用的页面的静态资源总是由该页的每个用户请求。
因此,当内存不足时,这些缓存代理可以使用LFU缓存替换策略来驱逐其缓存中使用频率最低的项。
LRU在这里也可能是一种适用的策略,但是当请求模式是这样的,即所有请求的项都不适合缓存,并且以轮询方式请求这些项时,它将失败。在LRU的情况下,条目会不断地进入和离开缓存,而没有用户请求击中缓存。然而,在相同的条件下,LFU算法将执行得更好,大多数缓存项都会导致缓存命中。
LFU算法的病态行为并非不可能发生。在这里,我们并不是试图为LFU提供一个案例,而是试图表明,如果LFU是一种适用的策略,那么就有一种比以前发表的更好的方法来实现它。

LFU缓存支持的字典操作。
当我们谈到缓存清除算法时,我们主要需要关注对缓存数据的3种不同操作。

  • 在缓存中设置(或插入)项
  • 检索(或查找)缓存中的项;同时增加其使用计数(对于LFU)
  • 从缓存中取出(或删除)最不常用的(或根据取出算法的策略指定的)项

对于可以在LFU缓存上执行的每个字典操作(插入、查找和删除),所提出的LFU算法的运行时复杂度为O(1)。这是通过维护两个链表实现的:一个是访问频率,另一个是所有具有相同访问频率的元素。
哈希表用于按键访问元素(为了清晰起见,没有在下面的图中显示)。双链表用于将节点连接在一起,这些节点表示具有相同访问频率的一组节点(在下面的图中以矩形块表示)。

我们把这个双链表称为频率表。具有相同访问频率的这组节点实际上是这样的节点的双链表(如下图中的圆形节点所示)。我们将这个双链表(它是特定频率的本地链表)称为节点表。节点列表中的每个节点都有一个指向其在频率列表中的父节点的指针(为了清晰起见,没有在图中显示)。因此,节点x和y将有一个指向节点1的指针,节点z和a将有一个指向节点2的指针
依此类推……

在这里插入图片描述
下面的伪代码显示了如何初始化LFU缓存。用于按键定位元素的哈希表由变量key表示。为了简化实现,我们使用SET代替链表来存储具有相同访问频率的元素。
我们使用SET代替链表来保存具有相同访问频率的元素的键。它的插入、查找和删除运行时复杂度为O(1)。

代码实现(优化版本)

package com.base.learn.array;

import com.base.learn.cache.LFUCache;

import java.util.HashMap;
import java.util.LinkedHashSet;
import java.util.Map;

class LFUCachePlus {

    private int capacity; // 容量限制
    private int size;     // 当前数据个数
    private int minFreq;  // 当前最小频率

    private Map<Integer, Node> cache; // key和数据的映射
    private Map<Integer, LinkedHashSet<Node>> freqMap; // 数据频率和对应数据组成的链表

    public LFUCachePlus(int capacity) {
        this.capacity = capacity;
        this.size = 0;
        this.minFreq = 1;
        this.cache = new HashMap<>();
        this.freqMap = new HashMap<>();
    }

    public int get(int key) {

        Node node = cache.get(key);
        if (node == null) {
            return -1;
        }
	    // 增加数据的访问频率
        freqPlus(node);
        return node.value;
    }

    public void put(int key, int value) {

        if (capacity <= 0) {
            return;
        }

        Node node = cache.get(key);
        if (node != null) {
            // 如果存在则增加该数据的访问频次
            node.value = value;
            freqPlus(node);
        } else {
            // 淘汰数据
            eliminate();
            // 新增数据并放到数据频率为1的数据链表中
            Node newNode = new Node(key, value);
            cache.put(key, newNode);
            LinkedHashSet<Node> set = freqMap.get(1);
            //初始化频率链表
            if (set == null) {
                set = new LinkedHashSet<>();
                freqMap.put(1, set);
            }

            set.add(newNode);
            minFreq = 1;
            size++;
        }

    }

    private void eliminate() {

        if (size < capacity) {
            return;
        }

        LinkedHashSet<Node> set = freqMap.get(minFreq);
        //使用的是LinkedHashSet,有序,因此直接删除头节点
        //头节点就是最老的数据
        Node node = set.iterator().next();
        set.remove(node);
        cache.remove(node.key);

        size--;
    }

    private void freqPlus(Node node) {

        int frequency = node.frequency;
        LinkedHashSet<Node> oldSet = freqMap.get(frequency);
        //移除当前这个被获取到的节点
        oldSet.remove(node);

        // 更新最小数据频率
        if (minFreq == frequency && oldSet.isEmpty()) {
            minFreq++;
        }

        frequency++;
        node.frequency++;
        LinkedHashSet<Node> set = freqMap.get(frequency);
        if (set == null) {
            set = new LinkedHashSet<>();
            freqMap.put(frequency, set);
        }
        set.add(node);
    }
}

class Node {
    int key;
    int value;
    int frequency = 1;

    Node(int key, int value) {
        this.key = key;
        this.value = value;
    }

    public static void main(String[] args) {
        LFUCachePlus cache = new LFUCachePlus(2);
        cache.put(1, 1);
        cache.put(2, 2);
        cache.put(3, 3);
        //空间不足 剔除1 放入3
        System.out.println(cache.get(3));
        System.out.println(cache.get(2));
        //空间不足 此时有3 2 ,访问次数都为1,但是3的访问时间更久之前,剔除3
        cache.put(4, 4);
        System.out.println(cache.get(3));
        System.out.println(cache.get(4));
        System.out.println(cache.get(2));
    }
}

区别

LFU相比于LRU的优劣
区别:
LFU是基于访问频次的模式,而LRU是基于访问时间的模式。
优势:
在数据访问符合正态分布时,相比于LRU算法,LFU算法的缓存命中率会高一些。
劣势:

LFU的复杂度要比LRU更高一些。
需要维护数据的访问频次,每次访问都需要更新。
早期的数据相比于后期的数据更容易被缓存下来,导致后期的数据很难被缓存。
新加入缓存的数据很容易被剔除,像是缓存的末端发生“抖动”。

LFU算法优化
从上面的优劣分析中我们可以发现,优化LFU算法可以从下面几点入手:

更加紧凑的数据结构,避免维护访问频次的高消耗。
避免早期的热点数据一直占据缓存,即LFU算法也需有一些访问时间模式的特性。
消除缓存末端的抖动。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/575825.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Postman的简单使用:

1. Postman 1.1 背景 当前主流的开发模式为&#xff1a;前后端分离开发。 前端人员开发前端工程&#xff0c;后端人员开发后端工程&#xff0c;只需要依据这份接口文档即可。在后端开发过程中每开发完一个功能&#xff0c;就需要对这个功能接口进行测试&#xff0c;由于现在是…

图灵完备游戏:信号计数 解法记录

使用1个全加器 2个半加器完成。这关的思想主旨在于如何把输出4&#xff0c;输出2&#xff0c;输出1的情况统一在一根导线上。 首先用一个全加器来完成输入2-4这三个引脚的计数&#xff0c;因为全加器输出范围二进制是00 - 11&#xff0c;而输入正好有两个引脚数位是2和1&…

linux周六串讲

esc. //粘贴复制上一条命令的参数 cat /etc/resolv.conf //查看DNS地址 route -n //查看网关 hostname //临时修改主机名 hostnamectl set-hostname 名称 //永久修改主机名 ssh root192.168.10.233 //用windows远程的格式&#xff0c;在CMD窗口输入这个命令 …

MYSQL数据库测评及整改

1、查询数据库版本&#xff1a;select version(); 2、查询已安装的插件&#xff1a;show plugins; 3、查询插件安装的位置&#xff1a; show variables like "%plugin_dir%"; 4、查询用户&#xff1a;选择数据库&#xff1a; select host,user,plugin from user; 5、…

Read View 数据快照,在MVCC里是如何工作的?

Read View 数据快照&#xff0c;在MVCC里是如何工作的&#xff1f; Read View 有四个重要的字段&#xff1a; ● m_ids &#xff1a;指的是在创建 Read View 时&#xff0c;当前数据库中「活跃事务」的事务 id 列表&#xff0c;注意是一个列表&#xff0c;“活跃事务”指的就…

Seata术语

1.什么是Seata Seata是一款开源的分布式事务解决方案&#xff0c;致力于在微服务架构下提供高性能和简单易用的分布式事务服务。 官网 2.Seata能干嘛 一个典型的分布式事务过程 分布式事务处理过程的一ID三组件模型&#xff1a; Transaction ID XID 全局唯一的事务ID三组…

WSL2编译安卓8.1源码,直接运行模拟器

目录 WSL2编译安卓8.1源码&#xff0c;直接运行模拟器WSL2下载安装移动到非系统盘下载和编译Android8直接运行emulator修改模拟器配置源码导入Android Studio并进行调试断点调试总结 WSL2编译安卓8.1源码&#xff0c;直接运行模拟器 学习Android Framework开发&#xff0c;需要…

零基础CTF入门指南+工具

ctf入门指南 CTF工具包获取地址&#xff1a;http://www.ctftools.com/ 如何入门&#xff1f;如何组队&#xff1f; capture the flag 夺旗比赛 类型&#xff1a; Web 密码学 pwn 程序的逻辑分析&#xff0c;漏洞利用windows、linux、小型机等 misc 杂项&#xff0c;隐写&…

2023年电工杯选题人数发布

该选题人数&#xff0c;主要基于根据各个平台开赛后24小时各项数据统计&#xff0c;进行评估&#xff08;方法见注释&#xff09;&#xff0c;最终得出2023年认证杯二阶段选题人数&#xff0c;大致为 题号选题人数A97B431 注释&#xff1a;选题人数来源&#xff1a;源自各个平台…

Python案例:获取music榜单数据,保存自己的music库

目录 前言本次知识点:开发环境:代码展示括展小知识尾语 &#x1f49d; 前言 嗨喽~大家好呀&#xff0c;这里是魔王呐 ❤ ~! 本次知识点: 爬虫基本流程 requests的使用 正则表达式的使用 开发环境: 解释器: python 3.8 编辑器: pycharm 2022.3 专业版 第三方模块使用 r…

如何自学网络安全 才不会成为脚本小子?

前言&#xff1a;我们来看看怎么学才不会成为脚本小子 目录&#xff1a; 一&#xff0c;怎么入门&#xff1f; 1、Web 安全相关概念&#xff08;2 周&#xff09; 了解网络安全相关法律法规 熟悉基本概念&#xff08;SQL 注入、上传、XSS、CSRF、一句话木马等&#xff09;。…

基于three.js实现的点击盒子消除游戏

一.项目背景 大学时期参加了机器人协会&#xff0c;并有幸成为了视觉组组长&#xff0c;所以在新一届社团招新上做了一款趣味小游戏来吸引新生的眼球&#xff0c;让大家知道协会的视觉组。 二.代码展示 <!DOCTYPE html> <html> <head> <style> body…

chatgpt赋能python:Python文件名字替换-优化SEO的必备技巧

Python文件名字替换-优化SEO的必备技巧 作为一名有10年Python编程经验的工程师&#xff0c;我深知文件名字替换在优化搜索引擎排名中占有重要的地位。本文将介绍如何使用Python进行文件名字替换以优化SEO&#xff0c;旨在为广大编程初学者提供有益的参考和指导。 什么是文件名…

零基础如何学习 Web 安全?

Web安全不仅是互联网的核心&#xff0c;而且还是云计算和移动互联网的最佳载体。对于信息安全从业者而言&#xff0c;Web安全是一个非常重要的研究课题之一。 Web应用是指采用B/S架构、通过HTTP/HTTPS协议提供服务的统称。随着互联网的广泛使用&#xff0c;社交网络、聊天工具…

小学妹刚毕业没地方住想来借宿?于是我连夜用Python给她找了个好房子,我真是太机智了

前言 大家早好、午好、晚好吖 ❤ ~欢迎光临本文章 事情是这样的&#xff0c;小学妹刚毕业参加工作&#xff0c;人生地不熟的&#xff0c; 因为就在我附近上班&#xff0c;所以想找我借宿。。。 想什么呢&#xff0c;都不给住宿费&#xff0c;想免费住&#xff1f; 于是我用…

MySQL运维篇(二)

四.MyCat 4.1 MyCat概述 4.1.1 介绍 Mycat是开源的、活跃的、基于Java语言编写的数据库中间件。可以像使用mysql一样来使用 mycat&#xff0c;对于开发人员来说根本感觉不到mycat的存在。mycat不单只可以做MySQL的代理&#xff0c;其它常用的数据库也可以。 开发人员只需要…

基于springboot+Vue+ Element-Plus+mysql实现学生宿舍管理系统

基于springbootVue Element-Plusmysql实现学生宿舍管理系统 一、系统介绍二、功能展示1.登陆2、主页--学生3、主页--宿舍管理员4.学生管理--管理员5.宿管信息--管理员6.宿舍管理--管理员7.信息管理--管理员8.申请管理--管理员9.访客管理--管理员10.水电费管理--管理员11.卫生管…

AB Test数学原理及金融风控应用

1 什么是AB Test AB测试是一种常用的实验设计方法&#xff0c;用于比较两个或多个不同处理或策略的效果&#xff0c;以确定哪个处理或策略在某个指标上表现更好。在AB测试中&#xff0c;将随机选择一部分用户或样本&#xff0c;将其分为两个或多个组&#xff0c;每个组应用不同…

【Maven】单元测试、统计、覆盖率相关插件使用介绍

maven-surefire-plugin maven-surefire-plugin是maven执行单元测试的插件&#xff0c;不显性配置也可以直接使用。这个插件的surefire:test命令会默认绑定maven执行的test阶段。执行结束后&#xff0c;默认在target/surefire-reports目录下会生成txt和xml两种格式的结果&#…

接口测试-Mock测试方法

一、关于Mock测试 1、什么是Mock测试&#xff1f; Mock 测试就是在测试过程中&#xff0c;对于某些不容易构造&#xff08;如 HttpServletRequest 必须在Servlet 容器中才能构造出来&#xff09;或者不容易获取的比较复杂的对象&#xff08;如 JDBC 中的ResultSet 对象&#…