基于 Redis 的 HyperLogLog 实现了 UV 的统计

news2024/9/21 16:34:27

文章目录

    • 前言
    • HyperLogLog 简介
    • HyperLogLog 的工作原理
    • 例子
    • 总结

前言

在现代网站开发中,用户行为分析是一个非常重要的环节。其中,UV(Unique Visitor,独立访客)PV(Page View,页面浏览量)是衡量网站流量用户活跃度的关键指标。UV 指的是通过互联网访问网站的自然人数量,通常一个用户在一定时间内的多次访问只计作一次;而 PV 则指的是用户访问网站的页面次数,无论是否来自同一用户,每次访问都会计入。

HyperLogLog 简介

HyperLogLog 是一种用于基数估计的概率性数据结构,可以高效地估算集合中唯一元素的数量(基数)。与传统的基数统计方法(如使用哈希集合)相比,HyperLogLog 能在使用极少内存的情况下提供相对高精度的基数估计。它特别适合在大数据和高并发的场景中使用,如网站的 UV(独立访客数)统计。

HyperLogLog 是一种高效的算法,用来估计集合中有多少个不同的元素

局限:

  • 误差:存在约 0.81% 的误差率,对于需要精确统计的场景不适用。
  • 不可取出原始数据:一旦元素被插入 HyperLogLog,就无法检索具体的元素,只能提供基数的估计。

HyperLogLog 的工作原理

哈希映射:HyperLogLog 使用哈希函数将每个输入元素转换成一个长整数(就像把名字转换成一个很长的号码),形成一串伪随机的二进制字符串。这样做的目的是为了确保所有元素被随机分布,而不是集中在某些地方。哈希函数的均匀性保证了每个元素有相同的概率被分配到任何一个位置。

前导零计数:对于每个哈希后的号码,HyperLogLog 会查看它的二进制表示(用 0 和 1 组成的串),并数出从左边开始有多少个连续的 0。前导零越多,说明这个元素在一个大范围内是很独特的。简单来说,前导零的数量间接反映了集合中有多少不同的元素。

分桶和调和平均:为了更准确地估计不同元素的数量,HyperLogLog 把这些哈希值分配到多个桶(想象成多个小盒子)。每个桶会记录它见到的哈希值中最多前导零的数量。然后,HyperLogLog 会用一种叫做“调和平均”的数学方法来综合所有桶的信息,从而估算出不同元素的总数。

误差控制:虽然 HyperLogLog 使用的是一种概率算法(不是完全精确),但它的误差率非常小,大约只有 0.81%。在大多数实际应用中,比如统计网站的独立访客数量(UV),这个误差是可以接受的。同时,相比于传统方法,HyperLogLog 只需要很少的内存,就可以处理非常多的数据。

例子

注解

@TrackPageView 注解可以加在控制器(Controller)的方法上,用于指定需要统计 PV 和 UV 的页面或模块。通过在 Controller 方法上使用这个注解,AOP 切面可以拦截请求,自动进行页面访问的统计。

@Target({ ElementType.PARAMETER, ElementType.METHOD })
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface TrackPageView {
    String pageName() default ""; // 用于指定页面或模块的名称
}

切面类

@Component
@Aspect
public class SysAspect {

    @Autowired
    private StatisticsService statisticsService;

    @Pointcut("@annotation(com.example.hac.annotation.TrackPageView)")
    private void pointcut() {}

    @Around("pointcut()")
    public Object around(ProceedingJoinPoint joinPoint) throws Throwable {
        // 继续执行原始方法
        Object result = joinPoint.proceed();

        // 获取切入点方法的签名
        MethodSignature signature = (MethodSignature) joinPoint.getSignature();
        Method method = signature.getMethod();

        // 从方法中获取 TrackPageView 注解
        TrackPageView trackPageView = method.getAnnotation(TrackPageView.class);

        if (trackPageView != null) {
            String userId = UserContext.getUser();
            String pageName = trackPageView.pageName(); // 获取注解中的页面名称

            // 记录 PV 和 UV
            statisticsService.recordPageView(userId, pageName);
        }

        return result;
    }
}

redis统计

@Ser**加粗样式**vice
public class StatisticsService {

    @Autowired
    private StringRedisTemplate redisTemplate;

    private static final String UV_KEY_PREFIX = "uv:";
    private static final String PV_KEY_PREFIX = "pv:";

    public void recordPageView(String userId, String pageName) {
        String pvKey = PV_KEY_PREFIX + pageName;
        String uvKey = UV_KEY_PREFIX + pageName;

        // 记录 PV
        redisTemplate.opsForValue().increment(pvKey, 1);

        // 记录 UV(使用 HyperLogLog 统计唯一用户)
        redisTemplate.opsForHyperLogLog().add(uvKey, userId);
    }

    public long getPageViews(String pageName) {
        String pvKey = PV_KEY_PREFIX + pageName;
        String pvCount = redisTemplate.opsForValue().get(pvKey);
        return pvCount != null ? Long.parseLong(pvCount) : 0;
    }

    public long getUniqueVisitors(String pageName) {
        String uvKey = UV_KEY_PREFIX + pageName;
        return redisTemplate.opsForHyperLogLog().size(uvKey);
    }
}

ps: 可以通过修改 Redis 的 key 来按时间单位(例如每天)统计数据。每天的数据可以定时同步到数据库中,以便持久化和后续分析。当需要查看历史统计数据时,可以直接从数据库中查询。

使用:

@RestController
@RequestMapping(value = "/api")
public class TestController {
    @Autowired
    public TestService service;

    @TrackPageView(pageName = "home")
    @GetMapping(value = "/test")
    public int test() {
        return service.test();
    }
}

结果:
在这里插入图片描述

我登录访问了两次,所以pv为2,同一个用户,所以uv为1
在这里插入图片描述

总结

为了有效地统计网站的访问情况,我们可以使用 Redis 提供的 HyperLogLog 数据结构来统计 UV(独立访客数),并使用 Redis 的 String 类型来统计 PV(页面访问次数)。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2082161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

10 Java数据结构(下):集合进阶之Map(双列集合)系列:

文章目录 前言一、 Map(双列集合)接口1 常用方法2 遍历方式(1)使用map.keySet()方法(2)使用map.entrySet()方法(3)lambda表达式遍历(这个最简单)3 实现类:HashMap、LinkedHashMap、TreeMap(1)HashMap---- HashMap的特点---- HashMap的底层原理---- 特别注意:自定义…

Spring之SpringSecurity

SpringSecurity相关 一、SpringSecurity简介二、SpringSecurity主要功能三、SpringSecurity的Maven依赖四、Security本质:过滤器链五、用户认证1、根据用户实体,封装一个UserDetails实体对象LoginUser类2、自定义UserDetailsService接口的实现 一、Sprin…

[笔记]基于小波分析的基频识别

原文:基于小波分析的油田机械传动装置振动信号识别方法,科技资讯,202305,赵磊 摘要:为提高油田机械设备运行的稳定性与高效性,分析传动装置的运行特性该研究设计了一种基于小波分析的油田传动装置振动信号识别方法。应…

企业选择软件测试外包公司有什么好处软件测评服务公司推荐

软件测试外包公司是专门为企业提供软件测试服务的第三方机构,帮助企业提高软件质量,降低开发和维护成本。以卓码软件测评为例,公司致力于为客户提供全面的软件测试解决方案,包括项目验收测试、软件确认测试、安全测试、性能测试和…

[HZNUCTF 2023 preliminary]ppppop

[HZNUCTF 2023 preliminary]ppppop 点进去之后是一片空白 接着我们打开HackBar 然后我们看到cookie里面有一个base64编码: Tzo0OiJVc2VyIjoxOntzOjc6ImlzQWRtaW4iO2I6MDt9利用在线工具解码得到: O:4:"User":1:{s:7:"isAdmin";b:…

FreeRTOS实战项目CRTP协议移植(实现使用串口传输数据包)

文章目录 一、CRTP 协议①协议层次②端口分配 二、实现串口收发数据包2.1 数据包格式:2.2 如何传递数据包 三、CRTP处理数据过程3.1 CRTP处理数据流程示例:3.2 添加CRPT基本功能①链路初始化函数② CRTP层初始化③创建底层任务代码④ping服务⑤ 上机实验…

宝兰德多款仓颉开源项目获GitCode官方G-Star毕业认证,释放开发效率新动能

近日,由宝兰德基于仓颉编程语言开发的项目「Cangjie-TPC/redis-sdk」「Cangjie-TPC/hyperion」入驻GitCode平台,并获得GitCode官方优秀毕业项目认证,成为G-Star计划的一员,标志着宝兰德与GitCode将携手开启软件研发新纪元&#xf…

变频器会干扰补偿电容器正常工作吗

变频器(VFD,Variable Frequency Drive)可能会对补偿电容器的正常工作产生干扰。变频器工作时产生的谐波、快速开关操作和高频噪声都可能影响电容器的性能。 一、以下是变频器对补偿电容器可能产生的一些影响: 1、谐波干扰 谐波生…

JS基础之【基本数据类型与类型间的隐式显示转换】

🚀 个人简介:某大型国企高级前端开发工程师,7年研发经验,信息系统项目管理师、CSDN优质创作者、阿里云专家博主,华为云云享专家,分享前端后端相关技术与工作常见问题~ 💟 作 者:码…

【Linux】初步识操作系统

linux专栏:《Linux入门系列》 系列文章:gdb-调试器初入门(简单版使用) 编辑器vim入门(概念模式转换技巧) 目录 1. 概念 2. 设计操作系统的目的 3. 定位:操作系统负责管理 4. 如何理解管理 …

Linux 数据结构 链表

1.段错误调试方法: 1.按照网上的方法配置Ubuntu,允许生成core文件 2.重新编译代码并加入-g选项(允许进行GDB调试) 3.ulimit -c unlimited 不限制core文件的生成的大小 4.执行代码,复现段错误,产生包含出错信息的core文件(检查cor…

呼叫系统怎么使用提高安全性

呼叫中心提高使用的安全性是一个综合性的任务,涉及技术、管理、人员等多个方面。以下是一些关键措施,旨在提升呼叫中心的安全性: 一、加强技术防护 1.数据加密:采用先进的加密技术对通话内容和数据传输进行加密,如使用…

浙大联合港中深发布AI医疗最新报告,全面审视「虚拟现实+人工智能」

想象一下,医生在手术前,通过虚拟现实技术,能够身临其境地预演手术过程,精确到每一个细节;患者则可以在VR环境中进行心理治疗,减轻焦虑与恐惧。 这一切,都得益于AI与VR的强强联手。 医学视觉增强…

今日分享丨微服务架构下查询数据缓存策略

引言 随着企业业务规模的扩大和复杂度的提升,微服务架构因其高可用性、可扩展性和易于维护的特性,逐渐成为现代软件开发的首选架构模式。然而,微服务架构带来的分布式特性也增加了数据访问的复杂性和延迟。特别是业务查询领域,一…

HIS系统成品|HIS系统搭建|医院HIS系统开发

在医疗信息化的浪潮中,医院信息系统(HIS)的开发功能分析成为关键。本文将探讨如何通过功能分析构建一个高效、智能的HIS系统,以满足现代医院的需求,并提升医疗服务质量。 1、HIS系统功能分析的必要性 在医疗行业中&am…

基于java的进销存管理系统设计与实现

需求分析 进销存主要是帮助商业企业全面有效管理采购、销售和库存,软件适用于需要进行采购管理,销售管理以及库存管理的所有商业企业。 进销存系统的产生和发展情况 进销存软件是一款通用性极强的商业企业进销存管理系统,软件囊括了商业企业…

第六届机器人与智能制造技术国际会议 (ISRIMT 2024)

重要信息 大会官网:www.isrimt.org(点击了解大会,参会,投稿等信息) 大会时间:2024年9月20-22日 大会地点:中国-江苏常州 收录检索:IEEE Xplore, EI Compendex, Scopus 大会简介…

航空公司名字趣史:看看有趣又有意义的命名背后有什么玄机

上周“东海航空”事件引发了东方航空在社交媒体上的一系列被迫营业,因为媒体的乌龙报道误将“东海航空”简称为“东航”,甚至直接用错了图片。众号:标猿公司起名 给公司起个好名字 其实除了大部分以地域、国家命名的航空公司,还…

Java 8 Optional用法【总结记录】

一、前言 这里引用书中描述来介绍Optional类: Optional是为核心类库设计的一个数据类型,用来替换null值。人们对原有的null值有很多抱怨,甚至连发明这一概念的Tony Hoare也是如此,他曾说这是自己的一个“价值连城的错误”。作为一…

cad导出图片格式怎么导出?5个软件帮助你快速转换文件格式

cad导出图片格式怎么导出?5个软件帮助你快速转换文件格式 将CAD文件导出为图片格式可以帮助你更方便地展示、分享或打印设计图纸。CAD(Computer-Aided Design)文件通常以DWG或DXF格式保存,而要将它们转换为常见的图片格式&#x…