HyperLogLog算法是法国人Philippe Flajolet 教授发明的一种基数计数概率算法,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基数。HyperLogLog 适用于大数据量的去重统计,HyperLogLog 提供不精确的去重计数方案,虽然不精确但是也不是非常不精确,标准误差是 0.81%, 因次成本相对来说是很低的,最多也就占用 12kb 内存,在 Redis 在 2.8.9 版本才添加了 HyperLogLog。
1.pfadd key element [element ]
添加成功影响基数估值则返回1否则返回0
pfadd keyword a b c d e f g
pfadd keyword e
2.pfcount key [key ]
统计key的基数值,返回值是一个带有 0.81% 标准错误(standard error)的近似值
pfcount keyword #a-g 7个
pfadd word c d e f g h i j k
pfcount word #c-k 9个
pfcount keyword word #a-k 11个
3.pfmerge destkey sourcekey [sourcekey]
取多个key的并集
127.0.0.1:6379> pfmerge keyword word #a-k
OK
127.0.0.1:6379> pfcount keyword
(integer) 11
4.总结
常用于允许容错的大数据量统计,如统计注册 IP 数,统计页面实时 UV 数,统计每日访问 IP 数,统计用户每天搜索不同词条的个数
统计在线用户数,统计PV 数…
UV(Unique visitor): 是指从00:00-24:00内相同的客户端的单次或者多次访问标记为一次访问。
PV(Page View):即页面浏览量或点击量,相同客户端的每次访问都会使得统计量+1.