redis 学习（14）-- HyperLogLog

HyperLogLog

什么是 HyperLogLog

HyperLogLog 是基于 HyperLogLog 算法的一种数据结构，该算法可以在极小空间完成独立数量统计。

在本质上还是字符串类型。

重要 API

命令	含义
pfadd key element1 [element2...]	向HyperLogLog中添加元素
pfcount key1 [key2...]	计算HyperLogLog的独立总数
pfmerge destKey key1 [key2...]	合并多个hyperLogLog到destKey中

演示

内存消耗

以百万独立用户为例

elements = ""
key = "2019_06_02:unique:ids"
for i in `seq 1 1000000`
do 
  elements = "${elements} uuid-"${i}
  if [[$((i%1000)) == 0 ]]
  then
    redis-cli pfadd ${key}${elements}
	elements = ""
  fi
 done

	内存消耗
1 天	15 KB
1 个月	450 KB
1 年	15KB * 365 = 5 MB

可以看到内存消耗是非常低的，比我们之前学过的 BitMap 还要低得多。

使用经验

Q：既然 HyperLogLog 那么好，那么是不是以后用这个来存储数据就行了呢？

A：这里要考虑两个因素：

hyperloglog 的错误率为：0.81%，存储的数据不能百分百准确。

hyperloglog 不能取出单条数据。api 中也没有相关操作。

如果你没有这两个方面的顾虑，那么用 HyperLogLog 来存储大规模数据，还是非常不错的。