- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

PostgreSQL插件之hll

大象数据库发表于 2021/02/24 09:59:22 2021/02/24

【摘要】 HyperLogLog（hll）是一个用于计算集合中不重复的元素个数问题的算法，精确的计算需要与基数成比例的内存量，这对于非常大的数据集是不实际的。概率基数估算（如HyperLogLog算法）使用的内存要比这少得多，但代价是仅获得一个基数的近似值。

背景

在现实生活中，我们通常需要统计一个集合中不重复的元素个数。在数据库中通过使用如下的SQL语句进行精确统计：

CREATE TABLE tbl(id INT, a INT);
INSERT INTO tbl VALUES(1, 1), (2, 1), (3, 2), (4, 2), (5, 2), (6, 3);
SELECT COUNT(DISTINCT a) FROM tbl;
 count 
-------
     3
(1 row)

为了计算 count-distinct 通常使用哈希或者排序的方式计算不重复元素个数。但是，如果数据量比较大，哈希或者排序消耗的内存较大。HyperLogLog 是处理这个问题的一个概率算法，但是其消耗资源较少。

postgresql-hll插件引入了一个新的数据类型hll，它是一个HyperLogLog数据结构。下面对其使用进行详细介绍。

支持版本

PostgreSQL 12
PostgreSQL 11
PostgreSQL 10
PostgreSQL 9.6
PostgreSQL 9.5

安装

在华为云使用postgresql-hll，请参考：https://support.huaweicloud.com/usermanual-rds/rds_09_0043.html 进行安装和卸载。

使用

CREATE TABLE hll_tbl (
    id      integer,
    set     hll
);

--- 插入空的HLL
INSERT INTO hll_tbl(id, set) VALUES (1, hll_empty());

--- 增加一个被散列的整数值到HLL中
UPDATE hll_tbl SET set = hll_add(set, hll_hash_integer(12345)) WHERE id = 1;

--- 增加一个被散列的字符串到HLL中
UPDATE hll_tbl SET set = hll_add(set, hll_hash_text('hello world')) WHERE id = 1;

--- 计算HLL的基数
SELECT hll_cardinality(set) FROM hll_tbl WHERE id = 1;

数据仓库示例

我们假设有一个事实表，记录了用户对我的站点的访问、他们做了什么以及他们来自哪里。表中有上亿行数据，表扫描需要几分钟（或者至少需要很多秒）。

CREATE TABLE facts (
    date            date,
    user_id         integer,
    activity_type   smallint,
    referrer        varchar(255)
);

insert into facts select timestamp '2014-01-10 10:00:00' +
       random() * (timestamp '2021-01-20 20:00:00' - timestamp '2014-01-10 10:00:00'),
       generate_series(1, 10000000), 1, 'no use';

insert into facts select timestamp '2014-01-10 10:00:00' +
       random() * (timestamp '2021-01-20 20:00:00' - timestamp '2014-01-10 10:00:00'),
       generate_series(1, 10000000), 1, 'no use';

如果想快速（毫秒级别）知道每天有多少独立用户访问了站点，可以建立一个聚合表：

CREATE TABLE daily_uniques (
    date            date UNIQUE,
    users           hll
);

INSERT INTO daily_uniques(date, users)
    SELECT date, hll_add_agg(hll_hash_integer(user_id))
    FROM facts
    GROUP BY 1;

我们首先对user_id进行散列，然后按天将这些散列后的值聚合为一个hll。现在我们可以计算每天的hll基数：

SELECT date, hll_cardinality(users) FROM daily_uniques;

如果想要得到这周独立的用户访问数呢？

SELECT hll_cardinality(hll_union_agg(users)) 
	FROM daily_uniques 
	WHERE date >= '2012-01-02'::date AND date <= '2012-01-08'::date;

操作符

插件中已经添加了一些操作符，使用hll变得不那么冗长。它们是最常用函数的简单别名。

散列函数

hll_hash_boolean(boolean)
hll_hash_smallint(smallint)
hll_hash_integer(integer)
hll_hash_bigint(bigint)
hll_hash_bytea(bytea)
hll_hash_text(text)
hll_hash_any(any)

示例如下：

SELECT hll_hash_boolean(TRUE);
SELECT hll_hash_boolean(TRUE, 123/*hash seed*/);
SELECT hll_hash_smallint(4::smallint);
SELECT hll_hash_smallint(4::smallint, 123/*hash seed*/);
SELECT hll_hash_integer(21474836);
SELECT hll_hash_integer(21474836, 123/*hash seed*/);
SELECT hll_hash_bigint(223372036854775808);
SELECT hll_hash_bigint(223372036854775808, 123/*hash seed*/);
SELECT hll_hash_bytea(E'\\xDEADBEEF');
SELECT hll_hash_bytea(E'\\xDEADBEEF', 123/*hash seed*/);
SELECT hll_hash_text('foobar');
SELECT hll_hash_text('foobar', 123/*hash seed*/);

SELECT hll_hash_any(123);
SELECT hll_hash_any(123, 123/*hash seed*/);

注意：hll_hash_any会动态地分派给适当的特定类型的函数，这使得它比它包装的特定类型的函数要慢。只有在不知道输入类型时才使用它。

聚集函数

如果要从表或结果集中创建一个hll，请使用hll_add_agg。这里的命名并不是特别有创意：它是一个聚合函数，将值添加到空的hll中。

SELECT date, hll_add_agg(hll_hash_integer(user_id))
    FROM facts
    GROUP BY 1;

上面的示例将为每个包含每天用户的日期提供一个hll。如果您想汇总已经存储到单个hll中的一个hll列表，请使用hll_union_agg。再次说明：它是一个聚合函数，将值合并到一个空的hll中。

SELECT EXTRACT(MONTH FROM date), hll_cardinality(hll_union_agg(users))
    FROM daily_uniques
    GROUP BY 1;

窗口是hll功能的另一个主要例子。执行滑动窗口惟一计数通常涉及一些generate_series技巧，对于已经计算过的滑动窗口则非常简单。

SELECT date, #hll_union_agg(users) OVER seven_days
    FROM daily_uniques
    WINDOW seven_days AS (ORDER BY date ASC ROWS 6 PRECEDING);

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

PostgreSQL插件之hll

背景

支持版本

安装

使用

数据仓库示例

操作符

散列函数

聚集函数

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

PostgreSQL插件之hll

背景

支持版本

安装

使用

数据仓库示例

操作符

散列函数

聚集函数

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品