互联网用户画像,精准营销,GaussDB(DWS)来支招(Roaringbitmap)

举报
fudgefactor 发表于 2022/04/27 20:41:07 2022/04/27
【摘要】 通过GaussDB(DWS)的Roaringbitmap功能,实现用户画像,精准营销功能。

目前在互联网、教育、游戏等行业都有实时精准营销的需求。通过系统生成用户画像,在营销时通过条件组合筛选用户,快速提取目标群体。例如:

  • 在电商行业中,商家在进行营销活动前,需要根据活动的目的,圈选一批满足特定特征的目标用户群体进行广告推送。
  • 在教育行业中,需要根据学生不同的特征,推送有针对性的练习题目,帮助学生查漏补缺。
  • 在搜索、视频、门户网站中,根据用户关注的热点,推送不同的内容。

这些业务场景都有一些共同的特点:

  • 数据量庞大,运算量极大。
  • 用户规模庞大,标签多,字段多,占用存储空间也多。
  • 圈选的特征条件多样化,很难找到固定索引,如果每个字段一个索引,存储空间又会暴增。
  • 性能要求高,因为实时营销要求秒级响应。
  • 数据更新时效要求高,用户画像几乎要求实时更新。

针对上述业务场景特点,GaussDB(DWS)的roaringbitmap可以高效生成、压缩、解析位图数据,支持最常见的位图聚合操作(与、或、非、异或),满足用户在亿级以上用户、千万级标签的大数据量下实时精准营销、快速圈选用户的需求。

下面先通过两个示例来理解Roaringbitmap在用户画像场景中的使用方法。

示例一:

  假设有一张用户浏览网页的流水信息表userinfo,表中的字段如下:

CREATE TABLE userinfo
(userid int,
age int,
gender text,
salary int,
hobby  text
)with (orientation=column);

userinfo表中的数据会随着用户信息的变化不断增长,同时,如果用户有多个"爱好"(hobby),那么就有多条记录对应同一个userid。

假设要筛选出所有“收入大于10000元的男性,年龄大于30岁,爱好钓鱼”的群体,向这些目标群体推送特定的消息。

传统的方法是直接在原表上执行查询,语句如下:

select distinct userid from userinfo where salary > 10000 and age > 30 and gender ='m' and hobby ='fishing';

当userinfo表的数据量不大的时候,可以通过在salary, age, gender,hobby列上建立索引来满足需求。但是如果userinfo表的数据量非常大,同时一张表的标签数非常多(比如有100个属性,需要对应有100个列)的时候,上述语句就不能满足诉求,因为如下原因:

  • 由于不确定会按照那些属性做过滤,需要创建的索引会非常多。
  • 求distinct的性能比较差。

这种场景下使用roaringbitmap就会有比较好的效果。

  1. 新建一张Roaringbitmap表:
CREATE TABLE userinfoset
( age int,
gender text,
salary int,
hobby  text,
userset roaringbitmap,
PRIMARY KEY(age,gender,salary,hobby)
)with (orientation=column);

    2. 所有userinfo表中的数据要通过标签列聚合到userinfoset表中。可以采用对全量数据进行聚合的方法(如下命令所示)。

insert into userinfoset us
select age, gender, salary, hobby, rb_build_agg(userid)
from 
userinfo
group by age, gender, salary, hobby;

   3. 直接查询userinfoset表获得用户筛选信息。

select rb_iterate(rb_or_agg(userset)) from userinfoset where salary > 10000 and age > 30 and gender ='m' and hobby ='fishing';

数据进行聚合后的userinfoset的数据量相比源表小了很多,基表scan的性能会快很多,同时基于Roaringbitmap的优势,计算rb_or_agg和rb_iterate的性能也很好,相比传统的方法,性能明显提升。

示例二:

由于DWS规格的限制,每张表最大可以有1600列,如果描述用户的属性有10000个,我们无法通过创建一个有10000列的表来实现这个方案,那么示例一中的方案就不再有效了。
为此,我们可以这样设计我们的表结构:

create table userinfoset
(
    tag_value_id int,
    userset roaringbitmap
)with(orientation=column);

其中tag_value_id表示属性值对应的id,比如,性别这一属性,有”男“,”女“两个值,我们可以把它编码为1,2;学历这个属性的取值是”专科“,”本科“,”硕士“,“博士”,那么分别编码为3,4,5,6,等等。将不同的属性值编码为不同的id值。
userset列表示的是满足tag_value_id所对应属性值的用户id的集合。比如tag_value_id=1这条记录对应的userset就是所有性别为男的用户的集合。

数据加工:
这个表的数据一般是需要通过加工得到的,假设原始数据的表结构如下(一共有10张表):

create table origin_1 
(
userid int,
tag_value_id1 int,
tag_value_id2 int,
tag_value_id3 int,
...
tag_value_id998 int,
tag_value_id999 int,
tag_value_id1000 int
)with(orientation=column);
...

create table origin_10
(
userid int,
tag_value_id9001 int,
tag_value_id9002 int,
tag_value_id9003 int,
...
tag_value_id9998 int,
tag_value_id9999 int,
tag_value_id10000 int
)with(orientation=column);

我们可以通过类似以下的语句将数据加工到目标表中:

insert into userinfoset select
tag_value_id1,
rb_build_agg(userid) origin_1 from origin
group by tag_value_id1;
...
insert into userinfoset select
tag_value_id10000,
rb_build_agg(userid) origin_10 from origin
group by tag_value_id10000;

查询:
假设需要圈选性别为男,学历为本科的用户的的个数有哪些,可以用以下语句实现:

select rb_or_cardinality_agg(userset) from userinfoset where tag_value_id in (1,4);

如果用户要圈选的人群有更多的特征,将对应的tag_value_id加入到in子句中即可。
如果想要知道这些用户的具体的userid,可以通过如下函数实现:

select rb_iterate(userset)  from (select rb_or_cardinality_agg(userset) as userset from userinfoset where tag_value_id in (1,4));

可以通过查询产品手册实现更加多样化的人群圈选策略。

总结:

综上,我们了解了Roaringbitmap的常见的使用场景。同时Roaringbitmap类型支持行存和列存两种存储格式,在产品手册中也可以学习到更多相关的函数,操作,聚合函数以及他们的用法,通过这些函数和操作符,可以支持更加丰富客户场景。

希望通过此文,能够帮助您快速上手,通过Roaringbitmap相关接口,解决您在客户画像,互联网营销场景下的难题。

理论不如实践,那如何快速体验DWS呢?DWS现推出了一项Demo体验活动。进入DWS首页,点击“Demo体验”,快速便捷体验一把!

体验过程中有任何建议和意见,可以去DWS社区论坛反馈哦;)


华为伙伴暨开发者大会2022火热来袭,大会采用线上直播+线下80余个分会场联动的形式,聚焦伙伴和开发者最为关切的话题、释放更多潜力,携手伙伴共同成就。干货满满点击了解

1653276854096851418.jpg

【精彩活动】

勇往直前·做全能开发者→12场技术直播前瞻,8大技术宝典高能输出,还有代码密室、知识竞赛等多轮神秘任务等你来挑战。即刻闯关,开启终极大奖!戳【勇往直前】踏上全能开发者晋级之路吧!

【技术专题】

未来已来,2022技术探秘→聚焦华为各领域的前沿技术、重磅开源项目、创新应用实践。站在智能世界的入口,探索未来如何照进现实,干货满满点击了解

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。