用户画像简介
一、用户画像简介
1.1 用户画像
数据仓库是大数据体系的基石,用户画像是建立在数仓之上的一种应用,类似的应用还有商业智能,推荐系统等。
一句话概念就是将用户信息标签化,以用户为中心,将各种各样的标签对应到其身上,一般表现为《人–标签–标签值》。
通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据,进而对用户或者产品特征属性进行刻画,并对这些特征进行分析、统计,挖掘潜在价值信息,从而抽象出用户的信息全貌。
1.2 定位
相对于数据仓库而言,用户画像属于“上层建筑”,以数据仓库沉淀的数据为基础,提炼出更有价值的信息。
同时用户画像也是一种数据服务,在它之上还有“更高的建筑”,比如推荐系统,营销系统、风控系统、用于广告投放的DMP系统等等。这些系统往往需要对用户进行识别定位,那么用户画像就是最重要的数据来源。
画像中心的数据全部来源于数仓,但是其又不能直接使用数仓,所以需要按照画像的标准,以用户为单位,将数据再次进行提炼、加工组合,形成以用户标签为中心的数据。
1.3 应用
画像数据的主要应用类型:
运营决策:了解用户群体,聚焦目标用户,定位产品方向。
精准营销:营销活动推送、广告投放、个性化推荐。
用户分群:寻找高价值用户,挽留待流失用户,提升用户活跃。
二、用户标签
2.1 标签分级
不同公司分级不同,最常见的为以下四级标签,又可以分为三种:
有的公司分为5级标签或者6级标签,不同在类目,5/6级标签的类目更加详细;
少数公司不分级,第一种称为标签的分类,第二种称为标签,第三种称为值。
2.2 标签分类
各个公司的标签分类都大差不差,分为以下三类:
统计类标签
统计类标签的规则放之四海皆准,每个公司的定义都差不多,如性别指的就是人的性别,不会有歧义,偏客观。
直接提取的标签,又叫事实标签。比如:性别,年龄,最近一次登录时间,月均消费,非常通用且明确的定义,是最为常见的标签。
规则类标签
规则类标签与统计类标签不同在于概念上的差别,技术上差不多,往往各个公司的业务人员根据公司的需求灵活定义,偏主观。
从程序员角度来说,统计类标签与规则类标签没有本质差别。
需要自定义规则:比如高价值用户、意见领袖、电子产品爱好者、黄牛党。
需要运营、产品、业务人员,根据企业自身的业务特征,设计适合自身的规则定义。往往同一个名称的标签,在不同企业的规则不同。
挖掘类标签
挖掘类标签是企业做用户画像的分水岭,通常来说,这个标签不是由人来制定规则,因为有些规则没有办法通过人类语言描述清楚,或者人类语言描述的不准确,尤其是预测相关的规则,规则随着时间的变化也在不停的变化。
一般通过机器学习算法进行预测的标签,叫预测类标签。比如预测性别、预测年龄、潜在流失用户。通常是很难根据某一个规则得到的标签,要机器学习通过系统现有的数据,反复迭代获得一个模型算法,再根据算法得到标签。
面临开发周期长,难度大,准确度不能保证。但是往往也是最有价值的标签,因为从数据得到的数据,有时往往比定死的规则更反映真实情况。
三、用户画像的架构
用户画像架构如图:
3.1 画像处理流程
画像处理流程主要是根据标签及整个流程的规则计算标签,把数据仓库中的数据进行重组。一般统计类和规则类标签使用hivesql、sparksql、flinksql,复杂的规则类标签和挖掘类标签要使用挖掘算法。
一个标准的ETL(清洗、转移、提取)流程,将数仓中的数据提取为以用户和标签为结构的数据,流程类似于数仓中的由ODS–DWD–DWS–DWT–ADS逐层计算的过程,与数仓不同的是,画像处理中不全是SQL,并且不只是用一个数据库。
数仓计算的最终结果如果数据量小一般存放在MySQL中,数据量大一般存放在Kylin,Presto,HBase等分布式数据库中。
3.2 画像标签数据应用
用户画像最终的计算结果一般存放在OLAP多维数据分析如Starrocks、ClickHouse中,目的主要有两个。
用户标签明细及分析:以用户的维度对数据进行统计分析。
用户分群:是画像最核心的需求,使用各种标签,通过标签的筛选,快速定位到目标群体。
画像提供了分群功能,所以要操作支持即席查询的OLAP,对标签及人群进行操作。
根据实际需要一般选择性能较好,支持即席查询的OLAP数据库,用于组合和多个条件来筛选用户。
3.3 用户画像管理平台
在画像管理平台提供可视化页面,对标签及标签产生的规则进行定义,甚至直接提供可视化开发页面。
提供后台调度系统,根据标签定义的规则,从数仓中抽取计算。
计算后的用户画像标签也由平台管理,通过标签的组合,把用户分成不同的群体,为其他业务系统提供支持。
四、用户标签如何开发
开发用户标签是构建智能推荐系统中的关键步骤之一。通过用户标签,可以更好地理解用户的行为和偏好,从而提供更加个性化的推荐。下面是一个详细的电商用户标签开发案例,包括标签的定义、用户数据的收集与处理、标签的关联和存储。
4.1 用户标签定义
首先,需要明确要为用户打哪些标签。标签应该能够反映用户的兴趣、行为习惯、人口统计学特征等。以下是一些常见的电商用户标签示例:
人口统计学标签
年龄
性别
地理位置(城市、省份)
行为标签
浏览频率
购买频率
最近一次购买时间
常购商品类别
偏好品牌
购买金额区间
兴趣标签
关注的品类(电子产品、服装、家居等)
搜索关键词
评论内容的情感倾向
互动标签
点击率
加入购物车次数
收藏次数
评价数量和评分
4.2 用户数据收集与处理
数据收集
用户注册数据:包括年龄、性别、地理位置等。
用户行为数据:包括浏览记录、购买记录、搜索记录、点击记录、收藏记录等。
用户交互数据:包括评价、评论、反馈等。
数据处理
数据清洗:去除重复数据、填补缺失值、处理异常值。
数据转换:将原始数据转换为适合分析的格式。
数据整合:将来自不同来源的数据整合到一个统一的数据仓库中。
4.3 标签生成
4.3.1 人口统计学标签
直接从用户注册数据中提取。
示例:年龄、性别、地理位置。
4.3.2 行为标签
浏览频率:计算用户在一定时间段内的浏览次数。
购买频率:计算用户在一定时间段内的购买次数。
最近一次购买时间:记录用户最近一次购买的时间。
常购商品类别:通过购买记录分析用户常购的商品类别。
偏好品牌:通过购买记录分析用户偏好哪些品牌。
购买金额区间:根据购买金额划分不同的金额区间。
4.3.3 兴趣标签
关注的品类:通过浏览记录和购买记录分析用户关注的品类。
搜索关键词:通过搜索记录分析用户搜索的关键词。
评论内容的情感倾向:通过自然语言处理技术分析用户评论的情感倾向。
4.3.4 互动标签
点击率:计算用户点击商品的次数。
加入购物车次数:记录用户将商品加入购物车的次数。
收藏次数:记录用户收藏商品的次数。
评价数量和评分:记录用户发表的评价数量和评分。
4.4 标签关联与存储
标签关联
将生成的标签与用户ID关联起来,形成用户标签表。
CREATE TABLE user_tags (
user_id INT PRIMARY KEY,
age INT,
gender VARCHAR(10),
location VARCHAR(50),
browsing_frequency INT,
purchase_frequency INT,
last_purchase_date DATE,
favorite_categories TEXT,
preferred_brands TEXT,
purchase_amount_range VARCHAR(20),
interested_categories TEXT,
search_keywords TEXT,
comment_sentiment VARCHAR(20),
click_rate FLOAT,
add_to_cart_count INT,
favorite_count INT,
review_count INT,
average_rating FLOAT
);
数据存储
关系型数据库:如MySQL、PostgreSQL,适合结构化数据存储。
NoSQL数据库:如MongoDB、Cassandra,适合半结构化和非结构化数据存储。
数据仓库:如Hadoop HDFS、Starrocks、Clickhouse,适合大规模数据存储和分析。
假设我们已经收集并处理了用户数据,并生成了相应的标签。以下是如何将这些标签存储到关系型数据库中的示例:
INSERT INTO user_tags (user_id, age, gender, location, browsing_frequency, purchase_frequency, last_purchase_date, favorite_categories, preferred_brands, purchase_amount_range, interested_categories, search_keywords, comment_sentiment, click_rate, add_to_cart_count, favorite_count, review_count, average_rating)
VALUES
(1, 28, 'Male', 'Shanghai', 15, 3, '2023-10-01', 'Electronics, Clothing', 'Apple, Nike', '$100-$500', 'Electronics, Sports', 'iPhone, running shoes', 'Positive', 0.8, 5, 10, 2, 4.5),
(2, 35, 'Female', 'Beijing', 20, 5, '2023-09-15', 'Beauty, Home', 'Lancôme, IKEA', '$500-$1000', 'Beauty, Home Decor', 'lipstick, sofa', 'Neutral', 0.7, 8, 15, 3, 4.7);
4.5 标签更新与维护
定期更新:根据用户最新的行为数据定期更新标签。
动态调整:根据业务需求和市场变化动态调整标签体系。
监控与评估:监控标签的质量和推荐效果,评估标签的有效性。
五、数据存储
画像平台常见技术架构图,主要包括数据源层、存储层、服务层、应用层。
- 点赞
- 收藏
- 关注作者
评论(0)