- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

用户画像简介

Smy1121 发表于 2025/05/23 15:34:31 2025/05/23

【摘要】一、用户画像简介1.1 用户画像数据仓库是大数据体系的基石，用户画像是建立在数仓之上的一种应用，类似的应用还有商业智能，推荐系统等。一句话概念就是将用户信息标签化，以用户为中心，将各种各样的标签对应到其身上，一般表现为《人–标签–标签值》。通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据，进而对用户或者产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出...

一、用户画像简介
1.1 用户画像
数据仓库是大数据体系的基石，用户画像是建立在数仓之上的一种应用，类似的应用还有商业智能，推荐系统等。
一句话概念就是将用户信息标签化，以用户为中心，将各种各样的标签对应到其身上，一般表现为《人–标签–标签值》。

通过收集用户的社会属性、消费习惯、偏好特征等各个维度的数据，进而对用户或者产品特征属性进行刻画，并对这些特征进行分析、统计，挖掘潜在价值信息，从而抽象出用户的信息全貌。
1.2 定位

相对于数据仓库而言，用户画像属于“上层建筑”，以数据仓库沉淀的数据为基础，提炼出更有价值的信息。
同时用户画像也是一种数据服务，在它之上还有“更高的建筑”，比如推荐系统，营销系统、风控系统、用于广告投放的DMP系统等等。这些系统往往需要对用户进行识别定位，那么用户画像就是最重要的数据来源。
画像中心的数据全部来源于数仓，但是其又不能直接使用数仓，所以需要按照画像的标准，以用户为单位，将数据再次进行提炼、加工组合，形成以用户标签为中心的数据。
1.3 应用
画像数据的主要应用类型：
运营决策：了解用户群体，聚焦目标用户，定位产品方向。
精准营销：营销活动推送、广告投放、个性化推荐。
用户分群：寻找高价值用户，挽留待流失用户，提升用户活跃。
二、用户标签
2.1 标签分级
不同公司分级不同，最常见的为以下四级标签，又可以分为三种：

有的公司分为5级标签或者6级标签，不同在类目，5/6级标签的类目更加详细；
少数公司不分级，第一种称为标签的分类，第二种称为标签，第三种称为值。

2.2 标签分类
各个公司的标签分类都大差不差，分为以下三类：

统计类标签
统计类标签的规则放之四海皆准，每个公司的定义都差不多，如性别指的就是人的性别，不会有歧义，偏客观。
直接提取的标签，又叫事实标签。比如：性别，年龄，最近一次登录时间，月均消费，非常通用且明确的定义，是最为常见的标签。
规则类标签
规则类标签与统计类标签不同在于概念上的差别，技术上差不多，往往各个公司的业务人员根据公司的需求灵活定义，偏主观。

从程序员角度来说，统计类标签与规则类标签没有本质差别。
需要自定义规则：比如高价值用户、意见领袖、电子产品爱好者、黄牛党。
需要运营、产品、业务人员，根据企业自身的业务特征，设计适合自身的规则定义。往往同一个名称的标签，在不同企业的规则不同。

挖掘类标签
挖掘类标签是企业做用户画像的分水岭，通常来说，这个标签不是由人来制定规则，因为有些规则没有办法通过人类语言描述清楚，或者人类语言描述的不准确，尤其是预测相关的规则，规则随着时间的变化也在不停的变化。
一般通过机器学习算法进行预测的标签，叫预测类标签。比如预测性别、预测年龄、潜在流失用户。通常是很难根据某一个规则得到的标签，要机器学习通过系统现有的数据，反复迭代获得一个模型算法，再根据算法得到标签。
面临开发周期长，难度大，准确度不能保证。但是往往也是最有价值的标签，因为从数据得到的数据，有时往往比定死的规则更反映真实情况。

三、用户画像的架构
用户画像架构如图：

3.1 画像处理流程
画像处理流程主要是根据标签及整个流程的规则计算标签，把数据仓库中的数据进行重组。一般统计类和规则类标签使用hivesql、sparksql、flinksql，复杂的规则类标签和挖掘类标签要使用挖掘算法。
一个标准的ETL（清洗、转移、提取）流程，将数仓中的数据提取为以用户和标签为结构的数据，流程类似于数仓中的由ODS–DWD–DWS–DWT–ADS逐层计算的过程，与数仓不同的是，画像处理中不全是SQL，并且不只是用一个数据库。
数仓计算的最终结果如果数据量小一般存放在MySQL中，数据量大一般存放在Kylin，Presto，HBase等分布式数据库中。
3.2 画像标签数据应用
用户画像最终的计算结果一般存放在OLAP多维数据分析如Starrocks、ClickHouse中，目的主要有两个。
用户标签明细及分析：以用户的维度对数据进行统计分析。
用户分群：是画像最核心的需求，使用各种标签，通过标签的筛选，快速定位到目标群体。
画像提供了分群功能，所以要操作支持即席查询的OLAP，对标签及人群进行操作。
根据实际需要一般选择性能较好，支持即席查询的OLAP数据库，用于组合和多个条件来筛选用户。

3.3 用户画像管理平台
在画像管理平台提供可视化页面，对标签及标签产生的规则进行定义，甚至直接提供可视化开发页面。
提供后台调度系统，根据标签定义的规则，从数仓中抽取计算。
计算后的用户画像标签也由平台管理，通过标签的组合，把用户分成不同的群体，为其他业务系统提供支持。
四、用户标签如何开发
开发用户标签是构建智能推荐系统中的关键步骤之一。通过用户标签，可以更好地理解用户的行为和偏好，从而提供更加个性化的推荐。下面是一个详细的电商用户标签开发案例，包括标签的定义、用户数据的收集与处理、标签的关联和存储。

4.1 用户标签定义
首先，需要明确要为用户打哪些标签。标签应该能够反映用户的兴趣、行为习惯、人口统计学特征等。以下是一些常见的电商用户标签示例：

人口统计学标签
年龄
性别
地理位置（城市、省份）

行为标签
浏览频率
购买频率
最近一次购买时间
常购商品类别
偏好品牌
购买金额区间

兴趣标签
关注的品类（电子产品、服装、家居等）
搜索关键词
评论内容的情感倾向

互动标签
点击率
加入购物车次数
收藏次数
评价数量和评分
4.2 用户数据收集与处理
 数据收集
用户注册数据：包括年龄、性别、地理位置等。
用户行为数据：包括浏览记录、购买记录、搜索记录、点击记录、收藏记录等。
用户交互数据：包括评价、评论、反馈等。
数据处理
数据清洗：去除重复数据、填补缺失值、处理异常值。
数据转换：将原始数据转换为适合分析的格式。
数据整合：将来自不同来源的数据整合到一个统一的数据仓库中。

4.3 标签生成
4.3.1 人口统计学标签
直接从用户注册数据中提取。
示例：年龄、性别、地理位置。
4.3.2 行为标签
浏览频率：计算用户在一定时间段内的浏览次数。
购买频率：计算用户在一定时间段内的购买次数。
最近一次购买时间：记录用户最近一次购买的时间。
常购商品类别：通过购买记录分析用户常购的商品类别。
偏好品牌：通过购买记录分析用户偏好哪些品牌。
购买金额区间：根据购买金额划分不同的金额区间。
4.3.3 兴趣标签
关注的品类：通过浏览记录和购买记录分析用户关注的品类。
搜索关键词：通过搜索记录分析用户搜索的关键词。
评论内容的情感倾向：通过自然语言处理技术分析用户评论的情感倾向。
4.3.4 互动标签
点击率：计算用户点击商品的次数。
加入购物车次数：记录用户将商品加入购物车的次数。
收藏次数：记录用户收藏商品的次数。
评价数量和评分：记录用户发表的评价数量和评分。
4.4 标签关联与存储
标签关联
将生成的标签与用户ID关联起来，形成用户标签表。
CREATE TABLE user_tags (
user_id INT PRIMARY KEY,
age INT,
gender VARCHAR(10),
location VARCHAR(50),
browsing_frequency INT,
purchase_frequency INT,
last_purchase_date DATE,
favorite_categories TEXT,
preferred_brands TEXT,
purchase_amount_range VARCHAR(20),
interested_categories TEXT,
search_keywords TEXT,
comment_sentiment VARCHAR(20),
click_rate FLOAT,
add_to_cart_count INT,
favorite_count INT,
review_count INT,
average_rating FLOAT
);

数据存储
关系型数据库：如MySQL、PostgreSQL，适合结构化数据存储。
NoSQL数据库：如MongoDB、Cassandra，适合半结构化和非结构化数据存储。
数据仓库：如Hadoop HDFS、Starrocks、Clickhouse，适合大规模数据存储和分析。

假设我们已经收集并处理了用户数据，并生成了相应的标签。以下是如何将这些标签存储到关系型数据库中的示例：
INSERT INTO user_tags (user_id, age, gender, location, browsing_frequency, purchase_frequency, last_purchase_date, favorite_categories, preferred_brands, purchase_amount_range, interested_categories, search_keywords, comment_sentiment, click_rate, add_to_cart_count, favorite_count, review_count, average_rating)
VALUES
(1, 28, 'Male', 'Shanghai', 15, 3, '2023-10-01', 'Electronics, Clothing', 'Apple, Nike', '$100-$500', 'Electronics, Sports', 'iPhone, running shoes', 'Positive', 0.8, 5, 10, 2, 4.5),
(2, 35, 'Female', 'Beijing', 20, 5, '2023-09-15', 'Beauty, Home', 'Lancôme, IKEA', '$500-$1000', 'Beauty, Home Decor', 'lipstick, sofa', 'Neutral', 0.7, 8, 15, 3, 4.7);
4.5 标签更新与维护
定期更新：根据用户最新的行为数据定期更新标签。
动态调整：根据业务需求和市场变化动态调整标签体系。
监控与评估：监控标签的质量和推荐效果，评估标签的有效性。

五、数据存储
画像平台常见技术架构图，主要包括数据源层、存储层、服务层、应用层。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

用户画像简介

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

用户画像简介

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品