数禾科技携手华为云GeminiDB,让RTA系统广告投放更精准
互联网存量时代,广告投放领域进入了精细化运营阶段,业务对投放人群选择的自动化和灵活性提出了更高的诉求。本期我们将深入探讨华为云GeminiDB如何解决数禾科技的RTA核心业务挑战,并支撑系统稳定运行超过两年,实现广告的精准投放。
什么是RTA?
RTA(Real-Time API)作为一种用于满足广告主个性化的投放需求的技术手段,其平台能够存储TB级用户画像数据,并能实时响应媒体推广平台的广告位投放请求。广告RTA基于广告平台提供的信息,结合画像数据库进行匹配决策,决定是否投放及报价,用于广告精准定向曝光。
数禾科技(全称“上海数禾信息科技有限公司”)成立于2015年8月,是由分众传媒、红杉资本、新浪等联合投资的金融科技企业。数禾科技以大数据和技术为驱动,为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个领域,提供营销获客、风险防控、运营管理等服务。
其中,数禾科技研发的RTA定向获客系统,利用海量数据打造高精确的用户特征画像,最大化地利用广告平台,实现精准的定向广告投放,提高了转化率。
图1 数禾科技RTA系统架构
图1是数禾科技RTA业务整体架构,一次精准广告投放可简要分为以下三个步骤:
步骤1
大数据平台根据自身分析数据及对接的多个第三方数据服务商进行综合建模,匹配每个活跃用户的多维度模型,分析得到目标用户的高精细融合特征数据画像,并将海量特征画像数据存入特征数据库,用以提供在线业务的高并发访问;
步骤2
RTA业务平台对接多个流量巨头媒体推广平台。用户浏览社交媒体时,各媒体推广平台发起广告请求,RTA业务与特征数据库实时交互,获取目标用户的特征画像信息,基于投放策略分析并竞价返回;
步骤3
媒体推广平台基于各广告主RTA业务平台返回的竞价结果,选择合适广告并精准投放给目标人群。
数禾科技的RTA业务系统具有海量数据、超高并发、低时延等特点,对存储海量用户特征数据的特征数据库带来了巨大的挑战。特征数据库要在控制成本的基础上,具备高稳定性和卓越性能,能够高效存储和处理海量用户特征数据,确保系统在高并发条件下依然保持快速响应和稳定运行,满足RTA业务的严苛要求。
在上云前,数禾科技RTA业务使用开源Redis集群作为特征数据库,随着近年来业务增长,其自建开源Redis集群在使用中遇到几个明显的痛点:
-
痛点1 海量用户特征数据,导入效率低
大数据平台生成的海量用户特征数据需要及时写入开源Redis中,以提高定向投放的精准性。采用Redis传统在线写入方式进行数据写入,为降低对在线访问请求的影响,生成的用户特征数据需要3-4天才能全量导入开源Redis中,效率低下。
-
痛点2 数据持续增长,成本逐渐膨胀
业务量的剧增和数据量不断膨胀,导致开源Redis的使用成本居高不下,急需一款成本可控的KV数据库。
-
痛点3 扩展性差,升配期间影响业务
开源Redis扩容操作意味着追加分片,涉及到数据的搬迁腾挪,不仅耗时久、影响业务,还带来极差的客户体验。另外,每次规格升配只能靠DBA熬夜支撑,可运维性弱。
-
痛点4 经常“被流控”,稳定性差,影响在线业务
超高并发的业务场景下,RTA业务对开源Redis中用户特征数据的超高并发访问带来了巨大的带宽消耗,而每个分片带宽小,会经常触发分片流控,导致业务受损。
图2 GeminiDB架构图
华为云GeminiDB是一款基于计算存储分离架构的分布式多模NoSQL数据库(如图2),提供KV(兼容Redis)、宽表(兼容Cassandra/DynamoDB/HBase)、时序(兼容InfluxDB)等流行引擎接口。其“存算分离”和“多模扩展”的架构设计,具备超高性能、海量存储、极致弹性和稳定可靠四大核心优势。
GeminiDB还提供诸多企业级特性,如支持秒级自动无感扩容、指定时间点原地PITR回档、跨Region容灾、增强的Hash类型(exHash)、离线快速大批量数据导入(FastLoad)等,极大地提升了产品性能。
针对数禾科技RTA业务在开源Redis使用中遇到的几个痛点问题,GeminiDB提供了完善的配套解决方案:
1. FastLoad企业级特性,提供海量数据导入的极致体验
开源Redis只能通过标准协议导入,导入速度慢。由于其单线程架构,在线业务运行期间进行批量数据导入时,会出现慢时延、分片不均、甚至OOM等问题,影响在线业务。
GeminiDB的FastLoad企业级特性,依托RTA业务场景大数据平台的高并发处理能力和自身存储引擎的数据编排能力,将海量数据高并发转换成数据库底层持久化文件,同时避开离散数据写入长链路,通过专属高速持久化通道直接将持久化文件导入存储引擎,实现数据的高效“归并”导入,并降低对其他业务的影响。
图3 GeminiDB FastLoad企业级特性与RTA场景
如图3所示,FastLoad特性可以高效应用在RTA等大数据写入业务场景中,对业务方代码无需适配改造,实现极速、高效的数据批量导入体验。目前GeminiDB FastLoad与数禾科技RTA业务正在深度合作中。
2. 强数据压缩比,存储成本节约30%+
GeminiDB提供强数据压缩能力,采用逻辑+物理块压缩技术,数据压缩比可达30%-50%,能够有效降低存储成本开销。
3. 支持自动扩容,对业务零干扰
采用业界领先的存算分离架构,GeminiDB将算力与数据存储解耦,计算节点和数据存储可独立扩容GeminiDB支持GB粒度的存储扩容能力,同时支持全自动扩容,无需人工干预,且扩容过程平滑无感,秒级完成,对业务零干扰。
4. 独享容器部署,分片带宽充足,零带宽顾虑
开源Redis的部署往往是多个租户共用一个容器,为降低租户间干扰,不得不对各个租户进行流控限制。分片的流控是常发生的现象,这会产生“木桶效应”,只有采用独立容器部署才能解决该问题。
GeminiDB每个分片都采用独立容器部署,分片带宽不受额外限制,独立容器带宽全部提供给业务程序使用。
数禾科技RTA业务平台与媒体推广平台深度合作,通过对媒体推广平台特征数据,与存储在GeminiDB的客户数据进行匹配分析,提高定向投放和筛选能力。
目前,数禾科技的RTA核心业务已经在华为云GeminiDB上平稳运行超过两年,日常QPS超过40万,业务平均时延控制在2ms以内。同时,运维和开发效率也得到显著提升。
后续双方将继续加强合作,通过不断创新和精进,提供更高效、更智能的解决方案,共同推动广告业务的创新发展。
本文作者:数禾科技周峰、姚俊光,华为云数据库GeminiDB团队
- 点赞
- 收藏
- 关注作者
评论(0)