- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Flink 实时计算在微博的应用

bigdata张凯翔发表于 2021/05/27 00:17:43 2021/05/27

【摘要】 Flink 实时计算在微博的应用 https://zhuanlan.zhihu.com/p/375032985 Flink GitHub 地址 https://github.com/apache/flink 一、微博介绍二、数据计算平台介绍 1. 数据计算平台概况基于 K8s 和 Yarn 分别部署了实时数据处理的 Flink、Storm，以及用于离线处理的 SQL 服务。...

Flink 实时计算在微博的应用
https://zhuanlan.zhihu.com/p/375032985
Flink GitHub 地址
https://github.com/apache/flink

一、微博介绍
二、数据计算平台介绍
1. 数据计算平台概况
基于 K8s 和 Yarn 分别部署了实时数据处理的 Flink、Storm，以及用于离线处理的 SQL 服务。
结合 Hive 的 SQL，SparkSQL 构建一个 SQL 计算服务

 实时计算的作业将近 1000 多个，离线作业超过了 5000 多个，每天处理的数据量超过了 3 PB。
2. 数据计算 实时计算:也提供一些基础的 flink 实时计算和 storm 实时计算。 离线计算:离线计算主要包括 SQL 计算。主要包括 SQL 的即席查询、数据生成、数据查询和表管理。 表管理主要就是数仓的管理，包括表的元数据的管理，表的使用权限，还有表的上下游的血缘关系。
3. 实时特征 基于 Flink 和 Storm 构建了一个实时特征生成的服务
4. 流批一体 基于 FlinkSQL 构建的批流一体 目前调度层支持的计算引擎主要就是 HiveSQL，SparkSQL 跟 FlinkSQL。Hive 和 Spark 的 SQL 主要用于批量计算，FlinkSQL 是做批流混跑。
5. 数据仓库 建立实时数仓主要是去解决离线特征生成的周期长的问题 另外就是使用 FlinkSQL 去解决 streaming 作业开发周期比较长的问题。 其中的一个关键点还是离线数仓跟实时数仓的元数据的管理。

三、Flink 在数据计算平台的典型应用

流式机器学习
特征的实时化和模型的实时化
2.微博流式机器学习的特点：
3.流式机器学习有几个比较难的问题
4.流失机器学习流程
5.样本
6.样本平台
7.流式机器学习项目的样本 UI
8.流失机器学习的应用
多模态内容理解
1.简介
2.平台
3.UI
内容去重服务
1.背景
2.架构
3.应用
4.最后
我们通过将 Flink 实时流计算框架跟业务场景相结合，在平台化、服务化方面做了很大的工作，在开发效率、稳定性方面也做了很多优化。
我们通过模块化设计和平台化开发，提高开发效率。
目前实时数据计算平台自带全链路监控，数据指标统计和 debug case 追踪（日志回看）系统。另外，基于 FlinkSQL 在批流一体这块目前也有一定的应用。这些都是 Flink 给我们带来的一些新的变化，我们会持续不断的探索 Flink 在微博中更大的应用空间。

文章来源: www.jianshu.com，作者：百忍成金的虚竹，版权归原作者所有，如需转载，请联系作者。

原文链接：www.jianshu.com/p/50c5e4221233

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Flink 实时计算在微博的应用

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Flink 实时计算在微博的应用

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品