- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《大数据技术丛书Flink原理、实战与性能优化》—1.2.3　有状态流计算架构

华章计算机发表于 2019/06/01 22:12:01 2019/06/01

【摘要】本书摘自《大数据技术丛书Flink原理、实战与性能优化》一书中的第1章，第1.2.3节，编著是张利兵。

1.2.3　有状态流计算架构

数据产生的本质，其实是一条条真实存在的事件，前面提到的不同的架构其实都是在一定程度违背了这种本质，需要通过在一定时延的情况下对业务数据进行处理，然后得到基于业务数据统计的准确结果。实际上，基于流式计算技术局限性，我们很难在数据产生的过程中进行计算并直接产生统计结果，因为这不仅对系统有非常高的要求，还必须要满足高性能、高吞吐、低延时等众多目标。而有状态流计算架构（如图1-4所示）的提出，从一定程度上满足了企业的这种需求，企业基于实时的流式数据，维护所有计算过程的状态，所谓状态就是计算过程中产生的中间计算结果，每次计算新的数据进入到流式系统中都是基于中间状态结果的基础上进行运算，最终产生正确的统计结果。基于有状态计算的方式最大的优势是不需要将原始数据重新从外部存储中拿出来，从而进行全量计算，因为这种计算方式的代价可能是非常高的。从另一个角度讲，用户无须通过调度和协调各种批量计算工具，从数据仓库中获取数据统计结果，然后再落地存储，这些操作全部都可以基于流式计算完成，可以极大地减轻系统对其他框架的依赖，减少数据计算过程中的时间损耗以及硬件存储。

图1-4　有状态计算架构

如果计算的结果能保持一致，实时计算在很短的时间内统计出结果，批量计算则需要等待一定时间才能得出，相信大多数用户会更加倾向于选择使用有状态流进行大数据处理。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《大数据技术丛书Flink原理、实战与性能优化》—1.2.3　有状态流计算架构

1.2.3　有状态流计算架构

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《大数据技术丛书Flink原理、实战与性能优化》—1.2.3 有状态流计算架构

1.2.3 有状态流计算架构

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《大数据技术丛书Flink原理、实战与性能优化》—1.2.3　有状态流计算架构

1.2.3　有状态流计算架构