【云小课】EI第44课 MRS基础原理之Flink组件介绍

举报
Hello EI 发表于 2022/05/31 09:44:51 2022/05/31
【摘要】 Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。

Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。

Flink最适合的应用场景是低时延的数据处理(Data Processing)场景:高并发pipeline处理数据,时延毫秒级,且兼具可靠性。

本课程为您介绍华为云MapReduce服务中Flink服务的基本原理介绍并展示如何通过MRS集群客户端提交Flink作业。

图1 Flink技术栈

Flink重点构建如下特性:

  • DataStream

  • Checkpoint

  • 窗口

  • Job Pipeline

  • 配置表

Flink结构

Flink结构如下图所示。

图2 Flink结构

Flink整个系统包含三个部分:

  • Client

    Flink Client主要给用户提供向Flink系统提交用户任务(流式作业)的能力。

  • TaskManager

    Flink系统的业务执行节点,执行具体的用户任务。TaskManager可以有多个,各个TaskManager都平等。

  • JobManager

    Flink系统的管理节点,管理所有的TaskManager,并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个,但只有一个主JobManager。

MRS Flink关键特性

  • 流式处理

    高吞吐、高性能、低时延的实时流处理引擎,能够提供ms级时延处理能力。

  • 丰富的状态管理

    流处理应用需要在一定时间内存储所接收到的事件或中间结果,以供后续某个时间点访问并进行后续处理。Flink提供了丰富的状态管理相关的特性支持,其中包括
    • 多种基础状态类型:Flink提供了多种不同数据结构的状态支持,如ValueState、ListState、MapState等。用户可以基于业务模型选择最高效、合适状态类型。

    • 丰富的State Backend:State Backend负责管理应用程序的状态,并根据需要进行Checkpoint。Flink提供了不同State Backend,State可以存储在内存上或RocksDB等上,并支持异步以及增量的Checkpoint机制。

    • 精确一次语义:Flink的Checkpoint和故障恢复能力保证了任务在故障发生前后的应用状态一致性,为某些特定的存储支持了事务型输出的功能,即使在发生故障的情况下,也能够保证精确一次的输出。

  • 丰富的时间语义支持

    时间是流处理应用的重要组成部分,对于实时流处理应用来说,基于时间语义的窗口聚合、检测、匹配等运算是非常常见的。Flink提供了丰富的时间语义支持。

    • Event-time:使用事件本身自带的时间戳进行计算,使乱序到达或延迟到达的事件处理变得更加简单。

    • Watermark支持:Flink引入Watermark概念,用以衡量事件时间的发展。Watermark也为平衡处理时延和数据完整性提供了灵活的保障。当处理带有Watermark的事件流时,在计算完成之后仍然有相关数据到达时,Flink提供了多种处理选项,如将数据重定向(side output)或更新之前完成的计算结果。

    • Processing-time和Ingestion-time支持。

    • 高度灵活的流式窗口支持:Flink能够支持时间窗口、计数窗口、会话窗口,以及数据驱动的自定义窗口,可以通过灵活的触发条件定制,实现复杂的流式计算模式。

  • 容错机制

    分布式系统,单个task或节点的崩溃或故障,往往会导致整个任务的失败。Flink提供了任务级别的容错机制,保证任务在异常发生时不会丢失用户数据,并且能够自动恢复。

    • Checkpoint:Flink基于Checkpoint实现容错,用户可以自定义对整个任务的Checkpoint策略,当任务出现失败时,可以将任务恢复到最近一次Checkpoint的状态,从数据源重发快照之后的数据。

    • Savepoint:一个Savepoint就是应用状态的一致性快照,Savepoint与Checkpoint机制相似,但Savepoint需要手动触发,Savepoint保证了任务在升级或迁移时,不丢失掉当前流应用的状态信息,便于任何时间点的任务暂停和恢复。

  • Flink SQL

    Table API和SQL借助了Apache Calcite来进行查询的解析,校验以及优化,可以与DataStream和DataSet API无缝集成,并支持用户自定义的标量函数,聚合函数以及表值函数。简化数据分析、ETL等应用的定义。下面代码实例展示了如何使用Flink SQL语句定义一个会话点击量的计数应用。

    SELECT userId, COUNT(*)
    
    FROM clicks
    
    GROUP BY SESSION(clicktime, INTERVAL '30' MINUTE), userId
  • CEP in SQL

    Flink允许用户在SQL中表示CEP(Complex Event Processing)查询结果以用于模式匹配,并在Flink上对事件流进行评估。

    CEP SQL 通过MATCH_RECOGNIZE的SQL语法实现。MATCH_RECOGNIZE子句自Oracle Database 12c起由Oracle SQL支持,用于在SQL中表示事件模式匹配。CEP SQL使用举例如下:

    SELECT T.aid, T.bid, T.cid
    
    FROM MyTable
    
    MATCH_RECOGNIZE (
    
    PARTITION BY userid
    
    ORDER BY proctime
    
    MEASURES
    
    A.id AS aid,
    
    B.id AS bid,
    
    C.id AS cid
    
    PATTERN (A B C)
    
    DEFINE
    
    A AS name = 'a',
    
    B AS name = 'b',
    
    C AS name = 'c'
    
    ) AS T

如何使用Flink客户端

购买一个包含Flink组件的MRS集群,MRS集群的创建可参考创建集群,例如购买一个MRS 3.1.0集群,未开启了Kerberos认证。

  1. 集群正常运行后,安装集群客户端,例如安装目录为“/opt/hadoopclient”。Flink客户端的安装可以参考安装客户端

  2. 以客户端安装用户,登录安装客户端的节点。

  3. 执行以下命令,切换到客户端安装目录。

    cd /opt/hadoopclient
    source bigdata_env
  4. 运行wordcount作业。

    • 方式1:执行如下命令启动session,并在session中提交作业。

      yarn-session.sh -nm "session-name"
      flink run /opt/hadoopclient/Flink/flink/examples/streaming/WordCount.jar
    • 方式2:执行如下命令在Yarn上提交单个作业。

      flink run -m yarn-cluster /opt/hadoopclient/Flink/flink/examples/streaming/WordCount.jar
  5. 作业提交成功后,客户端界面显示类似如下。

    图3 在Yarn上提交作业成功

    图4 启动session成功

    图5 在session中提交作业成功

  6. 使用运行用户登录MRS集群的FusionInsight Manager界面,选择“集群 > 服务 > Yarn”,单击“ResourceManager WebUI”后的链接,进入Yarn服务的原生页面,找到对应作业的application,单击application名称,进入到作业详情页面。

    • 若作业尚未结束,可单击“Tracking URL”链接进入到Flink的原生页面,查看作业的运行信息。

    • 若作业已运行结束,对于在session中提交的作业,可以单击“Tracking URL”链接登录Flink原生页面查看作业信息。

      图6 application

好了,本期云小课就介绍到这里,快去体验MapReduce(MRS)更多功能吧!猛戳这里

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。