- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

spark streaming 整合 flume两种方式 push 和 pull

小米粒-biubiubiu 发表于 2020/12/03 01:09:39 2020/12/03

【摘要】一、push 方式：spark streaming 整合 flume 配置开发 cd $FLUME_HOME cd conf 编写 flume配置文件， vim flume_push_streaming.conf simple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksi...

一、push 方式：spark streaming 整合 flume 配置开发

cd $FLUME_HOME

cd conf

编写 flume配置文件， vim flume_push_streaming.conf


  
   
    
     
    
    
     
      simple-agent.sources =  netcat-source
     
    
   
    
     
    
    
     
      simple-agent.sinks  =  avro-sink
     
    
   
    
     
    
    
     
      simple-agent.channels  =  memory-channel
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      simple-agent.sources.netcat-source.type  =  netcat
     
    
   
    
     
    
    
     
      simple-agent.sources.netcat-source.bind = hadoop000
     
    
   
    
     
    
    
     
      simple-agent.sources.netcat-source.port = 44444
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      simple-agent.sinks.avro-sink.type  =  avro
     
    
   
    
     
    
    
     
      simple-agent.sinks.avro-sink.hostname  =  hadoop000
     
    
   
    
     
    
    
     
      simple-agent.sinks.avro-sink.port  =  41414
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      simple-agent.channels.memory-channel.type  =  memory
     
    
   
    
     
    
    
     
      simple-agent.channels.memory-channel.capacity  =  1000
     
    
   
    
     
    
    
     
      simple-agent.channels.memory-channel.transactionCapacity  =  100
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      simple-agent.sources.netcat-source.channels  =  memory-channel
     
    
   
    
     
    
    
     
      simple-agent.sinks.avro-sink.channel  =  memory-channel

项目中添加依赖


  
   
    
     
    
    
        <!--添加spark streaming 整合 flume 依赖-->
     
    
   
    
     
    
    
      <dependency>
     
    
   
    
     
    
    
      <groupId>org.apache.spark</groupId>
     
    
   
    
     
    
    
      <artifactId>spark-streaming-flume_2.11</artifactId>
     
    
   
    
     
    
    
      <version>2.2.0</version>
     
    
   
    
     
    
    
      </dependency>

编写 spark streaming 整合 flume 的代码，使用 FlumeUtils


  
   
    
     
    
    
     
      object FlumePushWordCount {
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
        def main(args: Array[String]): Unit = {
     
    
   
    
     
    
    
      if(args.length != 2){
     
    
   
    
     
    
    
     
       System.exit(1)
     
    
   
    
     
    
    
     
       }
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
       val Array(hostname,port) =args
     
    
   
    
     
    
    
     
       val  sparkConf = new SparkConf().setMaster("local[2]").setAppName("FlumePushWordCount")
     
    
   
    
     
    
    
     
       val ssc  = new StreamingContext(sparkConf,Seconds(5))
     
    
   
    
     
    
    
     
       val flumeStream =  FlumeUtils.createStream(ssc,hostname,port.toInt)
     
    
   
    
     
    
    
     
       flumeStream.map(x=>new String(x.event.getBody.array())).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()
     
    
   
    
     
    
    
     
       ssc.start()
     
    
   
    
     
    
    
     
       ssc.awaitTermination()
     
    
   
    
     
    
    
     
        }

启动 flume


  
   
    
     
    
    
     
      flume-ng agent --name simple-agent \
     
    
   
    
     
    
    
     
      --conf $FLUME_HOME/conf \ 
     
    
   
    
     
    
    
     
      --conf-file $FLUME_HOME/conf/flume_push_streaming.conf \
     
    
   
    
     
    
    
     
      -Dflume.root.logger=INFO,console

使用idea 运行代码，并传入两个参数 hostname 和 port

执行 nc -lk 44444

输入任意字母单词按回车键，看到控制台上输出单词频次统计结果，说明运行成功。

将代码打包并提交到服务器上运行：


  
   
    
     
    
    
     
      object FlumePushWordCount {
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
        def main(args: Array[String]): Unit = {
     
    
   
    
     
    
    
      if(args.length != 2){
     
    
   
    
     
    
    
     
       System.exit(1)
     
    
   
    
     
    
    
     
       }
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
       val Array(hostname,port) =args
     
    
   
    
     
    
    
      //注释掉master 和 appName，因为这两个在服务器上运行时是使用spark-submit 命令指定的 
     
    
   
    
     
    
    
      //.setMaster("local[2]").setAppName("FlumePushWordCount")
     
    
   
    
     
    
    
     
       val  sparkConf = new SparkConf()
     
    
   
    
     
    
    
     
       val ssc  = new StreamingContext(sparkConf,Seconds(5))
     
    
   
    
     
    
    
     
       val flumeStream =  FlumeUtils.createStream(ssc,hostname,port.toInt)
     
    
   
    
     
    
    
     
       flumeStream.map(x=>new String(x.event.getBody.array())).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()
     
    
   
    
     
    
    
     
       ssc.start()
     
    
   
    
     
    
    
     
       ssc.awaitTermination()
     
    
   
    
     
    
    
     
        }

执行 mvn clean package -DskipTests 将代码打包

执行以下命令，（--packages 导入依赖的spark-streaming-flume_2.11.jar）即可运行应用程序。


  
   
    
     
    
    
     
      spark-submit  --class com. dzx.scala.dzxbootscala.spark.FlumePushWordCount 
     
    
   
    
     
    
    
     
      --master local[2] --packages org.apache.spark:spark-streaming-flume_2.11:2.2.0  
     
    
   
    
     
    
    
     
      /home/hadoop/lib/sparktrain-1.0.jar hadoop000 41414

二、pull方式：spark streaming 整合 flume 配置开发（推荐这种更稳定，容错，安全）

添加依赖


  
   
    
     
    
    
      <dependency>
     
    
   
    
     
    
    
      <groupId>org.apache.spark</groupId>
     
    
   
    
     
    
    
      <artifactId>spark-streaming-flume-sink_2.11</artifactId>
     
    
   
    
     
    
    
      <version>2.2.0</version>
     
    
   
    
     
    
    
      </dependency>
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      <dependency>
     
    
   
    
     
    
    
      <groupId>org.apache.commons</groupId>
     
    
   
    
     
    
    
      <artifactId>commons-lang3</artifactId>
     
    
   
    
     
    
    
      <version>3.5</version>
     
    
   
    
     
    
    
      </dependency>

编写 flume 配置文件 flume_pull_streaming.conf


  
   
    
     
    
    
      simple-agent.sources =  netcat-source
     
    
   
    
     
    
    
      simple-agent.sinks  =  spark-sink
     
    
   
    
     
    
    
      simple-agent.channels  =  memory-channel
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      simple-agent.sources.netcat-source.type  =  netcat
     
    
   
    
     
    
    
      simple-agent.sources.netcat-source.bind = hadoop000
     
    
   
    
     
    
    
      simple-agent.sources.netcat-source.port = 44444
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      simple-agent.sinks.spark-sink.type  =  org.apache.spark.streaming.flume.sink.SparkSink
     
    
   
    
     
    
    
      simple-agent.sinks.spark-sink.hostname  =  hadoop000
     
    
   
    
     
    
    
      simple-agent.sinks.spark-sink.port  =  41414
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      simple-agent.channels.memory-channel.type  =  memory
     
    
   
    
     
    
    
      simple-agent.channels.memory-channel.capacity  =  1000
     
    
   
    
     
    
    
      simple-agent.channels.memory-channel.transactionCapacity  =  100
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
      simple-agent.sources.netcat-source.channels  =  memory-channel
     
    
   
    
     
    
    
      simple-agent.sinks.spark-sink.channel  =  memory-channel

编写应用程序代码


  
   
    
     
    
    
     
      object FlumePullWordCount {
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
        def main(args: Array[String]): Unit = {
     
    
   
    
     
    
    
      if(args.length != 2){
     
    
   
    
     
    
    
     
       System.exit(1)
     
    
   
    
     
    
    
     
       }
     
    
   
    
     
    
    
     
       val Array(hostname,port) =args
     
    
   
    
     
    
    
     
       val  sparkConf = new SparkConf().setMaster("local[2]").setAppName("FlumePullWordCount")
     
    
   
    
     
    
    
     
       val ssc  = new StreamingContext(sparkConf,Seconds(5))
     
    
   
    
     
    
    
      //只有这一个地方和 push 的方法不同，其他代码完全相同
     
    
   
    
     
    
    
     
       val flumeStream =  FlumeUtils.createPollingStream(ssc,hostname,port.toInt)
     
    
   
    
     
    
    
     
       flumeStream.map(x=>new String(x.event.getBody.array())).flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()
     
    
   
    
     
    
    
     
       ssc.start()
     
    
   
    
     
    
    
     
       ssc.awaitTermination()
     
    
   
    
     
    
    
     
        }

先启动 flume


  
   
    
     
    
    
     
      flume-ng agent --name simple-agent \
     
    
   
    
     
    
    
     
      --conf $FLUME_HOME/conf \ 
     
    
   
    
     
    
    
     
      --conf-file $FLUME_HOME/conf/flume_pull_streaming.conf \
     
    
   
    
     
    
    
     
      -Dflume.root.logger=INFO,console

在idea 运行应用程序同方式一，或者打包到服务器上面运行命令如下：


  
   
    
     
    
    
     
      spark-submit  --class com. dzx.scala.dzxbootscala.spark.FlumePullWordCount 
     
    
   
    
     
    
    
     
      --master local[2] --packages org.apache.spark:spark-streaming-flume_2.11:2.2.0  
     
    
   
    
     
    
    
     
      /home/hadoop/lib/sparktrain-1.0.jar hadoop000 41414

文章来源: blog.csdn.net，作者：血煞风雨城2018，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/qq_31905135/article/details/85693902

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

spark streaming 整合 flume两种方式 push 和 pull

一、push 方式：spark streaming 整合 flume 配置开发

二、pull方式：spark streaming 整合 flume 配置开发（推荐这种更稳定，容错，安全）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

spark streaming 整合 flume两种方式 push 和 pull

一、push 方式 ：spark streaming 整合 flume 配置开发

二、pull方式 ：spark streaming 整合 flume 配置开发（推荐这种更稳定，容错，安全）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品

一、push 方式：spark streaming 整合 flume 配置开发

二、pull方式：spark streaming 整合 flume 配置开发（推荐这种更稳定，容错，安全）