第一个Storm 程序

举报
Smy1121 发表于 2019/06/21 15:48:18 2019/06/21
【摘要】 第一个Storm 程序

我的第一个Storm WordCount Topology

Storm WordCount执行流程分析

● 分布式单词计数的流程

1)首先它需要有数据源,我们在RandomSentenceSpout中定义了一个字符串数组sentences来模拟数据源。

2)这里我们将字符串数组中的每句话作为一个tuple发射。

3)然后,SplitSentenceBlot接收RandomSentenceSpout发射的tuple,它将每句话分割成每个单词,并将每个单词作为tuple发射。

4)接着,WordCountBolt接收SplitSentenceBlot发送的tuple,它将接收到的每一个单词统计计数,并将 作为tuple发射。

5)最后,ReportBolt接收WordCountBolt发送的tuple,将统计的结果存入HashMap中,并打印出结果。


image.png

● Topology的组成类

ISpout、IComponent、IBolt三个接口定义了一些最基本的方法,BaseRichSpout、BaseRichBolt是接口的实现类,自定义的Spout与Bolt通过继承实现类来完成工作。


image.png

Storm WordCount具体代码分析

● 在RandomSentenceSpout中定义了一个字符串数组sentences来模拟数据源。字符串数组中的每句话作为一个tuple发射。


RandomSentenceSpout.java 代码如下所示:

package storm.wordcount;

import backtype.storm.spout.SpoutOutputCollector;

import backtype.storm.task.TopologyContext;

import backtype.storm.topology.OutputFieldsDeclarer;

import backtype.storm.topology.base.BaseRichSpout;

import backtype.storm.tuple.Fields;

import backtype.storm.tuple.Values;

import backtype.storm.utils.Utils;

import java.util.Map;

import java.util.Random;

image.png


● SplitSentenceBlot接收RandomSentenceSpout发射的tuple,它将每句话分割成每个单词,并将每个单词作为tuple发射。

SplitSentenceBlot.java 代码如下所示:

image.png


● WordCountBolt接收SplitSentenceBlot发送的tuple,它将接收到的每一个单词统计计数并将 <单词:出现次数> 作为tuple发射。

WordCountBolt.java 代码如下所示:

image.png


● ReportBolt接收WordCountBolt发送的tuple,将统计的结果存入HashMap中,并打印出结果。

ReportBolt.java 代码如下所示:


image.png


● 构建Wordcount Topology

WordCountTopology.java 代码如下所示:

image.png


        我们可以构建一个maven 项目,将上述storm Wordcount代码复制到maven项目中。 运行Wordcount需要我们在pom.xml文件中引入storm核心包storm-core。

image.png

image.png



本地测试运行结果仅展示部分如下:

image.png


通过对Wordcount执行流程的分析,相信大家对storm数据处理流程有了进一步理解。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。