- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

大数据NiFi（十五）：NiFi入门案例二

Lansonli 发表于 2023/02/08 14:06:15 2023/02/08

【摘要】 NiFi入门案例二需求：随机生成一些测试数据集，对生成的数据进行正则匹配，对匹配后的数据进行输出到外部文件中。以上需要用到的“GenerateFlowFile”、“ReplaceText”、“PutFile”处理器。一、配置“GenerateFlowFile”处理器这个处理器可以生成随机的FlowFile数据或者生成自定义内容的FlowFile。多用于负载测试和模拟生成数据测试。1、拖拽“...

NiFi入门案例二

需求：随机生成一些测试数据集，对生成的数据进行正则匹配，对匹配后的数据进行输出到外部文件中。以上需要用到的“GenerateFlowFile”、“ReplaceText”、“PutFile”处理器。

一、配置“GenerateFlowFile”处理器

这个处理器可以生成随机的FlowFile数据或者生成自定义内容的FlowFile。多用于负载测试和模拟生成数据测试。

1、拖拽“Processor”在弹框中输入“GenerateFlowFile”

2、配置“GenerateFlowFile”生成FlowFile

打开“GenerateFlowFile”配置，找到“PROPERTIES”选项进行配置：

关于“GenerateFileFile”的“PROPERTIES”配置选项解释如下：

配置项	默认值	允许值	描述
File Size （文件大小）	0 B		生成每个FlowFile文件的大小。
Batch Size （批次大小）	1		每次生成几个FlowFile。
Data Format （数据格式）	Text	Binary Text	指定生成的数据是文本还是二进制文件。
Unique FlowFiles（唯一FlowFile）	false	true false	如果为true,每次生成的FlowFile独一无二，如果为false，每个FlowFile随机内容相同，吞吐量大。
Custom Text （自定义文本）			自定义生成文本内容。需要将“Data Format”设置为Text并且将“Unique FlowFiles”设置为false，这时生成的文件大小不定，将忽略设置的“File Size”
Character Set （字符编码）	UTF-8		指定生成FlowFile的编码。
Mime Type （mime.type值）			设置自带属性“mime.type”的Value值。

“GenerateFlowFile”默认调度会不间断运行产生数据，为了方便后期测试，这里设置好“PROPERTIES”配置后，还需要配置“SCHEDULING”中“Run Schedule”，当产生数据后，每隔10s调度一次，目的是产生数据慢一些，方便后期看到结果。

二、配置“ReplaceText”处理器

“ReplaceText”处理器会替换正则表达式匹配到的FlowFile中的内容，生成新的FlowFile内容。

1、拖拽“Processor”在弹框中输入“GenerateFlowFile”

2、配置“ReplaceText”处理器

将接收“GenerateFlowFile”处理器生成的“hello world”数据，替换其中的“world”为“nifi”。

关于“ReplaceText”的“PROPERTIES”配置选项解释如下：

配置项	默认值	允许值	描述
Search Value （正则匹配值）	(?s)(^.*$)		对FlowFile内容匹配的正则表达式。仅用于“Regex Replace”和“Literal Replace”替换策略。
Replacement Value（替换的值）	$1		使用"Replacement Strategy"策略时插入的值。$1表示正则表达式匹配的第1个值。
Character Set （编码）	UTF-8		指定编码字符集。
Maximum Buffer Size （缓冲区数据量最大值）	1 M		指定要缓冲的最大数据量(每个文件或每行，取决于计算模式)，以便应用替换。“评估模式”如果选择了“Entire Text”，并且FlowFile大于这个值，那么FlowFile将被路由到“failure”；在“Line-by-Line”模式下，如果一行文本比这个值大，那么FlowFile将被路由到“failure”。默认值为1 MB，主要用于“Entire Text”模式。在“Line-by-Line”模式中，建议使用8 KB或16 KB这样的值。如果将“替换策略”设置为以下其中之一:Append、Prepend、Always Replace，则忽略该值。
Replacement Strategy （替换策略）	Regex Replace	Prepend Append Regex Replace Literal Replace Always Replace	指定如何替换FlowFile内容的策略。
Evaluation Mode（评估模式）	Line-by-Line	Line-by-Line Entire text	对每一行单独进行"替换策略"(Line-by-Line)；或将整个文件缓冲到内存中(Entire text)，然后对其进行"替换策略"。
Line-by-Line Evaluation Mode（行的评估模式）	ALL	All First-Line Last-Line Except-First-Line Except-Last-Line	Line-by-Line“评估模式”下： (ALL)默认是对FlowFile中所有行使用“替换策略”。 (First-Line):只对第一行使用“替换策略”。 (Last-Line):只对最后一行使用“替换策略”。 (Except-First-Line):除了第一行之外使用“替换策略”。 (Except-Last-Line):除了最后一行外使用“替换策略”。

Prepend
Append
Regex Replace
Literal Replace
Always Replace

指定如何替换FlowFile内容的策略。 Evaluation Mode（评估模式） Line-by-Line

Line-by-Line
Entire text

对每一行单独进行"替换策略"(Line-by-Line)；或将整个文件缓冲到内存中(Entire text)，然后对其进行"替换策略"。 Line-by-Line Evaluation Mode（行的评估模式） ALL

All
First-Line
Last-Line
Except-First-Line
Except-Last-Line

Line-by-Line“评估模式”下： (ALL)默认是对FlowFile中所有行使用“替换策略”。 (First-Line):只对第一行使用“替换策略”。 (Last-Line):只对最后一行使用“替换策略”。 (Except-First-Line):除了第一行之外使用“替换策略”。 (Except-Last-Line):除了最后一行外使用“替换策略”。

以上表格中“Search Value”默认值“(?s)(^.*$)”解释如下：

(?s)表示开启单行模式。
(^.*$)中,^表示正则开始。
.表示匹配换行符之外的任何字符。
*表示匹配前面的子表达式0或者多次。
$表示正则表达式结束。

以上表格中“Replacement Strategy”的可用值解释如下：

Prepend：在流文件的开头或每行的开头插入替换值(取决于评估模式)。当"Evaluation Mode-评估模式"设置为Line-by-Line"时，值将被添加到每一行开头，设置为"Entire Text"时，该值将被添加到整个文本之前。
Append：在流文件的末尾或每行的末尾插入替换值(取决于评估模式)。当"评估模式"设置为Line-by-Line"时，值将被添加到每一行开头，设置为"Entire Text"时，该值将被添加到整个文本之前。
Regex Replace：使用"Replacement Value"替换所有正则表达式匹配值，"Replacement Value"可以引用正则表达式匹配的值，使用$1、$2等来引用。
Literal Replace:当"Search Value"值为一个搜索值时，使用"Replacement Value"替换值替换匹配项。
Always Replace:总是替换整个行或FlowFile的整个内容(取决于"Evaluation Mode（评估模式）"属性的值)，不会搜索任何值。当选择此策略时，"Search Value"属性将被忽略。

三、配置“PutFile”处理器

关于“PutFile”处理器的创建及配置参数参照案例一，这里直接给出“PutFile”处理器的配置，将替换后的FlowFile写入外部路径中“/root/test/matchFile”：

四、连接各个处理器，并且启动测试

在连接“ReplaceText”处理器与“PutFile”处理器时，需要设置连接的配置关系，当“ReplaceText”处理器将匹配成功的数据写出到“PutFile”处理器：

设置当“ReplaceText”处理器匹配失败FlowFile自动终止关系：

完整的连接关系如下：

启动“GenerateFlowFile”处理器后：

同时查看“Data Provenance”中数据如下：

启动“ReplaceText”处理器，查看处理的数据：

启动“PutFile”处理器，NiFi集群对应的每个节点上都生成对应的数据：

查看数据结果：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

大数据NiFi（十五）：NiFi入门案例二

NiFi入门案例二

一、配置“GenerateFlowFile”处理器

1、拖拽“Processor”在弹框中输入“GenerateFlowFile”

2、配置“GenerateFlowFile”生成FlowFile

二、配置“ReplaceText”处理器

1、拖拽“Processor”在弹框中输入“GenerateFlowFile”

2、配置“ReplaceText”处理器

三、配置“PutFile”处理器

四、连接各个处理器，并且启动测试

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

大数据NiFi（十五）：NiFi入门案例二

​NiFi入门案例二

一、配置“GenerateFlowFile”处理器

1、拖拽“Processor”在弹框中输入“GenerateFlowFile”

2、配置“GenerateFlowFile”生成FlowFile

二、配置“ReplaceText”处理器

1、拖拽“Processor”在弹框中输入“GenerateFlowFile”

2、配置“ReplaceText”处理器

三、配置“PutFile”处理器

四、​​​​​​​​​​​​​​连接各个处理器，并且启动测试

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

NiFi入门案例二

四、连接各个处理器，并且启动测试