java中spark中map、flatmap等算子需要implement的接口,以及使用情况的简单说明

举报
橙子园 发表于 2022/05/26 00:23:22 2022/05/26
【摘要】 1、spark 的JavaRDD使用map、flatmap、filter等算子时,统一需要implement接口 org.apache.spark.api.java.function.Function ...

1、spark 的JavaRDD使用map、flatmap、filter等算子时,统一需要implement接口 org.apache.spark.api.java.function.Function

使用方法:

JavaRDD<CmaCoreMongoSpark> cma = cmaMongo
        .filter(new FilterCnMedicalPaperFunc())
        .filter(new TimeFilterFunc(startTime, endTime))
        .map(new MapCnMedicalPaperFunc());

  
 
  • 1
  • 2
  • 3
  • 4

2、spark的Dataset<?>
使用map时需要implement接口 org.apache.spark.api.java.function.MapFunction
使用flatmap需要implement接口 org.apache.spark.api.java.function.FlatMapFunction

实现不同的接口,但命名大概就是算子名称+Function

使用方法(涉及到?对象类型的转化,map需要两个参数,一个转化函数类、一个转化的javaBean类型的Encoder):

Dataset<CnStandardJournalInfoSpark> journal = df.map(
        new CnJournalFunc(), Encoders.bean(CnStandardJournalInfoSpark.class)
);

  
 
  • 1
  • 2
  • 3

文章来源: blog.csdn.net,作者:橙子园,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/Chenftli/article/details/120226051

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。