2021年大数据Spark(四十六):Structured Streaming Operations 操作

举报
Lansonli 发表于 2021/09/28 22:50:07 2021/09/28
【摘要】 目录 ​​​​​​​Operations 操作   官网示例代码: Operations 操作 获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述     官网示例代码: case class DeviceData...

目录

​​​​​​​Operations 操作

 

官网示例代码:


Operations 操作

获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致,不再赘述

 

 

官网示例代码:


  
  1. case class DeviceData(device: String, deviceType: String, signal: Double, time: DateTime)
  2. val df: DataFrame = ... // streaming DataFrame with IOT device data with schema { device: string, deviceType: string, signal: double, time: string }
  3. val ds: Dataset[DeviceData] = df.as[DeviceData]    // streaming Dataset with IOT device data
  4. // Select the devices which have signal more than 10
  5. df.select("device").where("signal > 10")      // using untyped APIs   
  6. ds.filter(_.signal > 10).map(_.device)         // using typed APIs
  7. // Running count of the number of updates for each device type
  8. df.groupBy("deviceType").count()                 // using untyped API
  9. // Running average signal for each device type
  10. import org.apache.spark.sql.expressions.scalalang.typed
  11. ds.groupByKey(_.deviceType).agg(typed.avg(_.signal))    // using typed API

 

文章来源: lansonli.blog.csdn.net,作者:Lansonli,版权归原作者所有,如需转载,请联系作者。

原文链接:lansonli.blog.csdn.net/article/details/116036090

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。