Spark SQL 扩展开发入门【源码解读】

举报
bigdata张凯翔 发表于 2021/03/29 04:16:44 2021/03/29
【摘要】 作者:王道远 编辑:平凡的世界-zkx 前言:因为大佬的视频和ppt对外开放,需要走很多的流程,所以是不会公开的,此博客内容编辑整理纯属于本人,如转载请注明出处。 image.png image.png 1.简单介绍一下spark sql的背景,介绍一下sparksql能做的事情。 2.介绍一下sparksql扩展开发的相关的api 3.怎么样把开...

作者:王道远
编辑:平凡的世界-zkx

前言:因为大佬的视频和ppt对外开放,需要走很多的流程,所以是不会公开的,此博客内容编辑整理纯属于本人,如转载请注明出处。

image.png
image.png

1.简单介绍一下spark sql的背景,介绍一下sparksql能做的事情。
2.介绍一下sparksql扩展开发的相关的api
3.怎么样把开发好的插件放到生产环境


image.png

sparksql提供了sql api 和类似于sql的dataframe 和dataset api


image.png

catalyst执行和优化的作用,sparksql的核心
image.png

1.修改spark 源码,再打包,进行提交,打包成本高,维护成本高。
2.业务特定的场景,开源社区不会接受,自己维护比较大。每次使用新版本,都要重新patch,会比较痛苦,有些版本Spark不方便自己替换,依赖Spark实现的作业,有可能需要用到添加的类。如果一些修改都加到spark里面,也会给不需要这些功能的其他用户造成困扰。
image.png

06:44


image.png

自定义扩展Spark parser,支持自定义语法。修改解析规则,修改优化规则,修改物理计划生成。
image.png

image.png

image.png

image.png
image.png

image.png

image.png

文章来源: www.jianshu.com,作者:百忍成金的虚竹,版权归原作者所有,如需转载,请联系作者。

原文链接:www.jianshu.com/p/7724abc2cfd7

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。