Sparkmagic魔法命令详解

举报
wyhhyw123 发表于 2022/11/07 17:13:59 2022/11/07
【摘要】 本样例介绍sparkmagic常用魔法命令,这些魔法命令主要用于jupyter notebook对接远端spark集群场景。 前置条件基于ModelArts专属池对接DLI服务之后,在ModelArts界面创建notebook并选择镜像为spark-2.4.5,启动notebook后选择Sparkmagic(DLI-PySpark-2.4.5)或者Sparkmagic(DLI-Spark-2...

本样例介绍sparkmagic常用魔法命令,这些魔法命令主要用于jupyter notebook对接远端spark集群场景。

前置条件

基于ModelArts专属池对接DLI服务之后,在ModelArts界面创建notebook并选择镜像为spark-2.4.5,启动notebook后选择Sparkmagic(DLI-PySpark-2.4.5)或者Sparkmagic(DLI-Spark-2.4.5)类型的kernel。ModelArts对接DLI的操作文档见: https://support.huaweicloud.com/bestpractice-dli/dli_05_0056.html

魔法命令

1. %%help

在notebook cell中执行%%help可以查看sparkmagic支持的魔法命令,如下:
image.png

2. %%info

在notebook cell中执行%%info可以查看当前启动的livy会话信息,包括DLI spark先关的计算资源规格和语言类型等,如下:
image.png

3. %%spark

当连接DLI spark集群后,在notebook cell中所有代码默认是在%%spark命令下执行的,即无需在cell第一行添加%%spark,代码均会发送到远端spark集群中执行。

%%spark -o 命令可以将远程spark集群中的spark dataframe拉到notebook本地,并另存为-o所指定变量名的pandas dataframe,可用于后续的可视化和本地数据分析。
image.png

4. %%sql

当在cell开头指定%%sql时,可以执行sql相关命令如查询数据表,修改数据表,新建数据表等。
image.png

%%sql -o则会将用户在远程spark集群查询的结果拉到notebook本地,并且保存为-o所指定变量名的本地pandas dataframe。
image.png

5. %%send_to_spark

在notebook中使用%%send_to_spark魔法命令时可以将本地的一个pandas dataframe发送到DLI远端spark集群中,并且可以修改变量名。如下示例中,是将本地变量pd_df指向的pandas dataframe发送到远端spark集群,即变量名spark_df指向的spark dataframe。
image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。