Spark Serverless 介绍

举报
DataLakeInsight 发表于 2018/06/14 19:17:41 2018/06/14
【摘要】 Spark Serverless可为用户提供全托管式的Spark计算服务。用户通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark集群上进行数据分析。

云计算时代出现了大量XaaS形式的概念,从IaaSPaaSSaaS 到容器云引领的CaaS,以及火热的微服务架构,再到近年来非常火热的Serverless 概念。它们都在试着将各种软、硬件资源等抽象为一种服务提供给开发者使用,让他们不再担心基础设施、资源需求、中间件等等,在减轻心智负担的同时更好地专注于业务。

1      什么是Serverless

关于Serverless的前世今生,就好比人类形态发展史,从爬行猿人到蹲着的类猿人,再到直立人类,最后到使用工具的新兴人类。从四只脚爬行到直立行走,释放了双手,从释放双手到开始使用工具。人类的进化每一次都伴随着生产效率的提升。同理,在整个IT计算的发展里程,也是逐步提高生产效率的里程。从大型物理机到通过虚拟化技术把物理机虚拟成单个的VM资源,从虚拟化集群到把集群搬到云计算上只做简单运维,再到把每一个VM按照运行空间最小化切分成更细的Docker容器,再从Doceker容器变成干脆不用管理任何运行环境的Serverless服务,即仅仅需要编写核心代码即可。代际的技术变革都是把资源切分得更细致,让运行效率变得更高,让硬件软件维护变得更加简单。

Spark Serverless可为用户提供全托管式的Spark计算服务。用户通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark集群上进行数据分析。通过使用RESTful API,用户可以提交简单批处理程序,接下里带您快速了解本特性和使用方法。

2      如何玩转Spark Serverless

2.1      创建集群

开通DLI服务之后,用户需向创建集群接口发送RESTful请求,创建全托管式Spark集群。

                                步骤 1      创建集群。调用创建集群接口(URI格式为:POST /v2.0/{project_id}/clusters),在请求体参数中填写cluster_name, cu_countdescription字段。

image.png

image.png

                                步骤 2     获取响应报文,返回码为201,表示创建集群成功。

1.1      使用示例

通过批处理方式支持提交用户程序到spark集群中运行。假设用户程序包为“spark-examples_2.11-2.1.0.jar”

                                步骤 1      上传批处理程序文件到集群。调用上传jar包接口(URI格式为:POST /v2.0/{project_id}/resources/jars),上传用户OBS上的“spark-examples_2.11-2.1.0.jar”到DLI服务。上传成功后将返回已上传的资源包名,供创建批处理时使用。

l   请求参数说明

表1-1 请求参数说明

image.png

                                步骤 2      查看资源包是否上传成功。调用查看资源包接口(URI格式为:GET /v2.0/{project_id}/resources/{resource_name})。resource_name设置为spark-examples_2.11-2.1.0.jar,以查看该资源包状态。当返回结果中status字段为READY,表示资源包上传成功。


l       响应样例:

     image.png

                                步骤 3      创建批处理作业。确认资源包准备就绪后,调用创建批处理接口(URI格式为:POST /v2.0/{project_id}/batches),在file字段中填入需要运行的批处理作业资源名spark-examples_2.11-2.1.0.jar,在className字段中填写jar包里的主类,在cluster_name字段中填入在12.2 创建集群步骤中创建的集群名,sc_type选择A类型(资源类型说明请参考12-2)

image.png

                                步骤 4     查看批处理作业详情。在提交作业之后,调用获取批处理作业详情接口(URI格式为:GET /v2.0/{project_id}/batches/{batch_id}),当返回体state字段为success时,表示批处理作业运行成功。

image.png

                                步骤 5      查看日志。调用获取批处理作业日志接口(URI格式为:GET /v2.0/{project_id}/batches/{batch_id}/log),可以获取作业提交日志。

image.png

Data Lake Insight 官网地址:https://www.huaweicloud.com/product/dli.html

Data Lake Insight 体验地址:http://49.4.0.83:8080/#/main/queryEditor

Data Lake Insight 文档中心:https://support.huaweicloud.com/usermanual-dli/zh-cn_topic_0067628621.html

Data Lake Insight 论坛地址:https://forum.huaweicloud.com/forum-599-1.html



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200