《Spark数据分析:基于Python语言 》 —2.8.3 Databricks
2.8.3 Databricks
Databricks是一个基于云的Spark集成工作环境,允许启动所管理的Spark集群,从S3、关系型数据库或普通文件的数据源接入数据并进行交互操作,数据源可以在云端,也可以在本地环境中。Databricks平台使用用户的AWS账号创建所需的基础架构组件,这样这些服务都属于用户自己的AWS账号。Databricks为AWS上基于云的Spark平台提供了部署、管理,以及用户应用间的接口框架。
Databricks根据支持级别、安全性、访问控制选项、GitHub集成等不同特性,指定了多种定价方案。收费基于订阅,包括每月的固定费用和按用量收取的使用费(按每个节点每小时计算的费用)。Databricks提供14天的免费试用期,以便用户上手。使用Databricks平台部署的Spark集群产生的AWS实例费用需要用户自负,不过Databricks允许用户使用更便宜的Spot实例来节省AWS花销。要想了解最新的定价和订阅信息,请访问https://databricks.com/product/pricing。
如图2.6所示,Databricks提供了简易的部署方式和用户界面。它对在AWS上配置安全的Spark环境所涉及的底层基础架构和安全复杂性进行了抽象。Databricks管理控制台允许用户创建笔记本,这与AWS的EMR服务中部署的Zeppelin笔记本类似。Databricks还提供了用于部署和管理的API。这些笔记本会自动关联用户的Spark集群,基于Python、Scala、SQL或R语言提供无缝的Spark编程接口。
图2.6 Databricks控制台
Databricks中还包含自有的分布式文件系统,叫作Databricks文件系统(Databricks File System,DBFS)。DBFS允许用户挂载已有的S3存储桶,以在Spark环境中无缝使用。用户也可以在工作节点的固态硬盘中缓存数据对访问进行加速。用户可以通过这套Spark环境中包含的dbutils库对DBFS进行配置和交互。
Databricks平台和管理控制台可以让用户从各种数据源以表的形式创建数据对象,这里的表在概念上和关系型数据库里的表类似。可用的数据源包括AWS S3的存储桶、JDBC数据源、DBFS文件系统,或是使用拖拽功能上传的本地文件。用户也可以使用Databricks控制台创建作业,并根据自定义的时刻表以非交互式的方式运行这些作业。
AMP实验室创建了Spark项目并继续成为该项目的主要贡献者,其中的核心团队成员创建了Databricks公司,打造出了Databricks平台。相比其他的发行版(比如CDH或HDP)而言,Databricks平台一般包含更新版本的Spark和一些新功能。要了解更多关于Databricks的信息,请访问http://databricks.com。
- 点赞
- 收藏
- 关注作者
评论(0)