mai的论坛回复_云社区-华为云

华为云ID：hw19301105第三章1.Spark SQL概述Spark SQL是用于处理结构化数据的模块。与Spark RDD不同的是，Spark SQL提供数据的结构信息(源数据)和性能更好，可以通过SQL和DataSet API与Spark SQL进行交互。2.Spark SQL编程入门Spark SQL模块的编程主入口点是SparkSession，SparkSession对象不仅为用户提供了创建DataFrame对象、读取外部数据源并转化为DataFrame对象以及执行sql查询的API，还负责记录着用户希望Spark应用如何在Spark集群运行的控制、调优参数，是Spark SQL的上下文环境，是运行的基础。2.1 创建SparkSessionSparkSession sparkSession = SparkSession.builder().master("local").appName("SparkSQLDemo1").config("spark.testing.memory", 471859200).getOrCreate();master("local")和new SparkConf().setMaster("local")一个样子，SparkSession包含了SparkContext，SqlContext等，是更强大的入口对象，也是更统一的入口。appName("SparkSQLDemo1")设置任务名称config()：设置配置属性，并且有多个重载方法：public synchronized SparkSession.Builder config(String key, String value)public synchronized SparkSession.Builder config(String key, long value)public synchronized SparkSession.Builder config(String key, double value)public synchronized SparkSession.Builder config(String key, boolean value)public synchronized SparkSession.Builder config(SparkConf conf)Spark 2.0中的SparkSession为Hive提供了强大的内置支持，包括使用HiveQL编写查询语句，访问Hive UDF以及从Hive表读取数据的功能。若是仅以学习为目的去测试这些功能时，并不需要在集群中特意安装Hive即可在Spark本地模式下测试Hive支持。2.2 创建DataFrameSparkSession对象提供的API，可以从现有的RDD，Hive表或其他结构化数据源中创建DataFrame对象。2.3 DataFrame基本操作DataFrame为我们提供了灵活、强大且底层自带优化的API，例如select、where、orderBy、groupBy、limit、union这样的算子操作，DataFrame提供这一系列算子对开发者来说非常熟悉，而DataFrame正是将SQL select语句的各个组成部分封装为同名API，用以帮助程序员通过select、where、orderBy等DataFrame API灵活地组合实现sql一样的逻辑表达。因此，DataFrame编程仅需像SQL那样简单地对计算条件、计算需求、最终所需结果进行声明式的描述即可，而不需要像RDD编程那样一步步地对数据集进行原始操作。2.4 执行SQL查询SparkSession为用户提供了直接执行sql语句的SparkSession.sql(String sqlText)方法，sql语句可直接作为字符串传入sql()方法中，sql查询所得到结果依然为DataFrame对象。在Spark SQL模块上直接执行sql语句的查询需要首先将标志着结构化数据源的DataSet对象注册成临时表，进而在sql语句中对该临时表进行查询操作