分布式SQL引擎

举报
Smy1121 发表于 2019/06/22 16:24:19 2019/06/22
【摘要】 分布式SQL引擎

分布式SQL引擎

parkSQL作为分布式查询引擎:两种方式


除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式:

1.Thrift JDBC/ODBC服务

2.CLI


SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务

Thrift JDBC/ODBC服务与Hive 1.2.1中的HiveServer2一致


启动JDBC/ODBC服务:

./sbin/start-thriftserver.sh

sbin/start-thriftserver.sh命令接收所有 bin/spark-submit 命令行参数,添加一个 --hiveconf 参数来指定Hive的属性。详细的参数说明请执行命令 ./sbin/start-thriftserver.sh --help 。


服务默认监听端口为localhost:10000。有两种方式修改默认监听端口:

修改环境变量:

export HIVE_SERVER2_THRIFT_PORT=

export HIVE_SERVER2_THRIFT_BIND_HOST=

./sbin/start-thriftserver.sh \

--master \

...


SparkSQL作为分布式查询引擎:Thrift JDBC/ODBC服务


Thrift JDBC/ODBC服务默认监听端口为localhost:10000。有两种方式修改默认监听端口:

修改环境变量:

export HIVE_SERVER2_THRIFT_PORT=

export HIVE_SERVER2_THRIFT_BIND_HOST=

./sbin/start-thriftserver.sh \

--master \

...


修改系统属性:

./sbin/start-thriftserver.sh \

--hiveconf hive.server2.thrift.port= \

--hiveconf hive.server2.thrift.bind.host= \

--master

...


SparkSQL作为分布式查询引擎: beeline


使用 beeline 来测试Thrift JDBC/ODBC服务:

./bin/beeline


连接到Thrift JDBC/ODBC服务:

beeline> !connect jdbc:hive2://localhost:10000

连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录



SparkSQL作为分布式查询引擎: Spark SQL CLI


Spark SQL CLI是一个方便的工具,以本地模式运行Hive的metastore服务和执行从命令行输入查询语句

Spark SQL CLI不能与Thrift JDBC server交互

连接Hive需要拷贝hive-site.xml、core-site.xml、hdfs-site.xml到Spark 的./conf/ 目录


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。