Spark---Spark on Hive
【摘要】 1、Spark On Hive的配置1)、在Spark客户端配置Hive On Spark在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:配置hive的metastore路径<configuration> <property> <name>hive.metastore.uris</name> <value>t...
1、Spark On Hive的配置
1)、在Spark客户端配置Hive On Spark
在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:
配置hive的metastore路径
2)、启动Hive的metastore服务
3)、启动zookeeper集群,启动HDFS集群
4)、启动SparkShell读取Hive中的表总数,对比hive中查询同一表查询总数测试时间
- 注意:
如果使用Spark on Hive 查询数据时,出现错误:
找不到HDFS集群路径,要在客户端机器conf/spark-env.sh中设置HDFS的路径:
2、读取Hive中的数据加载成DataFrame
- 在Spark1.6版本中HiveContext是SQLContext的子类,连接Hive使用HiveContext。
在Spark2.0+版本中之后,建议使用SparkSession对象,读取Hive中的数据需要开启Hive支持。
- 由于本地没有Hive环境,要提交到集群运行,提交命令:
java:
scala:
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)