FusionInsight HDFS对接 Apache Drill

举报
晋红轻 发表于 2020/10/30 19:28:48 2020/10/30
【摘要】 Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。 本文介绍Apache Drill安装以及对接FusionInsight HDFS

安装Apache Drill

• 下载Apache Drill

 wget http://apache.mirrors.hoobly.com/drill/drill-1.15.0/apache-drill-1.15.0.tar.gz

 或者从官网下载:

 image.png

 

• 安装drill

 将安装包导入/opt/drill路径下,使用命令tar -xvf apache-drill-1.15.0.tar.gz解压压缩包

• 启动drill

 cd /opt/drill/apache-drill-1.15.0
bin/drill-embedded

 image.png

 

 同时可以登录 172.16.2.123:8047 来查看webUI界面

 image.png

 

对接HDFS

• 确保Apache Drill主机与对接集群时间差异小于5分钟

• 登陆drill webUI 界面,选择Storage,创建新的huaweihdfs

 image.png

 

 内容如下:

 {
  "type": "file",
  "connection": "hdfs://172.16.6.12:25000/",
  "config": null,
  "workspaces": {
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null,
      "allowAccessOutsideWorkspace": false
    }
  },
  "formats": {
    "json": {
      "type": "json",
      "extensions": [
        "json"
      ]
    }
  },
  "enabled": true
}

 image.png

 

 其中172.16.6.12为集群namenode主节点

• 准备认证相关配置文件

 登陆对接集群主节点172.16.6.10:/opt路径,使用命令find /opt -name hdfs.keytab查找hdfs认证相关keytab文件

 image.png

 

 hdfs.keytab文件scp拷贝到apachedrill主机/opt路径下

 准备对接集群相关的krb5.conf文件(可从manager下载),复制到apachedrill主机/etc路径下并覆盖,apachedrill默认从/etc/路径下读取krb5.conf文件

• 在客户端中找到HDFS相关core-site.xml配置文件,拷贝到drill安装路径下的conf目录下,并对配置文件做如下修改:

找到参数项fs.defaultFS,将值改为namenode主节点ip+25000的形式:

 image.png

 

 保存修改

• 修改drill conf路径下的配置文件drill-override.conf,做如下修改并保存:

 security.auth.principal: "hdfs/hadoop.hadoop.com@HADOOP.COM"
security.auth.keytab: "/opt/hdfs.keytab"

 image.png

 

• 在对接集群的/tmp路径下创建json格式的测试数据test.json

 image.png

 

 内容如下:

 { "_id" : "5968dd23fc13ae04d9000001", "product_name" : "sildenafil citrate", "supplier" : "Wisozk Inc", "quantity" : 261, "unit_cost" : "$10.47" }
{ "_id" : "5968dd23fc13ae04d9000002", "product_name" : "Mountain Juniperus ashei", "supplier" : "Keebler-Hilpert", "quantity" : 292, "unit_cost" : "$8.74" }
{ "_id" : "5968dd23fc13ae04d9000003", "product_name" : "Dextromathorphan HBr", "supplier" : "Schmitt-Weissnat", "quantity" : 211, "unit_cost" : "$20.53" }

• 使用命令!quit停止drill,再重启drill

 在命令行使用命令show databases;检查数据库:

 image.png

 

 使用命令select * from huaweihdfs.`tmp`.`test.json`;查找数据:

 image.png


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。