FusionInsight HDFS对接 Apache Drill
安装Apache Drill
• 下载Apache Drill
wget http://apache.mirrors.hoobly.com/drill/drill-1.15.0/apache-drill-1.15.0.tar.gz
或者从官网下载:
• 安装drill
将安装包导入/opt/drill路径下,使用命令tar -xvf apache-drill-1.15.0.tar.gz解压压缩包
• 启动drill
cd /opt/drill/apache-drill-1.15.0
bin/drill-embedded
同时可以登录 172.16.2.123:8047 来查看webUI界面
对接HDFS
• 确保Apache Drill主机与对接集群时间差异小于5分钟
• 登陆drill webUI 界面,选择Storage,创建新的huaweihdfs
内容如下:
{
"type": "file",
"connection": "hdfs://172.16.6.12:25000/",
"config": null,
"workspaces": {
"tmp": {
"location": "/tmp",
"writable": true,
"defaultInputFormat": null,
"allowAccessOutsideWorkspace": false
}
},
"formats": {
"json": {
"type": "json",
"extensions": [
"json"
]
}
},
"enabled": true
}
其中172.16.6.12为集群namenode主节点
• 准备认证相关配置文件
登陆对接集群主节点172.16.6.10:/opt路径,使用命令find /opt -name hdfs.keytab查找hdfs认证相关keytab文件
将hdfs.keytab文件scp拷贝到apachedrill主机/opt路径下
准备对接集群相关的krb5.conf文件(可从manager下载),复制到apachedrill主机/etc路径下并覆盖,apachedrill默认从/etc/路径下读取krb5.conf文件
• 在客户端中找到HDFS相关core-site.xml配置文件,拷贝到drill安装路径下的conf目录下,并对配置文件做如下修改:
找到参数项fs.defaultFS,将值改为namenode主节点ip+25000的形式:
保存修改
• 修改drill conf路径下的配置文件drill-override.conf,做如下修改并保存:
security.auth.principal: "hdfs/hadoop.hadoop.com@HADOOP.COM"
security.auth.keytab: "/opt/hdfs.keytab"
• 在对接集群的/tmp路径下创建json格式的测试数据test.json
内容如下:
{ "_id" : "5968dd23fc13ae04d9000001", "product_name" : "sildenafil citrate", "supplier" : "Wisozk Inc", "quantity" : 261, "unit_cost" : "$10.47" }
{ "_id" : "5968dd23fc13ae04d9000002", "product_name" : "Mountain Juniperus ashei", "supplier" : "Keebler-Hilpert", "quantity" : 292, "unit_cost" : "$8.74" }
{ "_id" : "5968dd23fc13ae04d9000003", "product_name" : "Dextromathorphan HBr", "supplier" : "Schmitt-Weissnat", "quantity" : 211, "unit_cost" : "$20.53" }
• 使用命令!quit停止drill,再重启drill
在命令行使用命令show databases;检查数据库:
使用命令select * from huaweihdfs.`tmp`.`test.json`;查找数据:
- 点赞
- 收藏
- 关注作者
评论(0)