大数据Apache Druid(四):使用Imply进行Druid集群搭建
使用Imply进行Druid集群搭建
Imply基于Druid进行了一些组件的开发,是Druid的集成包,提供开源版本和商业版本,类似CDH一样,使安装Druid简化了部署,Imply也是Druid团队开发。
我们可以使用Imply安装Druid,在Imply的官网https://imply.io进行下载,经过测试这个版本在提交加载数据任务时有一些bug(加载数据任务总是失败)。
一、下载Imply
1、登录Imply官网,点击Product
2、点击“Get start”,填写邮箱等信息,下载imply
二、安装Imply
1、节点划分
节点IP |
节点名称 |
角色 |
---|---|---|
192.168.179.6 |
node3 |
zk,Druid Master(overload,coordinator) |
192.168.179.7 |
node4 |
zk,Druid Data(middleManager,historical) |
192.168.179.8 |
node5 |
zk,Druid Query(broker,router) |
2、上传下载好的imply
将imply安装包上传到node3“/software”目录下,并解压
[root@node3 software]# tar -zxvf ./imply-2022.07.tar.gz
drwxrwxr-x 7 1001 1001 121 Jul 22 05:49 imply-2022.07
3、在MySQL中创建imply元数据库
在node2节点登录mysql,创建druid需要的两个源数据库。
[root@node2 ~]# mysql -u root -p123456
CREATE DATABASE `druid` DEFAULT CHARACTER SET utf8;
CREATE DATABASE `pivot` DEFAULT CHARACTER SET utf8;
注意:mysql的版本需要在5.5之上
4、配置common.runtime.properties文件
进入“/software/imply-2021.07/conf/druid/_common”路径下,修改“common.runtime.properties”文件,在该文件中配置扩展信息、zookeeper集群信息、Metadata Storage使用MySQL、Deep Storage使用HDFS:
#
# Extensions
#
druid.extensions.directory=dist/druid/extensions
druid.extensions.hadoopDependenciesDir=dist/druid/hadoop-dependencies
#添加mysql元数据管理和支持kafka
druid.extensions.loadList=["mysql-metadata-storage","druid-kafka-indexing-service"]
#
# Zookeeper
#
#配置zookeeper集群节点
druid.zk.service.host=node3:2181,node4:2181,node5:2181
druid.zk.paths.base=/druid
#
# Metadata storage
#
# For Derby server on your Druid Coordinator (only viable in a cluster with a single Coordinator, no fail-over):
#将默认Storage默认为derby注释掉
#druid.metadata.storage.type=derby
#druid.metadata.storage.connector.connectURI=jdbc:derby://master.example.com:1527/var/druid/metadata.db;create=true
#druid.metadata.storage.connector.host=master.example.com
#druid.metadata.storage.connector.port=1527
#配置MySQL 作为Storage 元数据存储库
# For MySQL:
druid.metadata.storage.type=mysql
druid.metadata.storage.connector.connectURI=jdbc:mysql://node2:3306/druid
druid.metadata.storage.connector.user=root
druid.metadata.storage.connector.password=123456
#
# Deep storage
#
#注释掉默认的本地数据存储
# For local disk (only viable in a cluster if this is a network mount):
#druid.storage.type=local
#druid.storage.storageDirectory=var/druid/segments
#配置HDFS存储
# For HDFS:
druid.storage.type=hdfs
druid.storage.storageDirectory=hdfs://mycluster/druid/segments
5、配置coordinator节点
进入“/software/imply-2021.07/conf/druid/coordinator”路径下,配置“runtime.properties”,配置coordinator节点:
druid.service=druid/coordinator
#配置Druid coordinator节点
druid.host=node3
druid.port=8081
druid.coordinator.startDelay=PT30S
druid.coordinator.period=PT30S
6、配置overlord节点
进入“/software/imply-2021.07/conf/druid/overlord”路径,配置“runtime.properties”,配置overlord节点。
druid.service=druid/overlord
#配置overlord节点
druid.host=node3
druid.port=8090
druid.indexer.queue.startDelay=PT30S
druid.indexer.runner.type=remote
druid.indexer.storage.type=metadata
7、配置historical节点
进入“/software/imply-2021.07/conf/druid/historical”路径,配置“runtime.properties”,配置historical节点。
druid.service=druid/historical
#配置Druid historical节点
druid.host=node4
druid.port=8083
#配置Historical缓存内存,默认是512M,这里配置1M,不然内存不足会报错
#druid.processing.buffer.sizeBytes=536870912
druid.processing.buffer.sizeBytes=1048576
8、配置middleManager节点
进入“/software/imply-2021.07/conf/druid/middleManager”路径,配置“runtime.properties”,配置middleManager节点。
druid.service=druid/middlemanager
#配置Druid middleManager节点
druid.host=node4
druid.port=8091
9、配置broker节点
进入“/software/imply-2021.07/conf/druid/broker”路径,配置“runtime.properties”,配置broker节点。
druid.service=druid/broker
#配置Druid broker节点
druid.host=node5
druid.port=8082
# Processing threads and buffers
#配置broker缓存数据大小默认是512M,这里设置1M,后期内存不足会报错
#druid.processing.buffer.sizeBytes=536870912
druid.processing.buffer.sizeBytes=1048576
10、配置router节点
进入“/software/imply-2021.07/conf/druid/router”路径,配置“runtime.properties”,配置router节点。
druid.service=druid/router
#配置Druid router节点
druid.host=node5
druid.port=8888
11、配置config.yaml
进入“/software/imply-2021.07/conf/pivot”路径,配置“config.yaml”配置文件:
initialSettings:
connections:
- name: druid
type: druid
title: My Druid
#host: localhost:8888
#配置集群访问节点,及角色节点,注意空格
host: node5:8888
coordinatorHosts: ["node3:8081"]
overlordHosts: ["node3:8090"]
#注释掉默认的StateStore配置
#stateStore:
# type: sqlite
# connection: var/pivot/pivot-settings.sqlite
#
# 2) Database-backed state 'mysql' (MySQL) or 'pg' (Postgres)
#
#配置StateStore
stateStore:
location: mysql
type: mysql
connection: 'mysql://root:123456@node2:3306/pivot'
12、修改每个服务启动JVM内存参数
正常情况下,如果我们采用的是真实的服务器,修改以上配置文件可以启动集群,如果使用虚拟机,需要修改下每个服务启动JVM内存参数,将默认配置的大的内存改小一些,改为1g,默认配置小于1g的可以不做修改。
在Druid中,为了提高查询效率,Broker会缓存大量的数据到内存中,如果内存越大,实际查询效率越高。
- 修改“/software/imply-2021.07/conf/druid/broker/jvm.config”
-Xms1g
-Xmx1g
-XX:MaxDirectMemorySize=1g
- 修改“/software/imply-2021.07/conf/druid/coordinator/jvm.config”
-Xms1g
-Xmx1g
- 修改“/software/imply-2021.07/conf/druid/historical/jvm.config”
-Xms1g
-Xmx1g
-XX:MaxDirectMemorySize=1g
- 修改“/software/imply-2021.07/conf/druid/overlord/jvm.config”
-Xms1g
-Xmx1g
- 将以上配置好的imply发送到node4,node5节点上
[root@node3 software]# scp -r ./imply-2021.07 node4:/software/
[root@node3 software]# scp -r ./imply-2021.07 node5:/software/
- 在node3、node4、node5节点上配置imply环境变量
#在node3、node4、node5节点上修改/etc/profile文件
export DRUID_HOME=/software/imply-2021.07/
export PATH=$PATH:$DRUID_HOME/bin
#使profile生效
source /etc/profile
三、启动imply集群
#在node3、node4、node5节点上,启动zookeeper集群
zkServer.sh start
#在node3上启动 overlord 和 coordinator
[root@node3 ~]# supervise -c /software/imply-2021.07/conf/supervise/master-no-zk.conf
注意:-c指定的master-no-zk.conf指的是不适用内部自带zookeeper,使用外部zookeeper,在此文件中可以看到启动overlord和coordinator。可以后面指定-daemon在后台启动。
#在node4上启动historical和middleManager
[root@node4 ~]# supervise -c /software/imply-2021.07/conf/supervise/data.conf
注意:-c指定的data.conf中有启动historical和middleManager信息。可以后面指定-daemon在后台启动
#在node5上启动broker和router
[root@node5 ~]# supervise -c /software/imply-2021.07/conf/supervise/query.conf
注意:-c指定的query.conf中有启动broker和router的信息。可以后面指定-daemon在后台启动。
初次启动时,建议前台启动,如果启动不成功会一直重试,并显示相应错误日志路径。启动成功后,在对应节点jps可以看到每个节点都有两个Main进程,当ctrl+c 取消前台进程时,对应的Main进程也会停止。
如果Druid启动没有问题,那么也可以编写启动脚本,在node3节点进入/software/imply-2021.07/bin目录下,创建start-druid.sh脚本,内容如下:
nohup ssh node3 "source /etc/profile; supervise -c /software/imply-2021.07/conf/supervise/master-no-zk.conf -daemon >> /software/druid.log 2>&1"
&nohup ssh node4 "source /etc/profile; supervise -c /software/imply-2021.07/conf/supervise/data.conf -daemon >> /software/druid.log 2>&1" &
nohup ssh node5 "source /etc/profile; supervise -c /software/imply-2021.07/conf/supervise/query.conf -daemon >> /software/druid.log 2>&1" &
脚本附件如下:
nohup ssh node3 "source /etc/profile; supervise -c /software/imply-2021.07/conf/supervise/master-no-zk.conf -daemon" &
nohup ssh node4 "source /etc/profile; supervise -c /software/imply-2021.07/conf/supervise/data.conf -daemon" &
nohup ssh node5 "source /etc/profile; supervise -c /software/imply-2021.07/conf/supervise/query.conf -daemon" &
编写完成后,修改start-druid.sh执行权限,执行start-druid.sh启动Druid集群。
[root@node3 bin]# chmod +x start-druid.sh
如果停止Druid集群,可以在node3、node4、node5节点上使用如下命令:
/software/imply-2021.07/bin/service --down
也可以在node3 /software/imply-2021.07/bin目录下编写成停止脚本stop-druid.sh,并设置权限,执行stop-druid.sh停止集群:
nohup ssh node3 "/software/imply-2021.07/bin/service --down" &
nohup ssh node4 "/software/imply-2021.07/bin/service --down" &
nohup ssh node5 "/software/imply-2021.07/bin/service --down" &
脚本附件如下:
nohup ssh node3 "/software/imply-2021.07/bin/service --down" &
nohup ssh node4 "/software/imply-2021.07/bin/service --down" &
nohup ssh node5 "/software/imply-2021.07/bin/service --down" &
四、访问Druid WebUI
组件名称 |
功能 |
URL |
---|---|---|
broker |
查询服务 |
http://node5:8888 |
|
pivot可视化页 |
http://node5:9095/pivot/home |
- 点赞
- 收藏
- 关注作者
评论(0)