apache-atlas安装步骤
apache-atlas安装步骤
一. 简介:
Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。
二. 前置条件:
1.节点上已经安装jdk1.8
2.由于利用先用hbase进行搭建所以集群已经部署安装hbase服务
3.OS版本为 CentOS Linux release 7.4.1708 (Core)
4.python版本需要为2
三. 安装步骤:
atlas下载地址:http://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.0.0/apache-atlas-2.0.0-sources.tar.gz
maven下载地址:https://archive.apache.org/dist/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz
1. 安装maven:
1.1. mkdir /usr/local/dp/maven 创建单独目录
1.2. tar -zxvf apache-maven-3.5.4-bin.tar.gz -C /usr/local/dp/maven 解压缩
1.3. sudo ln -s /usr/local/dp/maven/apache-maven-3.5.4/bin/mvn /usr/bin/mvn 新建软链
1.4. mvn -v 测试是否配置成功
1.5. 配置阿里云Maven国内可用仓库
<mirror> |
2. 编译 Apache Atlas
2.1 tar -zxvf apache-atlas-2.0.0-sources.tar.gz 解压
2.2 cd apache-atlas-sources-2.0.0 进入目录
2.3 export MAVEN_OPTS="-Xms2g -Xmx4g" 配置堆大小
2.4 编译可以选择两种方式:
mvn clean -DskipTests package -Pdist 编译命令,注意该方式编译不会内嵌HBase和Solr
mvn clean -DskipTests package -Pdist,embedded-hbase-solr 采用这种编译方式会内嵌HBase和Solr
我这里选择的是内嵌hbase以及solr版本,不过都可以在后续进行配置取消使用内嵌版本
2.5 编译好的包位于:/home/hadoop/download/apache-atlas-sources-2.0.0/distro/target
3. 部署Apache Atlas
3.1 将编译好的包拷贝到要部署的服务器响应目录,并将 apache-atlas-2.0.0-server.tar.gz进行解压
3.2 此处部署我们选择使用内置的solr以及我们现有的hbase,所以需要修改相应配置文件,
进入目录/usr/local/dp/apache-atlas-2.0.0/apache-atlas-2.0.0/conf,修改如下两个配置文件
3.3 vim atlas-env.sh更改启动环境变量,修改如下图:
3.4 vim atlas-application.properties更改配置文件,将hbase配置为我们现有hbase,配置如下图:
atlas.graph.storage.hostname=hmaster,hslave1,hslave2 #配制成zookeeper地址 |
atlas.rest.address=http://hslave2:21000 #rest地址 atlas.audit.hbase.tablename=apache_atlas_entity_audit #hbase内部创建表明 |
3.5 启动apache atlas
export MANAGE_LOCAL_HBASE=false
export MANAGE_LOCAL_SOLR=true
bin/atlas_start.py
(centos如果系统默认使用python3环境的话,用下面命令指定使用系统自带的python2环境启动:/usr/bin/python2 bin/atlas_start.py)
3.6 验证是否启动成功
通过netstat -lntp | grep 21000查看端口是否启动
通过如下 curl -u admin:admin http://localhost:21000/api/atlas/admin/version查看返回结果:
{"Description":"Metadata Management and Data Governance Platform over Hadoop","Revision":"release","Version":"2.0.0","Name":"apache-atlas"} |
返回如上结果表示启动成功
3.7 通过管理界面登录入口 http://localhost:21000 用户名:admin 密码:admin
3.8 运行测试例子 bin/quick_start.py,如下图:
3.9 登录页面查看例子情况,已经看到如下图数据:
可查看对应表的血缘等
4. 可能遇到问题整理
1.如果是内嵌版本最容易发生的就是hbase和solr没有启动,此时需要通过手动方式将内嵌hbase以及solr进行启动
hbase操作简便些此处略过,solr启动步骤如下:
cd /apache-atlas-2.0.0-server/apache-atlas-2.0.0/solr/bin
执行 : ./solr start -c -z localhost:2181 -p 8984 -force,然后看到下面现象,代表Solr 启动了
也可通过./solr status进行查看
运行后还需执行如下步骤,依次执行下面三条命令
./solr create -c vertex_index -shards 1 -replicationFactor 1 -force
./solr create -c edge_index -shards 1 -replicationFactor 1 -force
./solr create -c fulltext_index -shards 1 -replicationFactor 1 -force
再次重启apache atlas就可以了。
官方说明如下:
5. 部署Hive Hook
1.由于master没有hive环境,需要将hive部署包拷贝过来,配置相应的环境变量,并通过hive命令可以正常访问hive,如下图:
/etc/profile
通过hive命令可以查看表信息
2.在所有部署hiveserver和gateway节点修改hive-site.xml,添加如下配置:
<property> <name>hive.exec.post.hooks</name> <value>org.apache.atlas.hive.hook.HiveHook</value> </property> |
3.解压apache-atlas-2.0.0-hive-hook.tar.gz,并将解压apache-atlas-2.0.0-hive-hook中的文件夹全部拷贝到apache-atlas-2.0.0目录中,如下图:
4.所有节点配置hive-env.sh环境变量(感觉只配置atlas所在节点hive-env.sh应该也行,需要测试下),设置export HIVE_AUX_JARS_PATH=<atlas package>
/hook/hive目录,如下图:
5.将atlas目录中的conf下atlas-application.properties添加如下图属性,并拷贝到所有节点hive的conf目录中,如下图:
########## Hive Hook Configs ########### |
6.将apache-atlas-hive-hook-2.0.0目录下的所有jar包,都拷贝到所有节点hive的lib中
7.重启hive,重启atlas。
hive重启:
kill掉9083、10000端口应用,用以下命令重启,有些环境需要设置spark环境变量,自行设置:
nohup ./bin/hive --service metastore >> ./logs/metastore.log 2>&1 & |
atlas重启:
8.通过命令将hive进行导入,在apache-atlas-2.0.0中的hook-bin目录,此处我用的是全量导入,会提示输入用户名密码,默认admin/admin,如下所示:
hook-bin/import-hive.sh |
其他导入方式参照官网:
9.通过WEB页面进行查看验证hive元数据是否已经导入,如下图所示:
hive database已经出现
hive table也已经可以查看
- 点赞
- 收藏
- 关注作者
评论(0)