apache-atlas安装步骤

举报
李国有 发表于 2020/04/27 09:52:47 2020/04/27
【摘要】 一. 简介:Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。二. 前置条件:1.节点上已经安装jdk1.82.由于利用先用hbase进行搭建所以集群已经部署安装hbase服务3.OS版本为 CentOS Linux release ...

apache-atlas安装步骤

一. 简介:

Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。

二. 前置条件:

1.节点上已经安装jdk1.8

2.由于利用先用hbase进行搭建所以集群已经部署安装hbase服务

3.OS版本为 CentOS Linux release 7.4.1708 (Core)

4.python版本需要为2

三. 安装步骤: 

atlas下载地址:http://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.0.0/apache-atlas-2.0.0-sources.tar.gz

maven下载地址:https://archive.apache.org/dist/maven/maven-3/3.5.4/binaries/apache-maven-3.5.4-bin.tar.gz

1. 安装maven:

1.1. mkdir /usr/local/dp/maven   创建单独目录

1.2. tar -zxvf apache-maven-3.5.4-bin.tar.gz -C /usr/local/dp/maven      解压缩

1.3. sudo ln -s /usr/local/dp/maven/apache-maven-3.5.4/bin/mvn /usr/bin/mvn   新建软链

1.4. mvn -v   测试是否配置成功

1.5. 配置阿里云Maven国内可用仓库

<mirror>
  <id>alimaven</id>
  <name>aliyun maven</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
  <mirrorOf>central</mirrorOf>
  </mirror>

2. 编译 Apache Atlas

2.1 tar -zxvf apache-atlas-2.0.0-sources.tar.gz 解压 

2.2 cd apache-atlas-sources-2.0.0 进入目录

2.3 export MAVEN_OPTS="-Xms2g -Xmx4g"    配置堆大小

2.4 编译可以选择两种方式:

mvn clean -DskipTests package -Pdist    编译命令,注意该方式编译不会内嵌HBase和Solr

mvn clean -DskipTests package -Pdist,embedded-hbase-solr  采用这种编译方式会内嵌HBase和Solr

我这里选择的是内嵌hbase以及solr版本,不过都可以在后续进行配置取消使用内嵌版本

2.5 编译好的包位于:/home/hadoop/download/apache-atlas-sources-2.0.0/distro/target

3. 部署Apache Atlas

3.1 将编译好的包拷贝到要部署的服务器响应目录,并将 apache-atlas-2.0.0-server.tar.gz进行解压

3.2 此处部署我们选择使用内置的solr以及我们现有的hbase,所以需要修改相应配置文件,

      进入目录/usr/local/dp/apache-atlas-2.0.0/apache-atlas-2.0.0/conf,修改如下两个配置文件

3.3 vim atlas-env.sh更改启动环境变量,修改如下图:

3.4 vim atlas-application.properties更改配置文件,将hbase配置为我们现有hbase,配置如下图:

atlas.graph.storage.hostname=hmaster,hslave1,hslave2 #配制成zookeeper地址

atlas.rest.address=http://hslave2:21000 #rest地址

atlas.audit.hbase.tablename=apache_atlas_entity_audit   #hbase内部创建表明
  atlas.audit.hbase.zookeeper.quorum=hmaster:2181,hslave1:2181,hslave2:2181   #zookeeper地址:端口

3.5 启动apache atlas

export MANAGE_LOCAL_HBASE=false 

export MANAGE_LOCAL_SOLR=true 

bin/atlas_start.py 

(centos如果系统默认使用python3环境的话,用下面命令指定使用系统自带的python2环境启动:/usr/bin/python2 bin/atlas_start.py)

3.6 验证是否启动成功

通过netstat -lntp | grep 21000查看端口是否启动

通过如下 curl -u admin:admin http://localhost:21000/api/atlas/admin/version查看返回结果:

{"Description":"Metadata Management and Data   Governance Platform over   Hadoop","Revision":"release","Version":"2.0.0","Name":"apache-atlas"}

返回如上结果表示启动成功

3.7 通过管理界面登录入口 http://localhost:21000 用户名:admin 密码:admin

3.8 运行测试例子 bin/quick_start.py,如下图:

3.9 登录页面查看例子情况,已经看到如下图数据:

可查看对应表的血缘等

4. 可能遇到问题整理

1.如果是内嵌版本最容易发生的就是hbase和solr没有启动,此时需要通过手动方式将内嵌hbase以及solr进行启动

hbase操作简便些此处略过,solr启动步骤如下:

cd /apache-atlas-2.0.0-server/apache-atlas-2.0.0/solr/bin

执行 : ./solr start -c -z localhost:2181 -p 8984 -force,然后看到下面现象,代表Solr 启动了

也可通过./solr status进行查看

运行后还需执行如下步骤,依次执行下面三条命令

      ./solr create -c vertex_index -shards 1 -replicationFactor 1 -force
     ./solr create -c edge_index -shards 1 -replicationFactor 1 -force
     ./solr create -c fulltext_index -shards 1 -replicationFactor 1 -force

再次重启apache atlas就可以了。

官方说明如下:

 

 

 

5. 部署Hive Hook

1.由于master没有hive环境,需要将hive部署包拷贝过来,配置相应的环境变量,并通过hive命令可以正常访问hive,如下图:

/etc/profile

通过hive命令可以查看表信息

2.在所有部署hiveserver和gateway节点修改hive-site.xml,添加如下配置:

<property>  <name>hive.exec.post.hooks</name>  <value>org.apache.atlas.hive.hook.HiveHook</value>  </property>

3.解压apache-atlas-2.0.0-hive-hook.tar.gz,并将解压apache-atlas-2.0.0-hive-hook中的文件夹全部拷贝到apache-atlas-2.0.0目录中,如下图:

4.所有节点配置hive-env.sh环境变量(感觉只配置atlas所在节点hive-env.sh应该也行,需要测试下),设置export HIVE_AUX_JARS_PATH=<atlas package>/hook/hive目录,如下图:

5.将atlas目录中的conf下atlas-application.properties添加如下图属性,并拷贝到所有节点hive的conf目录中,如下图:

########## Hive Hook Configs ###########
  atlas.hook.hive.synchronous=false # whether to run the hook synchronously.   false recommended to avoid delays in Hive query completion. Default: false
  atlas.hook.hive.numRetries=3 # number of retries for notification failure.   Default: 3
  atlas.hook.hive.queueSize=10000 # queue size for the threadpool. Default:   10000
  atlas.cluster.name=primary #   clusterName to use in qualifiedName of entities. Default: primary

6.将apache-atlas-hive-hook-2.0.0目录下的所有jar包,都拷贝到所有节点hive的lib中

7.重启hive,重启atlas。

hive重启:

kill掉9083、10000端口应用,用以下命令重启,有些环境需要设置spark环境变量,自行设置:

nohup ./bin/hive --service metastore >> ./logs/metastore.log   2>&1 &
  nohup ./bin/hive --service hiveserver2 >> ./logs/hiveserver2.log   2>&1 &

atlas重启:

8.通过命令将hive进行导入,在apache-atlas-2.0.0中的hook-bin目录,此处我用的是全量导入,会提示输入用户名密码,默认admin/admin,如下所示:

hook-bin/import-hive.sh

其他导入方式参照官网:

9.通过WEB页面进行查看验证hive元数据是否已经导入,如下图所示:

hive database已经出现

hive table也已经可以查看

 

 

 

 

 

 

 

 

 


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。