- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

张小白DataX踩坑记（一）

张辉发表于 2022/02/13 20:27:19 2022/02/13

【摘要】记录三段不愉快的数据库迁移经历。

Alibaba DataX、Pentaho Data Integration（Kettle）、Apache Sqoop、Oracle Golden Gate、Alibaba Canel是目前流行的数据库迁移工具，它们的能力在于异构数据库之间的数据同步。在实际业务中，往往一类业务系统产生的数据，需要传递给下游系统（如数据集市、数据仓库，或其他应用系统）。数据库迁移工具就起到这样的桥梁作用。

Alibaba DataX是马爸爸推出的软件，可以实现MySQL、Oracle、OceanBase、SqlServer、Postgres、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等数据库之间的数据同步。代码仓地址为：https://github.com/alibaba/DataX

Pentaho Data Integration在中国被称为水壶（Kettle），它是一个具备集群能力的数据库ETL工具。它的官网可能是：http://www.kettle.be/

Apache Sqoop是Apache推出的开源工具，用于从HDFS向关系型数据库互传数据。由于具备互传能力，故而也间接实现了两个关系数据库之间的数据同步。官网地址：https://sqoop.apache.org 代码仓地址为：https://github.com/apache/sqoop

Oracle Golden Gate（简称OGG）是GoldenGate推出的基于日志的关系型数据库的复制软件。GoldenGate被Oracle公司收购后改为此名。它通过抽取源数据库端的redo log 或者 archive log ，传递到目标数据库端，再解析对目的数据进行数据同步。OGG的官网地址为：https://www.oracle.com/middleware/technologies/goldengate-downloads.html

Alibaba Canel也是马爸爸推出的一款软件，它通过伪装成MySQL的slave，对MySQL的日志进行解析，传输，实现数据迁移。代码仓地址为：https://github.com/alibaba/canal

现在张小白来试用一下DataX。

打开官网地址：https://github.com/alibaba/DataX

复制git地址：

git clone https://github.com/alibaba/DataX.git

好像连不上，这个时候可以下载zip包，或者使用gitee过渡。

git clone https://gitee.com/zhanghui_china/DataX.git

浏览器打开 https://github.com/alibaba/DataX/blob/master/userGuid.md

我们来使用源码编译打包：

mvn -U clean package assembly:assembly -Dmaven.test.skip=true

。。

耐心等待打包结束。。。

好像出了问题。

再次检查系统环境要求：

原来需要Linux环境

那就用wsl环境试下：

检查java版本：

mvn -U clean package assembly:assembly -Dmaven.test.skip=true

好像是跟windows下源码编译打包报同样的错误。

尴尬了，好像玩转不下去了。

那就直接下载已经编译好的zip包试试吧。。

wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

解压

tar -zxvf datax.tar.gz

先在MySQL建个表：my_user

并插入一条数据。

我们来试图将其迁移到ElasticSearch表中。

ElasticSearch环境可按照张小白教你如何在CentOS7上安装ElasticSearch 7.16.3 https://bbs.huaweicloud.com/blogs/330012 的方式搭建。

先创建一个json文件：

{
    "job": {
        "setting": {
            "speed": {
                 "channel":10
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "xxx",
                        "password": "xxx",
                        "column": [
                            "user_id",
                            "user_name"
                        ],
                        "connection": [
                            {
                                "table": [
                                    "my_user"
                                ],
                                "jdbcUrl": [
                                    "jdbc:mysql://xx.xx.xx.xx:3306/zhanghui"
                                ]
                            }
                        ]
                    }
                },
				"writer": {
                    "name": "elasticsearchwriter",
                    "parameter": {
                      "endpoint": "http://192.168.111.133:9200",
                      "accessId": "elastic",
                      "accessKey": "123456",
                      "index": "my_user",
                      "type": "my_user",
                      "cleanup": true,
                      "discovery": false,
                      "batchSize": 1000,
                      "splitter": ",",
                      "column": [
                        {"name": "user_id", "type": "text"},
                        {"name": "user_name","type": "text" }
                      ]
                    }
                }    
            }
            
        ]
    }
}

其中，reader段表明从mysql数据库读取，只读user_name和user_id两列数据。(上图中，真实的mysql用户名密码已经隐去）

writer段表明写入到elasticsearch，写入的index就是对应原来MySQL的表名，而index下的type，目前建议跟index保持一致即可。ES6以后在弱化type。所以我们可以认为，不同的index就可以去对应MySQL不同的表就可以了。

我们先看一下ES中的索引情况：

登录ES，切换到索引管理：

然后我们回到 wsl2的ubuntu执行以下命令：

python datax.py mysql_to_es7.json

报错了！

打开datax.py一看，很多语句写的都是print而非print（）

那就得告诉DataX，我们得用python2咯？

那就用 conda建一个python 2.7.18的环境吧：

进入这个环境：

执行下试试：

奇怪，我要执行es的写入，跟 mongodbreader有啥关系？

查了下网上的解释，需要将所有下划线开头的文件全删掉。

同理删掉writer下的：

再来执行：

安装错误？我这个下的就是你们马爸爸做好的包啊。还要什么安装。。。

张小白无奈地闭上眼睛——就这样吧。明天再说！

（未完待续）

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

张小白DataX踩坑记（一）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

张小白DataX踩坑记（一）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品