- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

SQOOP

Smy1121 发表于 2019/06/21 14:47:18 2019/06/21

【摘要】什么是Sqoop

SQOOP

01 sqoop 概述

02 sqoop1 与 sqoop2的比较

03 sqoop 在生态系统中的位置

04 sqoop 架构

05 sqoop import 功能

06 sqoop export 功能

Sqoop 产生背景

1、目前很多使用hadoop技术的企业，有大量的数据存储在传统关系型数据库中。

2、早期由于工具的缺乏，hadoop与传统数据库之间的数据传输非常困难。

1）传统数据库中的数据导入到hadoop中，便于廉价的分析与处理

2）hadoop中的数据导入传统数据库，可利用强大的sql进一步分析和展示。

什么是Sqoop

1、sqoop 名字的来源：SQL-to-Hadoop

2、我们可以把它看做成连接传统数据库和Hadoop的桥梁

1）把关系型数据库中的数据导入到hadoop或者与其相关的系统比如HDFS 、hive 、Hbase

2）把hadoop中的数据抽取出来，导入到关系型数据库中

3、它的设计思想就是：利用MapReduce加快数据传输速度

Sqoop 的优势

1、sqoop可以高效的可控的利用资源，比如它可以通过调整任务数，来控制任务的并发度，另外还可以配置数据库的访问时间等等

2、sqoop能自动的完成数据类型的映射与转换

3、它支持多种数据库，比如mysql oracle，postgresql

Sqoop1与Sqoop2的比较

1、sqoop1和sqoop2是两个不同的版本，它们是完全不兼容的

2、版本划分方式：Apache 1.4.x 之后的版本属于sqoop1,1.99.x之上的版本属于sqoop2

3、与sqoop1相比，sqoop2的优势

1）它引入的sqoop Server，便于集中化的管理Connector或者其它的第三方插件

2）多种访问方式：CLI、Web UI、REST API

3）它引入了基于角色的安全机制，管理员可以在sqoopServer上，配置不同的角色。

为什么选择Sqoop1

1）大部分企业还在使用sqoop1版本

2）sqoop1能满足公司的基本需求

3）sqoop2 功能还不是很成熟和完善

4）sqoop只是一个工具而已，相对比较简单

Sqoop 的基本架构

Sqoop Import 原理

Sqoop Import 详细流程

Sqoop在import时，需要指定split-by参数。Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同map中。

每个map中再处理数据库中获取的一行一行的值，写入到HDFS中(由此也可知，导入导出的事务是以Mapper任务为单位)。

同时split-by根据不同的参数类型有不同的切分方法，如比较简单的int型，Sqoop会取最大和最小split-by字段值，然后根据传入的num-mappers来确定划分几个区域。

比如select max(split_by),min(split-by) from得到的max(split-by)和min(split-by)分别为1000和1，而num-mappers为2的话，则会分成两个区域(1,500)和(501-1000),同时也会分成2个sql给2个map去进行导入操作，分别为select XXX from table where split-by>=1 and split-by<500和select XXX from table where split-by>=501 and split-by<=1000。最后每个map各自获取各自SQL中的数据进行导入工作。

Sqoop Export 原理

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

SQOOP

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

SQOOP

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品