- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Hive快速入门系列(12) | Hive的数据压缩介绍及使用

不温卜火发表于 2020/12/02 23:47:41 2020/12/02

【摘要】此次博主为大家带来的是Hive的数据压缩介绍及使用。目录一. Hadoop源码编译支持Snappy压缩1.1 资源准备1.2 jar包安装1.3 编译源码二. Hadoop压缩配置2.1 MR支持的压缩编码2.2 压缩参数配置三. 开启Map输出阶段压缩四. 开启Reduce输出阶段压缩一. Hadoop源码编译支持Snappy...

此次博主为大家带来的是Hive的数据压缩介绍及使用。

一. Hadoop源码编译支持Snappy压缩

1.1 资源准备

1．CentOS联网

配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的
注意：采用root角色编译，减少文件夹权限出现问题

2．jar包准备(hadoop源码、JDK8 、maven、protobuf)

（1）hadoop-2.7.2-src.tar.gz
（2）jdk-8u144-linux-x64.tar.gz
（3）snappy-1.1.3.tar.gz
（4）apache-maven-3.0.5-bin.tar.gz
（5）protobuf-2.5.0.tar.gz

如果需要这些文件可自行通过博主分享的链接下载：
链接：https://pan.baidu.com/s/19lM5UgctzCgEkF5S7ZKBtA
提取码：drql

1.2 jar包安装

注意：所有操作必须在root用户下完成

1．JDK解压、配置环境变量JAVA_HOME和PATH，验证java-version(如下都需要验证是否配置成功)

[root@hadoop001 software] # tar -zxf jdk-8u144-linux-x64.tar.gz -C /opt/module/
[root@hadoop001 software]# vi /etc/profile
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
[root@hadoop001 software]#source /etc/profile

  
 
  1
  2
  3
  4
  5
  6

验证命令：java -version

2．Maven解压、配置 MAVEN_HOME和PATH

[root@hadoop001 software]# tar -zxvf apache-maven-3.0.5-bin.tar.gz -C /opt/module/
[root@hadoop001 apache-maven-3.0.5]# vi /etc/profile
#MAVEN_HOME
export MAVEN_HOME=/opt/module/apache-maven-3.0.5
export PATH=$PATH:$MAVEN_HOME/bin
[root@hadoop001 software]#source /etc/profile

  
 
  1
  2
  3
  4
  5
  6

验证命令：mvn -version

1.3 编译源码

1．准备编译环境

[root@hadoop001 software]# yum install svn
[root@hadoop001 software]# yum install autoconf automake libtool cmake
[root@hadoop001 software]# yum install ncurses-devel
[root@hadoop001 software]# yum install openssl-devel
[root@hadoop001 software]# yum install gcc*

  
 
  1
  2
  3
  4
  5

2．编译安装snappy

[root@hadoop001 software]# tar -zxvf snappy-1.1.3.tar.gz -C /opt/module/
[root@hadoop001 module]# cd snappy-1.1.3/
[root@hadoop001 snappy-1.1.3]# ./configure
[root@hadoop001 snappy-1.1.3]# make
[root@hadoop001 snappy-1.1.3]# make install
# 查看snappy库文件
[root@hadoop001 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

  
 
  1
  2
  3
  4
  5
  6
  7

3．编译安装protobuf

[root@hadoop001 software]# tar -zxvf protobuf-2.5.0.tar.gz -C /opt/module/
[root@hadoop001 module]# cd protobuf-2.5.0/
[root@hadoop001 protobuf-2.5.0]# ./configure 
[root@hadoop001 protobuf-2.5.0]#  make 
[root@hadoop001 protobuf-2.5.0]#  make install
# 查看protobuf版本以测试是否安装成功
[root@hadoop001 protobuf-2.5.0]# protoc --version

  
 
  1
  2
  3
  4
  5
  6
  7

4．编译hadoop native

[root@hadoop001 software]# tar -zxvf hadoop-2.7.2-src.tar.gz
[root@hadoop001 software]# cd hadoop-2.7.2-src/
[root@hadoop001 software]# mvn clean package -DskipTests -Pdist,native -Dtar -Dsnappy.lib=/usr/local/lib -Dbundle.snappy

  
 
  1
  2
  3

执行成功后，/opt/software/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz即为新生成的支持snappy压缩的二进制安装包。

二. Hadoop压缩配置

2.1 MR支持的压缩编码

压缩格式	工具	算法	文件扩展名	是否可切分
DEFLATE	无	DEFLATE	.deflate	否
Gzip	gzip	DEFLATE	.gz	否
bzip2	bzip2	bzip2	.bz2	是
LZO	lzop	LZO	.lzo	是
Snappy	无	Snappy	.snappy	否

为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器:

压缩格式	对应的编码/解码器
DEFLATE	org.apache.hadoop.io.compress.DefaultCodec
gzip	org.apache.hadoop.io.compress.GzipCodec
bzip2	org.apache.hadoop.io.compress.BZip2Codec
LZO	com.hadoop.compression.lzo.LzopCodec
Snappy	org.apache.hadoop.io.compress.SnappyCodec

压缩性能的比较

压缩算法	原始文件大小	压缩文件大小	压缩速度	解压速度
gzip	8.3GB	1.8GB	17.5MB/s	58MB/s
bzip2	8.3GB	1.1GB	2.4MB/s	9.5MB/s
LZO	8.3GB	2.9GB	49.3MB/s	74.6MB/s

在此，我并没有写Snappy，下面我们先看到snappy的开源网站上看看。
http://google.github.io/snappy/

On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

  
 
  1

我们可以看到snappy压缩达到了250MB/s,解压达到了500MB/s,这性能直接碾压上面所列举的那几个!所以snappy也常作为企业数据压缩格式!

2.2 压缩参数配置

要在Hadoop中启用压缩，可以配置如下参数（mapred-site.xml文件中）：

参数	默认值	阶段	建议
io.compression.codecs （在core-site.xml中配置）	org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.Lz4Codec	输入压缩	Hadoop使用文件扩展名判断是否支持某种编解码器
mapreduce.map.output.compress	false	mapper输出	这个参数设为true启用压缩
mapreduce.map.output.compress.codec	org.apache.hadoop.io.compress.DefaultCodec	mapper输出	使用LZO、LZ4或snappy编解码器在此阶段压缩数据
mapreduce.output.fileoutputformat.compress	false	reducer输出	这个参数设为true启用压缩
mapreduce.output.fileoutputformat.compress.codec	org.apache.hadoop.io.compress. DefaultCodec	reducer输出	使用标准工具或者编解码器，如gzip和bzip2
mapreduce.output.fileoutputformat.compress.type	RECORD	reducer输出	SequenceFile输出使用的压缩类型：NONE和BLOCK

三. 开启Map输出阶段压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下：

案例实操：

1. 开启hive中间传输数据压缩功能

hive (default)>set hive.exec.compress.intermediate=true;

  
 
  1

2. 开启mapreduce中map输出压缩功能

hive (default)>set mapreduce.map.output.compress=true;

  
 
  1

3. 设置mapreduce中map输出数据的压缩方式

hive (default)>set mapreduce.map.output.compress.codec=
 org.apache.hadoop.io.compress.SnappyCodec;


  
 
  1
  2
  3

4. 执行查询语句

hive (default)> select count(ename) name from emp;

  
 
  1

四. 开启Reduce输出阶段压缩

当Hive将输出写入到表中时，输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。用户可能需要保持默认设置文件中的默认值false，这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true，来开启输出结果压缩功能。

案例实操：

1. 开启hive最终输出数据压缩功能

hive (default)>set hive.exec.compress.output=true;

  
 
  1

2. 开启mapreduce最终输出数据压缩

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

  
 
  1

3. 设置mapreduce最终数据输出压缩方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec =
 org.apache.hadoop.io.compress.SnappyCodec;


  
 
  1
  2
  3

4. 设置mapreduce最终数据输出压缩为块压缩

hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

  
 
  1

5. 测试一下输出结果是否是压缩文件

hive (default)> insert overwrite local directory
 '/opt/module/datas/distribute-result' select * from emp distribute by deptno sort by empno desc;


  
 
  1
  2
  3

本次的分享就到这里了,

$\color{#FF0000}{看完就赞，养成习惯！！！}$ ^ _ ^ ❤️ ❤️ ❤️
码字不易，大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦！

文章来源: buwenbuhuo.blog.csdn.net，作者：不温卜火，版权归原作者所有，如需转载，请联系作者。

原文链接：buwenbuhuo.blog.csdn.net/article/details/105859913

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入