Shell遍历hadoop目录的批量操作
【摘要】
需求背景
每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。
解决方法
通过shell脚本通...
需求背景
每天产生3T(约2.5W个gz压缩文件)的DPI日志文件,因存储等各种问题,需要尽可能的节约存储。日志文件中有26个字段,根据业务需求需要提取6个字段。
解决方法
- 通过shell脚本
- 通过MR程序(推荐,本篇不做论述)
结论: 经验证得出的结论shell脚本大约5~10S处理一个文件,比较慢,对于这样大量且分散的情况,不推荐,但可以提供一个思路。
根据实际情况处理步骤包括:从hdfs获取文件到本地存储,解压gz文件,通过awk逐行扫描获取所需字段,重定向到文本文件,删除解压后的文件以便节省空间。
粗略Shell实现
#!/bin/sh
##############################
## 名称: PickDataFromHdfs
## 描述:
## 参数: 日期 [20160104]
## 日期: 2016-01-04
##############################
#外部参数
day_id=$1
echo $day_id
#统计
curtime=`date +%Y%m%d%H%M%S`
#将目录保存到文件
echo "Get File List begin:$curtime"
DIR="/home/hadoop/netlog/source/${day_id}"
hadoop fs -ls ${DIR}|awk '{print $8}' > fileList.txt
# 第一行数据为空,删掉
sed -i '1d' fileList.txt
echo "the first line is empty ,delte it successfully"
#本地存储目录
LOCAL_DIR="/home/zte/DPI_DATA_EXTRA/dpi_data_temp"
#循环遍历,提取所需数据
cat /home/zte/DPI_DATA_EXTRA/fileList.txt | while read line
do
echo "*****************$line beigin ${curtime}*****************"
#获取hdfs文件 copyToLocal get都可以
hadoop fs -get $line $LOCAL_DIR
echo "${line} is moved to ${LOCAL_DIR} successfully"
#解压(未解压待验证)
cd $LOCAL_DIR
FileGZ=`ls $LOCAL_DIR`
#gunzip
gunzip $FileGZ
#逐行提取所需字段
File=`ls $LOCAL_DIR`
echo "decompress file name :$File"
awk -F'|' '{print $1,$8,$11,$16,$25,$26}' ${File} >>/home/zte/DPI_DATA_EXTRA/dpi_data_extra/picked_data.txt
echo " ${File} data picked finished"
#节省空间 删除原始文件
rm -rf ${File}
echo "${File} is deleted successfully"
# 文件上传到hive TODO
end=`date +%Y%m%d%H%M%S`
echo "+++++++++++++the Job finishes , ${end}++++++++++++++++++++++++++"
echo "+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++"
done
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
截取:
/home/hadoop/netlog/source/20151229/2015122907591300361017015.txt.gz
获取2015122907591300361017015:
awk -F / '{print $7}' fileList.txt|cut -d. -f1
- 1
文章来源: artisan.blog.csdn.net,作者:小小工匠,版权归原作者所有,如需转载,请联系作者。
原文链接:artisan.blog.csdn.net/article/details/50460180
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)