- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Shell遍历hadoop目录的批量操作

小工匠发表于 2021/09/11 01:09:38 2021/09/11

【摘要】需求背景每天产生3T（约2.5W个gz压缩文件）的DPI日志文件，因存储等各种问题，需要尽可能的节约存储。日志文件中有26个字段，根据业务需求需要提取6个字段。解决方法通过shell脚本通...

需求背景

每天产生3T（约2.5W个gz压缩文件）的DPI日志文件，因存储等各种问题，需要尽可能的节约存储。日志文件中有26个字段，根据业务需求需要提取6个字段。

解决方法

通过shell脚本
通过MR程序（推荐，本篇不做论述）

结论：经验证得出的结论shell脚本大约5~10S处理一个文件，比较慢，对于这样大量且分散的情况，不推荐，但可以提供一个思路。
根据实际情况处理步骤包括：从hdfs获取文件到本地存储，解压gz文件，通过awk逐行扫描获取所需字段，重定向到文本文件，删除解压后的文件以便节省空间。

粗略Shell实现

#!/bin/sh
##############################
## 名称: PickDataFromHdfs
## 描述: 
## 参数: 日期 [20160104]
## 日期: 2016-01-04
##############################


#外部参数
day_id=$1
echo $day_id


#统计 
curtime=`date +%Y%m%d%H%M%S`

#将目录保存到文件
echo "Get File List begin:$curtime"
DIR="/home/hadoop/netlog/source/${day_id}"
hadoop fs -ls ${DIR}|awk '{print $8}' > fileList.txt

# 第一行数据为空,删掉
sed -i  '1d' fileList.txt
echo "the first line is empty ,delte it successfully"

#本地存储目录
LOCAL_DIR="/home/zte/DPI_DATA_EXTRA/dpi_data_temp"
#循环遍历，提取所需数据
cat  /home/zte/DPI_DATA_EXTRA/fileList.txt | while read line
do
    echo "*****************$line  beigin  ${curtime}*****************"
    #获取hdfs文件  copyToLocal  get都可以
     hadoop fs -get $line  $LOCAL_DIR
     echo "${line}    is moved  to   ${LOCAL_DIR} successfully"

    #解压（未解压待验证）
    cd $LOCAL_DIR
    FileGZ=`ls  $LOCAL_DIR`
    #gunzip 
    gunzip $FileGZ
    #逐行提取所需字段
    File=`ls  $LOCAL_DIR`
    echo "decompress file name :$File"
    awk -F'|' '{print $1,$8,$11,$16,$25,$26}'  ${File} >>/home/zte/DPI_DATA_EXTRA/dpi_data_extra/picked_data.txt
    echo " ${File}  data picked finished"
    #节省空间 删除原始文件
    rm -rf ${File} 
    echo "${File} is deleted successfully"

    # 文件上传到hive TODO

    end=`date +%Y%m%d%H%M%S`
    echo "+++++++++++++the Job   finishes , ${end}++++++++++++++++++++++++++"
    echo "+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++"
done
  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41
  42
  43
  44
  45
  46
  47
  48
  49
  50
  51
  52
  53
  54
  55
  56

截取：
/home/hadoop/netlog/source/20151229/2015122907591300361017015.txt.gz
获取2015122907591300361017015：

 awk -F / '{print $7}' fileList.txt|cut -d. -f1 
  
 
  1

文章来源: artisan.blog.csdn.net，作者：小小工匠，版权归原作者所有，如需转载，请联系作者。

原文链接：artisan.blog.csdn.net/article/details/50460180

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Shell遍历hadoop目录的批量操作

需求背景

解决方法

粗略Shell实现

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品