《Hadoop权威指南:大数据的存储与分析》—3.5.3 写入数据

举报
清华大学出版社 发表于 2019/10/12 13:57:26 2019/10/12
【摘要】 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第三章,第3.5.3节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。

3.5.3  写入数据

FileSystem类有一系列新建文件的方法。最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流:

public FSDataOutputStream create(Path f) throws IOException

 

此方法有多个重载版本,允许我们指定是否需要强制覆盖现有的文件、文件备份数量、写入文件时所用缓冲区大小、文件块大小以及文件权限。

create()方法能够为需要写入且当前不存在的文件创建父目录。尽管这样很方便,但有时并不希望这样。如果希望父目录不存在就导致文件写入失败,则应该先调用exists()方法检查父目录是否存在。另一种方案是使用FileContext,允许你可以控制是否创建父目录。

还有一个重载方法Progressable用于传递回调接口,如此一来,可以把数据写入datanode的进度通知给应用:

package org.apache.hadoop.util; 

 

public interface Progressable { 

  public void progress(); 

}

 

另一种新建文件的方法是使用append()方法在一个现有文件末尾追加数据(还有其他一些重载版本)

public FSDataOutputStream append(Path f) throws IOException

 

这样的追加操作允许一个writer打开文件后在访问该文件的最后偏移量处追加数据。有了这个API,某些应用可以创建无边界文件,例如,应用可以在关闭日志文件之后继续追加日志。该追加操作是可选的,并非所有Hadoop文件系统都实现了该操作。例如,HDFS支持追加,但S3 文件系统就不支持。

范例3-4 显示了如何将本地文件复制到Hadoop文件系统。每次Hadoop调用progress()方法时,也就是每次将64 KB数据包写入datanode管线后,打印一个时间点来显示整个运行过程。注意,这个操作并不是通过API实现的,因此Hadoop后续版本能否执行该操作,取决于该版本是否修改过上述操作。API只是让你知道正在发生什么事情”。

范例3-4. 将本地文件复制到Hadoop文件系统

 public class FileCopyWithProgress { 

   public static void main(String[] args) throws Exception { 

     String localSrc = args[0]; 

     String dst = args[1]; 

     InputStream in = new BufferedInputStream(new FileInputStream(localSrc))

   

     Configuration conf = new Configuration(); 

     FileSystem fs = FileSystem.get(URI.create(dst), conf); 

     OutputStream out = fs.create(new Path(dst), new Progressable() { 

       public void progress() { 

         System.out.print("."); 

       } 

     }); 

      

     IOUtils.copyBytes(in, out, 4096, true); 

   } 

 }

 

典型应用如下:

% hadoop FileCopyWithProgress input/docs/1400-8.txt

hdfs://localhost/user/tom/1400-8.txt  

 ...............

目前,其他Hadoop文件系统写入文件时均不调用progress()方法。后面几章将展示进度对MapReduce应用的重要性。

FSDataOutputStream对象

FileSystem实例的create()方法返回FSDataOutputStream对象,与FSDataInputStream类相似,它也有一个查询文件当前位置的方法:

 package org.apache.hadoop.fs; 

 

 public class FSDataOutputStream extends DataOutputStream implements Syncable

 

   public long getPos() throws IOException { 

     // implementation elided 

   } 

    

    // implementation elided 

 }

 

但与FSDataInputStream类不同的是,FSDataOutputStream类不允许在文件中定位。这是因为HDFS只允许对一个已打开的文件顺序写入,或在现有文件的末尾追加数据。换句话说,它不支持在除文件末尾之外的其他位置进行写入,因此,写入时定位就没有什么意义。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。