- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Hadoop权威指南：大数据的存储与分析》—3.5.3 写入数据

清华大学出版社发表于 2019/10/12 13:57:26 2019/10/12

【摘要】本节书摘来自清华大学出版社《Hadoop权威指南：大数据的存储与分析》一书中第三章，第3.5.3节，作者是Tom White ，王海华东刘喻吕粤海译。

3.5.3 写入数据

FileSystem类有一系列新建文件的方法。最简单的方法是给准备建的文件指定一个Path对象，然后返回一个用于写入数据的输出流：

public FSDataOutputStream create(Path f) throws IOException

此方法有多个重载版本，允许我们指定是否需要强制覆盖现有的文件、文件备份数量、写入文件时所用缓冲区大小、文件块大小以及文件权限。

create()方法能够为需要写入且当前不存在的文件创建父目录。尽管这样很方便，但有时并不希望这样。如果希望父目录不存在就导致文件写入失败，则应该先调用exists()方法检查父目录是否存在。另一种方案是使用FileContext，允许你可以控制是否创建父目录。

还有一个重载方法Progressable用于传递回调接口，如此一来，可以把数据写入datanode的进度通知给应用：

package org.apache.hadoop.util;

public interface Progressable {

public void progress();

}

另一种新建文件的方法是使用append()方法在一个现有文件末尾追加数据(还有其他一些重载版本)：

public FSDataOutputStream append(Path f) throws IOException

这样的追加操作允许一个writer打开文件后在访问该文件的最后偏移量处追加数据。有了这个API，某些应用可以创建无边界文件，例如，应用可以在关闭日志文件之后继续追加日志。该追加操作是可选的，并非所有Hadoop文件系统都实现了该操作。例如，HDFS支持追加，但S3 文件系统就不支持。

范例3-4 显示了如何将本地文件复制到Hadoop文件系统。每次Hadoop调用progress()方法时，也就是每次将64 KB数据包写入datanode管线后，打印一个时间点来显示整个运行过程。注意，这个操作并不是通过API实现的，因此Hadoop后续版本能否执行该操作，取决于该版本是否修改过上述操作。API只是让你知道“正在发生什么事情”。

范例3-4. 将本地文件复制到Hadoop文件系统

public class FileCopyWithProgress {

public static void main(String[] args) throws Exception {

String localSrc = args[0];

String dst = args[1];

InputStream in = new BufferedInputStream(new FileInputStream(localSrc));

Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(URI.create(dst), conf);

OutputStream out = fs.create(new Path(dst), new Progressable() {

public void progress() {

System.out.print(".");

}

});

IOUtils.copyBytes(in, out, 4096, true);

}

典型应用如下：

% hadoop FileCopyWithProgress input/docs/1400-8.txt

hdfs://localhost/user/tom/1400-8.txt

...............

目前，其他Hadoop文件系统写入文件时均不调用progress()方法。后面几章将展示进度对MapReduce应用的重要性。

FSDataOutputStream对象

FileSystem实例的create()方法返回FSDataOutputStream对象，与FSDataInputStream类相似，它也有一个查询文件当前位置的方法：

package org.apache.hadoop.fs;

public class FSDataOutputStream extends DataOutputStream implements Syncable {

public long getPos() throws IOException {

// implementation elided

}

// implementation elided

}

但与FSDataInputStream类不同的是，FSDataOutputStream类不允许在文件中定位。这是因为HDFS只允许对一个已打开的文件顺序写入，或在现有文件的末尾追加数据。换句话说，它不支持在除文件末尾之外的其他位置进行写入，因此，写入时定位就没有什么意义。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Hadoop权威指南：大数据的存储与分析》—3.5.3 写入数据

3.5.3 写入数据

FSDataOutputStream对象

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品