《Hadoop权威指南:大数据的存储与分析》—5.1.2 LocalFileSystem

举报
清华大学出版社 发表于 2019/10/12 18:37:25 2019/10/12
【摘要】 本节书摘来自清华大学出版社《Hadoop权威指南:大数据的存储与分析》一书中第五章,第5.1.2节,作者是Tom White , 王 海 华 东 刘 喻 吕粤海 译。

5.1.2  LocalFileSystem

HadoopLocalFileSystem执行客户端的校验和验证。这意味着在你写入一个名为filename的文件时,文件系统客户端会明确在包含每个文件块校验和的同一个目录内新建一个.filename.crc隐藏文件。文件块的大小由属性file.bytes-per-checksum控制,默认为512个字节。文件块的大小作为元数据存储在.crc文件中,所以即使文件块大小的设置已经发生变化,仍然可以正确读回文件。在读取文件时需要验证校验和,并且如果检测到错误,LocalFileSystem还会抛出一个ChecksumException异常。

校验和的计算代价是相当低的(Java中,它们是用本地代码实现的),一般只是增加少许额外的读/写文件时间。对大多数应用来说,付出这样的额外开销以保证数据完整性是可以接受的。此外,我们也可以禁用校验和计算,特别是在底层文件系统本身就支持校验和的时候。在这种情况下,使用RawLocalFileSystem替代LocalFileSystem。要想在一个应用中实现全局校验和验证,需要将fs.file.impl属性设置为org.apache.hadoop. fs.RawLocalFileSystem进而实现对文件URI的重新映射。还有一个可选方案可以直接新建一个RawLocalFileSystem例。如果想针对一些读操作禁用校验和,这个方案非常有用。示例如下:

Configuration conf = ...

FileSystem fs = new RawLocalFileSystem();

fs.initialize(null, conf);


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。