HDFS--Hadoop分布式文件系统

举报
格图洛书 发表于 2021/12/30 02:15:14 2021/12/30
【摘要】 HDFS是什么 HDFS设计特性和概念 HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。 HDFS具有如下设计特性: (1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都...


HDFS是什么


HDFS设计特性和概念


HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。

HDFS具有如下设计特性:

(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都有PB级别的HDFS,百度应该有国内最大规模的HDFS,几十PB。

(2)流式数据访问,一次写入,多次读取,所处理的场景中,读取整个数据的延迟比读取第一条记录的时间延迟重要。

(3)运行在普通商用PC即可,比如3万级别的普通PC服务器(16-32G ECC内存,8-16核CPU)。

(4)是为高数据吞吐量优化的,以高时间延迟为代价。

(5)推荐处理大量小文件,由于namenode将文件系统的元数据存储在内存中,故文件总数受制于namenode节点内存。根据经验,一个文件/目录/block大约占用150自己,所以亿级别文件还可以,10亿级别内存就不够了。

(6)对于写入,只能有一个写入操作,也只能把内容添加在文件的末尾。

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/25873173

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。