HDFS--Hadoop分布式文件系统
【摘要】
HDFS是什么
HDFS设计特性和概念
HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。
HDFS具有如下设计特性:
(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都...
HDFS是什么
HDFS设计特性和概念
HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。
HDFS具有如下设计特性:
(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都有PB级别的HDFS,百度应该有国内最大规模的HDFS,几十PB。
(2)流式数据访问,一次写入,多次读取,所处理的场景中,读取整个数据的延迟比读取第一条记录的时间延迟重要。
(3)运行在普通商用PC即可,比如3万级别的普通PC服务器(16-32G ECC内存,8-16核CPU)。
(4)是为高数据吞吐量优化的,以高时间延迟为代价。
(5)推荐处理大量小文件,由于namenode将文件系统的元数据存储在内存中,故文件总数受制于namenode节点内存。根据经验,一个文件/目录/block大约占用150自己,所以亿级别文件还可以,10亿级别内存就不够了。
(6)对于写入,只能有一个写入操作,也只能把内容添加在文件的末尾。
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/25873173
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)