《企业级大数据平台构建:架构与实现》——2.1.3 核心设计目标

举报
华章计算机 发表于 2019/06/06 15:40:33 2019/06/06
【摘要】 本书摘自《企业级大数据平台构建:架构与实现》——书中第2章,2.1.3节,作者是朱凯。

2.1.3 核心设计目标

1.?硬件错误

在HDFS的运行环境中,硬件错误是常态而不是异常。因为HDFS集群可能是由成百上千的服务器所组成的,每个服务器上存储着文件系统的部分数据。这些服务器可能是廉价的通用硬件,这意味着它们不够稳定,随时可能损坏。因此错误检测和快速、自动恢复是HDFS最核心的架构目标。

2.?流式数据访问

运行在HDFS上的应用需要以流的方式访问它们的数据集,在这一点上它和普通的应用有所不同。HDFS的设计中更多考虑是数据的批处理场景,而不是用户交互式处理。HDFS更关注于数据访问的高吞吐量。

3.?大规模数据集

运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小通常都在GB级至TB级之间。因此,HDFS被调试成支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。

4.?简单的一致性模型

HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

5.?移动计算比移动数据更划算

一个应用请求的计算,距离它操作的数据越近就越高效,在数据达到海量级别的时候更是如此。因为这样就能降低网络阻塞的影响,提高系统数据的吞吐量。将计算移动到数据附近,比将数据移动到应用所在之处显然更好。HDFS提供了将应用移动到数据附近的接口的功能。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。