- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

数据分区设计(2)- Key Range分区

JavaEdge 发表于 2022/08/31 23:45:22 2022/08/31

【摘要】为每个分区指定一块连续的K范围（以min和max指示），如纸质百科全书的卷（图-2）。若知K区间边界，就能轻松确定哪个分区包含这些K。若你还知道分区所在节点，则可直接请求相应节点（就像从书架上选取正确书籍）。K区间不一定要均匀分布，因为数据本身可能就不均。如图-2中，1卷包含A、B开头的单词，但12卷则包含T、U、V、X、Y和Z开头单词。若只是简单规定每个卷包含两个字母，可能导致一些卷比其他...

为每个分区指定一块连续的K范围（以min和max指示），如纸质百科全书的卷（图-2）。若知K区间边界，就能轻松确定哪个分区包含这些K。若你还知道分区所在节点，则可直接请求相应节点（就像从书架上选取正确书籍）。

K区间不一定要均匀分布，因为数据本身可能就不均。如图-2中，1卷包含A、B开头的单词，但12卷则包含T、U、V、X、Y和Z开头单词。若只是简单规定每个卷包含两个字母，可能导致一些卷比其他卷大。为更均匀分布数据，分区的边界应适配数据本身的分布特征。

分区边界可由管理员手动确定或由DB自动选择。Bigtable及其开源版本HBase和2.4版本之前的MongoDB都采用该分区策略。

每个分区中，可按K排序保存。范围扫描就很简单，将K作为联合索引来处理，从而在一次查询中获取多个相关记录。假设有个程序存储网络传感器的数据，K是测量的时间戳（年月日-时分秒）。范围扫描此时很有用，可快速获取某月内的所有数据。

缺点

某些访问模式会导致热点。若K是时间戳，则分区对应于一个时间范围，如每天一个分区。测量数据从传感器写入DB时，所有写入操作都集中在同一分区（即当天的分区），导致该分区在写入时处于高负载，而其他分区始终空闲。

为避免该问题，需要使用时间戳之外的内容作为K的第一项。可考虑每个时间戳前添加传感器名称，这样首先按传感器名称，再按时间进行分区。假设多个传感器同时运行，则写入负载最终会均匀分布在多个节点。当想要获取一个时间范围内、多个传感器的数据，可根据传感器名称，各自执行单独的范围查询。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

数据分区设计(2)- Key Range分区

缺点

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

数据分区设计(2)- Key Range分区

缺点

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品