- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Cassandra数据存储简介

pro_cheng 发表于 2018/01/05 17:40:29 2018/01/05

【摘要】 Cassandra 的数据模型是基于列族（Column Family）的四维或五维模型。在 Cassandra 写入数据之前，需要先记录日志 ( Commitlog)，然后数据开始写入到 Column Family 对应的 Memtable 中，在满足一定条件时，再把 Memtable 的数据批量的刷新到磁盘上，存储为 SSTable 。

1、数据存储方式

Cassandra 的数据模型是基于列族（Column Family）的四维或五维模型。在 Cassandra 写入数据之前，需要先记录日志 ( Commitlog)，然后数据开始写入到 Column Family 对应的 Memtable 中，Memtable 是一种按照 key 排序的内存结构，记录在缓存中，在满足一定条件（容量、条数、时间间隔超过阈值）时，再把 Memtable 的数据批量的刷新到磁盘上，存储为 SSTable 。

使用Memtable的优势就是把随机的IO变成了顺序IO，降低大量写操作对存储系统的压力。

2、Cassandra 的数据模型及基本概念

Cluster：Cassandra 的节点实例，它可以包含多个Keyspace。

Keyspace:：用于存放 ColumnFamily 的容器，相当于关系数据库中的 Schema 或 database。

ColumnFamily:：用于存放 Column 的容器，类似关系数据库中的 table 的概念。

SuperColumn:：它是一个特列殊的 Column, 它的 Value 值可以包函多个Column。

Column:：Cassandra 的最基本单位。由name , value , timestamp组成。

数据模型图如下：

图1 Cassandra数据模型图

3、Cassandra中数据存放规则

data：存储真正的数据文件，既后面的SStable文件，可以指定多个目录。

commitlog：存储未写入SSTable中的数据（在每次写入之前先放入日志文件）。

cache：存储系统中的缓存数据（在服务重启的时候从这个目录中加载缓存数据）。

Commitlog中包括两部分：Commitlog-xxxx.log和Commitlog-xxxx.log.header。Commitlog-xxxx.log保存上次更新操作的值，Commitlog-xxxx.log.header记录哪些数据已经从Memtable中写入到了SSTable。Commitlog-xxxx.log.header也可能不存在。

SSTable中数据分为四种类型：xxxx-Data.db、xxxx-Filter.db、xxxxx-Index.db、xxxx-Statistics.db。Data文件存储数据与Key对应的一些Column的索引信息（利用索引快速的找到要找的值）。Filter文件的作用是快速定位某一个Key是否在该SSTable文件中（用布尔过滤器来做判断）。Index文件用于索引文件，保存Key和在Data文件中对应的位置，在内存中查找时先哈希再二分法。Statistics文件用来存储SSTable中所包含的Column的个数和Row的个数。

在Cassandra中除了用户自己定义的Keyspace之外，还有一个特殊的Keyspace：system。其作用有二：管理Cassandra的系统元数据信息；缓存HINT数据。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Cassandra数据存储简介

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品