ClickHouse运维监控总结
1 监控目标
在ClickHouse运行时,我们需要确保数据库实例正常运行的同时获得最佳的表现性能。【摘自Monitor ClickHouse with Datadog】
2 监控指标说明
硬件资源利用率(当前HD已覆盖)
处理器负载
磁盘存储、RAM和网络使用率
ClickHouse服务指标
系统指标(metrics)
system.metrics
表用于统计ClickHouse服务在运行时,当前正在执行的高层次的概要信息,包括了正在执行的查询总次数、正在发生的合并操作总次数等。具体的指标及描述通过执行查询查select * from system.metrics \G
,列举前5条指标如下图系统事件(events)
system.events
用于统计 ClickHouse 服务在运行过程中已经执行过的高层次的 累积概要信息,包括总的查询次数、总的SELECT查询次数等,具体指标通过执行查询select * from system.events
,列举前5条指标如下图系统异步指标(asynchronous_ metrics)
asynchronous_metrics 用于统计ClickHouse服务运行过程时,当前正在后台 异步运行的高层次的概要信息,包括当前分配的内存、执行队列中的任务数量等。 具体指标通过执行查询select * from system.asynchronous_metrics
,列举前5条指标如下图查询日志
查询日志目前主要有6种类型,所有查询日志在默认配置下都是关闭状态,需要在config.xml
文件配置,开启日志后可以到对应的日志表进行日志查询。
日志类型 | 说明 |
---|---|
query_log | 包含有关已执行查询的信息,例如,开始时间、处理持续时间、错误消息 |
query_thread_log | 包含有关执行查询的线程的信息,例如,线程名称、线程开始时间、查询处理的持续时间 |
part_log | 添加或合并数据 |
text_log | 日志记录了ClickHouse运 过程中产生的一系列打印日志, 包括INFO、 DEBUG 和 Trace |
metric_log | 用于将system.metrics和system.events中的数据汇聚 |
trace_log | 包含采样查询探查器收集的堆栈跟踪 |
3 业界参考
DataDog
DataDog是一家专注于数字性能监控的厂商,产品范围包括应用性能监控、基础设施监控、组件监控及日志监控等。当然,他们集成了ClickHouse。
概览界面如下图,展示了ClickHouse主要的网络延时、启动时间、内存等使用情况
读写性能概览图
Zookeeper链接性能指标
日志预览
Sematext
Sematext 也是一个可视化监控工具,支持了ClickHouse对接
事件监控
网络监控&Zookeeper指标
MergeTree 指标
- 点赞
- 收藏
- 关注作者
评论(0)