ClickHouse运维监控总结

举报
Sez 发表于 2020/09/24 11:45:15 2020/09/24
【摘要】 在ClickHouse运行时,我们需要确保数据库实例正常运行的同时获得最佳的表现性能

1 监控目标

在ClickHouse运行时,我们需要确保数据库实例正常运行的同时获得最佳的表现性能。【摘自Monitor ClickHouse with Datadog

2 监控指标说明

  • 硬件资源利用率(当前HD已覆盖)

    • 处理器负载

    • 磁盘存储、RAM和网络使用率

  • ClickHouse服务指标

    • 系统指标(metrics)
      system.metrics表用于统计ClickHouse服务在运行时,当前正在执行的高层次的概要信息,包括了正在执行的查询总次数、正在发生的合并操作总次数等。具体的指标及描述通过执行查询查select * from system.metrics \G,列举前5条指标如下图


    • 系统事件(events)
      system.events 用于统计 ClickHouse 服务在运行过程中已经执行过的高层次的 累积概要信息,包括总的查询次数、总的SELECT查询次数等,具体指标通过执行查询select * from system.events,列举前5条指标如下图

    • 系统异步指标(asynchronous_ metrics)
      asynchronous_metrics 用于统计ClickHouse服务运行过程时,当前正在后台 异步运行的高层次的概要信息,包括当前分配的内存、执行队列中的任务数量等。 具体指标通过执行查询select * from system.asynchronous_metrics,列举前5条指标如下图

  • 查询日志
    查询日志目前主要有6种类型,所有查询日志在默认配置下都是关闭状态,需要在config.xml文件配置,开启日志后可以到对应的日志表进行日志查询。

日志类型 说明
query_log 包含有关已执行查询的信息,例如,开始时间、处理持续时间、错误消息
query_thread_log 包含有关执行查询的线程的信息,例如,线程名称、线程开始时间、查询处理的持续时间
part_log 添加或合并数据
text_log 日志记录了ClickHouse运 过程中产生的一系列打印日志, 包括INFO、 DEBUG 和 Trace
metric_log 用于将system.metrics和system.events中的数据汇聚
trace_log 包含采样查询探查器收集的堆栈跟踪

3 业界参考

DataDog

  • DataDog是一家专注于数字性能监控的厂商,产品范围包括应用性能监控、基础设施监控、组件监控及日志监控等。当然,他们集成了ClickHouse。
    概览界面如下图,展示了ClickHouse主要的网络延时、启动时间、内存等使用情况


    读写性能概览图


    Zookeeper链接性能指标


    日志预览

Sematext

  • Sematext 也是一个可视化监控工具,支持了ClickHouse对接
    事件监控


    网络监控&Zookeeper指标




    MergeTree 指标

       

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。