Kubernetes 集群中使用 Thanos 实现集群监控的详细指南

举报
汪子熙 发表于 2025/05/02 19:19:09 2025/05/02
【摘要】 Kubernetes 的动态容器编排能力使它成为现代微服务架构的核心组件,而 Prometheus 则是监控这些系统的常用工具之一。然而,Prometheus 在处理大规模和高可用性时可能遇到诸如数据存储限制和单点故障的问题。Thanos 正是应运而生,用于解决这些问题。 Thanos 是什么Thanos 是一个开源项目,主要用于扩展 Prometheus 的监控能力。它通过加入远程存储、长...

Kubernetes 的动态容器编排能力使它成为现代微服务架构的核心组件,而 Prometheus 则是监控这些系统的常用工具之一。然而,Prometheus 在处理大规模和高可用性时可能遇到诸如数据存储限制和单点故障的问题。Thanos 正是应运而生,用于解决这些问题。

Thanos 是什么

Thanos 是一个开源项目,主要用于扩展 Prometheus 的监控能力。它通过加入远程存储、长时间的数据存储、水平扩展查询、全局视图等功能,来克服单独使用 Prometheus 时的不足。Thanos 在设计时特别注重高可用性、无限扩展和易于整合,因此成为大型 Kubernetes 集群监控中的理想选择。

Thanos 的主要组件包括:

  1. Thanos Sidecar:与 Prometheus 运行在一起,负责将 Prometheus 数据推送到远程对象存储并提供查询能力。
  2. Thanos Store:存储从对象存储中读取的数据,并提供查询服务。
  3. Thanos Query:一个可以合并来自多个 Prometheus 实例和 Thanos Store 的查询组件。
  4. Thanos Compactor:用于在对象存储中压缩数据,减少存储空间和提高查询效率。

我们接下来会逐步深入探讨如何将 Thanos 集成到一个 Kubernetes 集群中,使集群的监控变得更加可靠和高效。

部署前的准备

在 Kubernetes 集群中集成 Thanos,需要做好以下几项准备工作:

  1. 对象存储:Thanos 需要与远程对象存储服务集成来存放长期的数据存储。常用的对象存储服务包括 AWS S3、GCS 或 MinIO 等。在集群内部署 MinIO 是一个典型选择,尤其是对于测试或小型集群。
  2. Prometheus 部署:确保 Kubernetes 集群中已有 Prometheus 部署,且 Prometheus 已经收集好集群的监控指标。
  3. 持久化存储:需要为 Prometheus 分配持久化存储(PVC),以便保存监控数据。

接下来,我们通过逐步演示 Thanos 部署和配置,来完成集成。

集成 Thanos Sidecar

Thanos 的核心设计理念之一是将已有的 Prometheus 实例与 Thanos Sidecar 配对,通过 Thanos Sidecar 实现数据上云及跨实例的统一查询。在 Kubernetes 中,可以通过 Helm 图表或者直接使用 YAML 文件来进行部署。

步骤 1:配置 Thanos Sidecar

首先,我们需要将 Thanos Sidecar 部署到与 Prometheus 相同的 pod 中。可以通过修改 Prometheus 的 Kubernetes 配置来实现。

以下是一个示例 YAML,用于为 Prometheus 配置 Thanos Sidecar:

apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: prometheus
spec:
  replicas: 1
  template:
    spec:
      containers:
        - name: prometheus
          image: prom/prometheus:latest
          ports:
            - containerPort: 9090
          volumeMounts:
            - name: prometheus-data
              mountPath: /prometheus
        - name: thanos-sidecar
          image: thanosio/thanos:latest
          args:
            - sidecar
            - `--prometheus.url=http://localhost:9090`
            - `--objstore.config-file=/etc/thanos/objstore.yml`
          ports:
            - containerPort: 10902
          volumeMounts:
            - name: prometheus-data
              mountPath: /prometheus
            - name: thanos-objstore
              mountPath: /etc/thanos

解释

  • thanos-sidecar 容器被部署在 Prometheus 的同一个 Pod 中。
  • --prometheus.url 用于指定 Prometheus 的访问 URL。
  • --objstore.config-file 参数用于指定 Thanos 访问对象存储的配置文件。这里假设您使用了 MinIO 或其他兼容的 S3 存储。

步骤 2:配置对象存储

接下来,创建一个对象存储配置文件 objstore.yml,以供 Thanos 访问对象存储。以下是一个示例配置:

type: S3
config:
  bucket: `thanos-bucket`
  endpoint: `minio:9000`
  access_key: `minio-access-key`
  secret_key: `minio-secret-key`
  insecure: true

解释

  • bucket 指定 Thanos 数据的存储桶。
  • endpoint 设置对象存储服务的访问地址。对于内部部署的 MinIO,一般是 minio:9000

部署 Thanos Query

Thanos Query 是另一个关键组件,用于提供跨 Prometheus 实例的统一查询界面。它可以聚合多个 Prometheus 和 Thanos Store 实例的数据,使监控的查询变得更加方便和统一。

步骤 1:配置 Thanos Query

Thanos Query 可以被部署为一个独立的服务,在 Kubernetes 中,通常通过 Deployment 进行管理。

以下是 Thanos Query 的一个示例部署 YAML 文件:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: thanos-query
spec:
  replicas: 1
  template:
    spec:
      containers:
        - name: thanos-query
          image: thanosio/thanos:latest
          args:
            - query
            - `--http-address=0.0.0.0:9090`
            - `--store=dnssrv+_grpc._tcp.prometheus.thanos.svc.cluster.local`
          ports:
            - containerPort: 9090

解释

  • --store 参数指示 Thanos Query 连接到哪些存储节点,这些节点可以是 Thanos Sidecar、Store、或者其他 Prometheus 实例。
  • 在上面的例子中,使用了 DNS SRV 记录的方式来发现 Prometheus 实例,这在 Kubernetes 中相当方便。

Thanos Store 和数据长期存储

在 Thanos 生态中,Thanos Store 用于读取来自对象存储的数据,从而实现长期存储的数据查询。这个组件的引入使得即使原始 Prometheus 数据被删除,用户依然可以从对象存储中获取历史数据。

部署 Thanos Store

以下是 Thanos Store 的一个示例部署:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: thanos-store
spec:
  replicas: 1
  template:
    spec:
      containers:
        - name: thanos-store
          image: thanosio/thanos:latest
          args:
            - store
            - `--data-dir=/data`
            - `--objstore.config-file=/etc/thanos/objstore.yml`
          ports:
            - containerPort: 10901
          volumeMounts:
            - name: data
              mountPath: /data
            - name: thanos-objstore
              mountPath: /etc/thanos

解释

  • Thanos Store 通过读取 objstore.yml 来访问对象存储中的监控数据。
  • Thanos Store 可以被 Thanos Query 查询,从而提供长期数据的查询能力。

高可用性和 Thanos Compactor

为了减少对象存储的存储空间以及提高查询效率,Thanos 还提供了一个 Compactor 组件,用于压缩时间序列数据。这类似于垃圾回收的功能,通过去除冗余数据和合并块,来保证存储效率。

以下是 Thanos Compactor 的示例 YAML:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: thanos-compactor
spec:
  replicas: 1
  template:
    spec:
      containers:
        - name: thanos-compactor
          image: thanosio/thanos:latest
          args:
            - compact
            - `--data-dir=/data`
            - `--objstore.config-file=/etc/thanos/objstore.yml`
          volumeMounts:
            - name: data
              mountPath: /data
            - name: thanos-objstore
              mountPath: /etc/thanos

解释

  • Compactor 的功能主要用于管理长期存储的数据块,合并这些数据块以提升查询性能。
  • --data-dir 用于指定存储合并数据的本地目录。

实际案例研究:某电子商务平台的应用

举一个真实世界的例子:某大型电子商务平台为了监控其 Kubernetes 集群,在单独使用 Prometheus 时,遇到了数据量激增导致存储限制的问题。通过引入 Thanos 生态,该平台将多个 Prometheus 实例的数据统一上传到 AWS S3 中存储,使用 Thanos Query 提供全局统一查询界面,这样开发和运维团队可以方便地查看不同集群和节点的数据。

此外,Thanos Compactor 的引入使得存储成本显著降低,因为它有效地压缩了长期存储的数据。在一次集群网络波动的情况下,虽然部分 Prometheus 实例发生了故障,但 Thanos 的高可用设计使得数据查询和监控服务保持正常运作,极大地提升了系统的鲁棒性和可维护性。

监控和优化 Thanos

成功集成 Thanos 后,仍然需要对其进行持续的监控和优化,以确保它能够稳定工作。

  1. 资源分配:Thanos 组件(如 Query、Store、Sidecar)会消耗一定的 CPU 和内存资源,尤其是在数据量较大的情况下,需要合理分配 Kubernetes 的资源,以避免瓶颈。
  2. 节点数量:可以根据负载情况增加 Thanos Query 和 Thanos Store 的副本数量,以提升高可用性和查询性能。
  3. 告警配置:可以为 Thanos 本身设置告警规则,例如监控查询超时、存储空间占用等,来保证 Thanos 的稳定性。

总结

通过将 Thanos 集成到 Kubernetes 集群中,可以解决单独使用 Prometheus 时遇到的多项瓶颈问题,特别是数据的长期存储、高可用性、以及统一视图查询。Thanos 的组件化设计使得其与现有 Prometheus 集成时极为灵活,用户可以根据实际需求逐步增加组件来应对监控需求的变化。

无论是为了提升数据的持久化能力,还是为了实现集群监控的全局视图,Thanos 都提供了一套有效且可扩展的解决方案。通过本文的逐步说明和案例分析,希望读者能更加清晰地理解如何在 Kubernetes 集群中部署 Thanos,以实现更加高效、稳定的监控系统。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。