- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

拒绝“幽灵容器”！华为云CCI日志监控全链路实战：Prometheus+云日志服务

大熊计算机发表于 2025/06/23 22:29:04 2025/06/23

【摘要】在云原生技术迅猛发展的今天，Serverless容器因其极致的弹性与免运维特性，成为众多企业构建敏捷应用的首选。华为云容器实例（CCI）作为领先的Serverless容器引擎，彻底释放了开发者对底层基础设施的管理负担。然而，当您的应用在CCI中轻盈运行时，是否曾遭遇这样的困境：“幽灵容器”频现：容器因异常退出、OOM被杀或调度失败而瞬间消失，传统的监控手段来不及捕获关键信息，问题根因石沉大海...

在云原生技术迅猛发展的今天，Serverless容器因其极致的弹性与免运维特性，成为众多企业构建敏捷应用的首选。华为云容器实例（CCI）作为领先的Serverless容器引擎，彻底释放了开发者对底层基础设施的管理负担。然而，当您的应用在CCI中轻盈运行时，是否曾遭遇这样的困境：

“幽灵容器”频现：容器因异常退出、OOM被杀或调度失败而瞬间消失，传统的监控手段来不及捕获关键信息，问题根因石沉大海。
日志踪迹难寻：短暂运行的作业或突发故障的实例，其宝贵的日志输出如泥牛入海，无处可查，故障排查如同大海捞针。
指标监控断层：标准Prometheus采集模式在Serverless环境下失效，核心性能指标（如CPU、内存、网络）无法有效获取，应用运行状态如同“黑盒”。
告警响应滞后：缺乏实时、精准的异常检测机制，往往等到用户投诉才发现问题，SLA保障面临严峻挑战。

这些“幽灵容器”带来的可观测性黑洞，严重阻碍了Serverless技术的生产落地信心。本文将深入剖析华为云CCI环境下的监控痛点，手把手带你构建一套完整、高效、基于Prometheus和华为云日志服务（LTS）的全链路监控方案，彻底终结“幽灵容器”的困扰！

1. 深入剖析：CCI环境监控的独特挑战

Serverless容器的核心魅力在于其极致弹性和按需付费。CCI将这种理念发挥到极致：

无节点管理：用户完全无需感知和管理Kubernetes Node（工作节点）。
秒级弹性：容器实例根据负载（如HPA策略、定时任务、事件驱动）在数秒内创建或销毁。
按需计费：精确到秒的资源使用计费。

然而，这些优势也带来了传统监控体系的失效：

(1) 传统Agent部署模式失效
标准Prometheus架构依赖DaemonSet在每个Node上部署node-exporter采集主机指标，依赖Deployment部署特定应用的exporter。但在CCI中：

没有固定Node：DaemonSet部署模式完全失效，无处部署node-exporter。
容器生命周期极短：为短暂任务部署独立的exporter Pod，在其运行结束前Prometheus可能还未来得及抓取，且资源利用不经济。

(2) 日志收集面临瞬时性挑战

容器销毁即日志消失：CCI Pod（容器实例）被回收后，其stdout/stderr及容器内文件日志也随之消失。
传统方案滞后：基于DaemonSet的Filebeat/Fluentd需要挂载Volume或依赖节点Agent，在Serverless环境下难以适配或成本高昂。

(3) 指标抓取窗口期狭窄
Prometheus默认基于Pull模型的抓取（scrape）需要目标在抓取时刻处于运行状态并能响应请求。对于运行时间短于Prometheus抓取间隔（通常15s-1m）的容器，抓取成功率极低，形成指标黑洞。

(4) 根因定位依赖多源数据关联
故障诊断需要将实时指标（CPU、内存）、应用日志（错误堆栈、关键事件）、事件（容器创建/销毁/OOM）进行时空关联分析。数据孤岛是Serverless排障的最大敌人。

2. 华为云利器：Prometheus + LTS 组合拳

面对上述挑战，华为云提供了强大的原生服务组合：

Prometheus监控服务（AOM）：完全托管的高性能Prometheus服务，提供指标采集、存储、告警、可视化能力。核心价值：无缝集成CCI，支持特殊采集模式。
云日志服务（LTS）：高可靠、高性能、海量日志管理服务，支持实时采集、存储、搜索、分析、告警。核心价值：完美解决Serverless容器日志易失性问题。

数据采集层（左）：CCI Pod将stdout/stderr日志直接输出到华为云LTS服务。

指标层（中上）：AOM Prometheus通过定制化配置，主动抓取或接收CCI Pod暴露的指标，并将关键指标Remote Write到LTS进行长期存储和关联分析。

存储与分析层（中下）：LTS服务接收并存储所有日志和指标，提供强大的索引、搜索、SQL分析能力。

可视化与告警层（右）：Grafana作为统一可视化平台，对接AOM和LTS数据源。AOM和LTS均可配置灵活告警规则，通过SMN通知用户。

用户交互：用户可通过Grafana Dashboards或LTS控制台进行监控、分析、排障。

方案核心优势总结：

日志零丢失：LTS实时采集容器标准输出/文件日志，容器销毁不影响日志完整性。
指标全捕获：利用AOM对Serverless的优化采集能力，结合Pushgateway/Remote Write，确保短生命周期任务指标不遗漏。
统一观测平台：日志（LTS）与指标（AOM Prometheus）在LTS中实现存储关联，在Grafana实现视图关联，打破数据孤岛。
深度根因分析：基于LTS的SQL/关键词/模式分析，结合Prometheus指标趋势，快速定位故障源头。
实时精准告警：基于日志内容（如ERROR堆栈）或指标阈值（如CPU飙升）配置告警，秒级触达。
免运维托管：AOM和LTS均为全托管服务，用户无需关心底层资源扩缩容、性能优化、高可用保障。

3. 实战演练：构建CCI全链路监控

(1) 前置条件准备

华为云账号：开通CCI、AOM、LTS、SMN服务。确保账号有足够配额和权限（如CCI运行Pod、LTS创建日志组/流、AOM配置抓取任务）。

目标应用：准备一个可在CCI运行的Demo应用。本文以一个简单的Python Web应用为例，模拟日志输出和指标暴露：

# app.py (Flask Demo)
from flask import Flask
import time
import random
import os
import prometheus_client
from prometheus_client import Counter, Gauge, generate_latest, CONTENT_TYPE_LATEST

app = Flask(__name__)

# Prometheus Metrics
REQUEST_COUNT = Counter('http_requests_total', 'Total HTTP Requests')
REQUEST_LATENCY = Gauge('http_request_latency_seconds', 'HTTP Request Latency')
CPU_USAGE = Gauge('simulated_cpu_usage_percent', 'Simulated CPU Usage (%)')
MEM_USAGE = Gauge('simulated_mem_usage_mb', 'Simulated Memory Usage (MB)')

@app.route('/')
def hello():
    start_time = time.time()
    REQUEST_COUNT.inc()  # Increment request counter

    # Simulate some work & resource usage
    time.sleep(random.uniform(0.05, 0.2))
    cpu = random.uniform(10.0, 80.0)
    mem = random.uniform(50.0, 300.0)
    CPU_USAGE.set(cpu)
    MEM_USAGE.set(mem)

    # Log some info
    app.logger.info(f"Request processed. Simulated CPU: {cpu:.2f}%, Mem: {mem:.2f}MB")
    # Simulate occasional errors
    if random.random() < 0.05:  # 5% error rate
        app.logger.error("Simulated critical error occurred in processing!")

    latency = time.time() - start_time
    REQUEST_LATENCY.set(latency)
    return f"Hello from CCI! (Req: {REQUEST_COUNT._value.get()}, Latency: {latency:.4f}s)"

@app.route('/metrics')
def metrics():
    return generate_latest(), 200, {'Content-Type': CONTENT_TYPE_LATEST}

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=8080)

容器镜像：将应用打包为Docker镜像并推送至华为云SWR镜像仓库。Dockerfile示例：

FROM python:3.9-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY app.py .
CMD ["gunicorn", "--bind", "0.0.0.0:8080", "--workers", "2", "app:app"]

requirements.txt:

flask
prometheus_client
gunicorn

(2) 配置云日志服务（LTS）收集容器日志

创建日志组与日志流：
1. 登录华为云LTS控制台。
2. 创建日志组（如cci-demo-log-group）。
3. 在组内创建日志流（如app-stdout-stream）。
配置CCI日志采集规则：
华为云CCI原生支持将容器标准输出(stdout/stderr)自动采集到LTS。关键步骤：
1. 在CCI控制台，进入目标命名空间（Namespace）。
2. 找到“日志配置”或“日志采集”选项。
3. 创建日志采集规则：
  - 采集类型：选择标准输出。
  - 容器：选择需要采集日志的目标容器（如果Pod中有多个容器）。
  - 日志流：选择上面创建的app-stdout-stream。
  - 高级配置：可设置日志格式（如JSON）、添加自定义标签（如app: my-demo-app）、配置日志过滤（可选）。
4. 保存规则。
验证：部署你的Demo应用到CCI。在LTS控制台的app-stdout-stream中，应能实时看到应用打印的INFO和ERROR日志。
(可选) 采集容器内文件日志：
如果应用将日志写入容器内文件（如/app/logs/app.log），需额外配置：
1. 在CCI创建Pod的YAML中，为容器挂载一个空目录Volume（如emptyDir: {}）到日志文件所在目录（如/app/logs）。目的：防止容器重启丢失文件，确保LTS Agent有机会读取。
2. 在CCI的“日志采集”规则中，新增一条规则：
  - 采集类型：选择文件路径。
  - 路径：填写容器内日志文件的绝对路径（如/app/logs/app.log）。
  - 日志流：创建新的流（如app-file-stream）或复用现有流。
  - 配置解析格式、标签等。

(3) 配置Prometheus（AOM）监控CCI指标

这是解决“幽灵容器”指标抓取的关键！我们采用两种互补策略：

策略一：利用AOM ServiceMonitor抓取长期运行服务

适用于相对稳定、持续运行的Pod（如Web服务后端）。

暴露应用指标端点：我们的Demo应用已在/metrics暴露Prometheus格式指标。

创建Service：在CCI中为Demo应用创建Kubernetes Service，使其拥有稳定访问入口。service.yaml示例：

apiVersion: v1
kind: Service
metadata:
  name: demo-app-service
  namespace: your-cci-namespace
  annotations:
    prometheus.io/scrape: 'true' # 重要：告知AOM此Service需要抓取
    prometheus.io/port: '8080'   # 指标暴露端口
    prometheus.io/path: '/metrics' # 指标路径
spec:
  selector:
    app: your-demo-app-label # 匹配Pod的标签
  ports:
    - protocol: TCP
      port: 80
      targetPort: 8080

在AOM配置ServiceMonitor自动发现：
1. 登录华为云AOM控制台。
2. 进入“采集管理” > “Prometheus实例” > 你的Prometheus实例。
3. 找到“ServiceMonitor发现配置”或类似选项。
4. 启用对目标命名空间（your-cci-namespace）的Service发现。
5. AOM会自动发现带有prometheus.io/scrape: 'true'注解的Service，并抓取其背后Pod的/metrics端点。
验证：在AOM的“指标浏览”页面，搜索http_requests_total等指标，应能看到来自CCI Pod的数据。

策略二：使用Pushgateway + Remote Write捕获短生命周期任务指标

适用于批处理作业、定时任务、一次性脚本等运行时间极短（秒级）的容器。

原理：
1. 短生命周期任务在启动时，将其指标推送给一个长期运行的Pushgateway实例。
2. AOM Prometheus配置为定期抓取Pushgateway上的指标。
3. 将Pushgateway的指标通过Remote Write写入LTS进行长期存储和关联分析。

部署Pushgateway：

在CCI中部署官方的Prometheus Pushgateway镜像。pushgateway-deploy.yaml示例：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: pushgateway
  namespace: your-cci-namespace
spec:
  replicas: 1
  selector:
    matchLabels:
      app: pushgateway
  template:
    metadata:
      labels:
        app: pushgateway
    spec:
      containers:
        - name: pushgateway
          image: prom/pushgateway:v1.6.0
          ports:
            - containerPort: 9091
---
apiVersion: v1
kind: Service
metadata:
  name: pushgateway-service
  namespace: your-cci-namespace
  annotations:
    prometheus.io/scrape: 'true'
    prometheus.io/port: '9091'
spec:
  selector:
    app: pushgateway
  ports:
    - protocol: TCP
      port: 9091
      targetPort: 9091

AOM会通过ServiceMonitor自动发现并抓取Pushgateway自身的指标。

修改短生命周期任务代码推送指标：
修改你的批处理脚本或任务入口代码，在任务开始、结束或关键节点，将指标推送到Pushgateway。

from prometheus_client import CollectorRegistry, push_to_gateway, Gauge, Counter

# 1. 创建自定义注册表 (避免与主应用冲突)
registry = CollectorRegistry()

# 2. 定义任务专属指标 (带任务ID标签)
JOB_DURATION = Gauge('batch_job_duration_seconds', 'Duration of batch job', ['job_id'], registry=registry)
JOB_SUCCESS = Counter('batch_job_success_total', 'Total successful batch jobs', ['job_id'], registry=registry)
JOB_FAILURE = Counter('batch_job_failure_total', 'Total failed batch jobs', ['job_id'], registry=registry)

def run_batch_job(job_id):
    start_time = time.time()
    try:
        # ... 执行你的批处理任务逻辑 ...
        # 模拟成功或失败
        if random.random() < 0.9:  # 90% success
            JOB_SUCCESS.labels(job_id=job_id).inc()
            print(f"Job {job_id} completed successfully.")
        else:
            raise Exception("Simulated job failure")
    except Exception as e:
        JOB_FAILURE.labels(job_id=job_id).inc()
        print(f"Job {job_id} failed: {str(e)}")
    finally:
        duration = time.time() - start_time
        JOB_DURATION.labels(job_id=job_id).set(duration)
        # 3. 将指标推送到Pushgateway
        push_to_gateway('http://pushgateway-service.your-cci-namespace:9091', job=f'batch_job_{job_id}', registry=registry)
        print(f"Metrics pushed for job {job_id}. Duration: {duration:.2f}s")

if __name__ == '__main__':
    job_id = os.getenv('JOB_ID', 'default_job')
    run_batch_job(job_id)

配置AOM将Pushgateway指标Remote Write到LTS：
核心目的：将Pushgateway抓取到的短暂任务指标（batch_job_*）写入LTS，实现与日志的长期存储和关联。
1. 在AOM控制台，进入你的Prometheus实例配置。
2. 找到“Remote Write”配置项。
3. 添加Remote Write目标：
  - Name：lts-remote-write
  - URL：华为云LTS提供的Prometheus Remote Write接入点。格式通常为：https://lts.{region_id}.myhuaweicloud.com:443/{project_id}/lts/{log_group_id}/{log_stream_id}/prometheus/v1/remote/write (具体URL需在LTS日志流详情页获取)
  - 认证方式：选择Bearer Token，填入具有LTS写入权限的IAM Token。
  - Write Relabel Configs (可选但推荐)：添加标签，方便在LTS识别数据来源。例如：
```
- action: replace
  target_label: __remote_write_type
  replacement: pushgateway
```
4. 保存配置。AOM Prometheus会开始将匹配的指标（默认是所有抓取到的指标）通过Remote Write发送到指定的LTS日志流。
验证：
1. 运行你的短生命周期任务。
2. 在LTS控制台的目标日志流中，使用SQL查询：
```
SELECT * FROM lts_ilog WHERE __remote_write_type = 'pushgateway' LIMIT 10
```
  应能看到batch_job_duration_seconds, batch_job_success_total等指标数据点。

(4) 统一可视化：Grafana集成AOM与LTS

将指标和日志在一个平台关联查看是根因定位的关键。

配置Grafana数据源：
1. 部署或使用已有的Grafana实例（华为云AOM也提供托管Grafana）。
2. 添加数据源：
  - Prometheus：指向AOM提供的Prometheus查询地址和认证信息。
  - Loki (或华为云LTS数据源插件)：华为云Grafana通常内置对LTS的集成。配置LTS的Endpoint、Project ID、认证信息（AK/SK或Token）。重要：确保插件支持查询LTS存储的Prometheus Remote Write数据（通常通过特定的__name__或标签过滤）。
创建统一Dashboard：
设计面板，融合指标趋势与相关日志上下文。

示例面板1：应用概览 (指标为主)
- HTTP请求率 & 延迟：PromQL: sum(rate(http_requests_total[5m])) by (job), histogram_quantile(0.95, sum(rate(http_request_latency_seconds_bucket[5m])) by (le, job))
- 模拟CPU & 内存使用：PromQL: avg(simulated_cpu_usage_percent) by (pod), avg(simulated_mem_usage_mb) by (pod)
- 批处理任务成功率 & 耗时：PromQL: sum(rate(batch_job_success_total[1h])) / sum(rate(batch_job_success_total[1h] + batch_job_failure_total[1h])), avg(batch_job_duration_seconds) by (job_id)
示例面板2：错误日志关联分析 (日志+指标)
- 最近ERROR日志列表：Loki/LTS Query: {log_stream="app-stdout-stream"} |= "ERROR" | logfmt | line_format "{{.timestamp}} {{.pod}} {{.message}}" (假设日志是JSON或logfmt格式)
- 在ERROR日志时间点附近的CPU/Memory趋势：在Grafana中设置面板间的时间联动。点击一条ERROR日志的时间，其他Prometheus图表自动聚焦到那个时间段。
- (可选) 关联Trace：如果应用接入分布式追踪（如SkyWalking, Jaeger），可在日志附近展示对应Trace的链路情况。
示例面板3：批处理任务详情 (Pushgateway指标)
- 各Job ID最近执行状态：PromQL: batch_job_success_total / batch_job_failure_total (按job_id分组展示)
- 各Job ID耗时分布：PromQL: batch_job_duration_seconds (按job_id分组展示，用Stat/Gauge面板)
- 失败任务日志：Loki/LTS Query: {log_stream="app-stdout-stream"} |= "Job" |= "failed" | logfmt | job_id =~ "$job_id" (假设日志中包含job_id字段，使用Grafana变量$job_id联动)
效果：当某个Pod出现高延迟或OOM被杀（“幽灵容器”）时，运维人员：
1. 在Dashboard 1看到异常指标（如延迟突增、内存持续高位）。
2. 点击异常时间段，Dashboard 2自动聚焦，展示该时间段内的ERROR日志（如OutOfMemoryError堆栈）。
3. 结合日志中的Pod名称/ID，在Dashboard 1定位到具体异常Pod的资源消耗曲线。
4. 若为批处理任务失败，在Dashboard 3查看具体Job ID的执行结果和耗时，并在Dashboard 2关联查询其失败日志。

(5) 配置精准告警：指标+日志双保险

告别迟钝的阈值告警，实现基于真实异常的秒级通知。

AOM告警（基于指标）：
1. 在AOM控制台进入“告警管理” > “告警规则”。
2. 创建规则：
  - 规则名称：CCI App High Memory Usage
  - PromQL表达式：simulated_mem_usage_mb > 280 # 假设阈值280MB
  - 持续周期：1m (持续1分钟超过阈值才告警)
  - 告警级别：重要
  - 通知方式：选择已配置好的SMN主题（邮件、短信、钉钉、HTTP回调等）。
3. 类似创建规则：
  - High Request Latency: histogram_quantile(0.95, sum(rate(http_request_latency_seconds_bucket[2m])) by (job) > 0.5 # P95延迟>0.5s
  - Batch Job Failure: increase(batch_job_failure_total[10m]) > 0 # 过去10分钟有失败任务
LTS告警（基于日志内容）：
1. 在LTS控制台进入目标日志流（app-stdout-stream）。
2. 创建关键词告警或SQL告警：
  - 告警类型：关键词告警
  - 关键词："ERROR" (或更精确的"Simulated critical error")
  - 检查频率：1分钟
  - 触发条件：出现次数 > 0
  - 告警级别：紧急
  - 通知方式：选择SMN主题。
3. (高级) SQL告警示例：统计特定ERROR类型频率
```
SELECT COUNT(*) as error_count
FROM lts_ilog
WHERE log_stream = 'app-stdout-stream'
AND message LIKE '%NullPointerException%' -- 匹配特定异常
AND __time >= now() - INTERVAL '1' MINUTE
```
  触发条件：error_count >= 3 (1分钟内出现3次以上NPE)
告警优化Tips：
- 添加有效标签：在告警规则中注入pod_name, namespace, job_id等标签，告警通知中直接携带定位信息。
- 抑制重复告警：配置合理的告警静默规则或频率限制，避免短时间大量相同告警轰炸。
- 告警分级：区分紧急告警（如ERROR日志、OOM）和警告告警（如延迟偏高、资源使用率持续高位）。
- 告警聚合：使用通知系统（如SMN+FunctionGraph）或第三方工具（如Alertmanager）对相似告警进行聚合，减少干扰。

4. 避坑指南与最佳实践

在实战中积累的经验教训尤为宝贵：

LTS日志索引优化：
- 合理设置分词符：对非结构化日志，使用合适的分词符（如空格、逗号、冒号）提升关键词搜索效率。避免使用*作为分词符。
- 结构化日志优先：强烈建议应用输出JSON格式日志。LTS对JSON字段自动索引，支持高效的SQL分析和字段过滤。在Flask/Python中可使用python-json-logger库。
- 慎用高基数标签：在Remote Write或日志中添加标签时（如user_id, request_id），需评估基数。极高基数的标签会显著增加LTS存储和查询成本。优先用于核心维度（pod, service, level）。
Pushgateway使用铁律：
- 仅用于短生命周期任务：切勿用它来监控长期运行的服务！这会导致Pushgateway成为单点和瓶颈，且指标时效性差。长期服务必须用ServiceMonitor。
- 及时清理旧数据：Pushgateway默认永久存储推送的数据。务必配置--persistence.interval（如5m）和--persistence.file，并部署CronJob定期调用Pushgateway的API (DELETE /metrics/job/<JOB_NAME>)清理过期任务数据，避免Pushgateway磁盘爆炸。最佳实践：任务推完指标后，如果确定不再需要，应主动调用API删除其数据组（/metrics/job/<JOB_NAME>/instance/<INSTANCE_NAME>）。
- 区分Job和Instance：合理设置job和instance标签。job通常表示任务类型（如daily_report），instance可设为任务唯一ID或运行主机。避免所有任务使用相同的job。
Prometheus Remote Write优化：
- 控制写入量：Remote Write到LTS会产生费用。使用write_relabel_configs精确过滤只需要长期存储的关键指标（如业务核心指标、错误计数器、批处理结果）。避免将node_, process_, go_等基础指标一股脑写入。
- 调整队列与重试：在AOM Remote Write配置中，根据网络状况调整queue_config（如capacity, max_samples_per_send, max_shards），平衡吞吐量和可靠性。
CCI应用设计建议：
- 优雅终止与日志刷新：确保应用能捕获SIGTERM信号，在退出前完成必要的日志输出和资源清理（如关闭文件句柄、刷新日志缓冲区）。Python可使用atexit模块或信号处理器。
- 资源请求与限制：务必为CCI Pod设置合理的resources.requests和resources.limits。OOM是“幽灵容器”的最大元凶！设置Limit接近Request可提高调度成功率，但需结合监控确定合理值。
- 健康检查：配置livenessProbe和readinessProbe，帮助CCI更准确地判断容器状态，及时重启不健康的实例。
成本监控：密切关注LTS的日志索引流量/存储量、AOM的Remote Write数据量、CCI的资源消耗。设置预算告警。利用LTS的日志生命周期管理自动删除旧日志。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入