基于OpenTelemetry实现Java微服务调用链跟踪

举报
可以交个朋友 发表于 2024/02/06 18:34:59 2024/02/06
【摘要】 本篇博客将以springboot微服务为例,通过使用opentelemetry-java SDK 进行自动埋点以代码无侵入的方式实现微服务的分布式跟踪能力。

一 背景

随着业务的发展,所有的系统都会走向微服务化体系,微服务进行拆分后,服务的依赖关系变得复杂,如果出现了错误和异常,定位的过程将会变得复杂,一个请求可能需要调用很多个服务,所以微服务架构中,分布式链路跟踪的实现至关重要,去跟进一个请求到底有哪些服务参与,参与的顺序又是怎样的,从而达到每个请求的步骤清晰可见。如何快速查询整个请求链路上的信息并呈现出来是解决排查问题复杂度的根本方法。

image.png


二 简介

Java 是世界上最流行的编程语言之一,很多大小项目都是通过Java进行微服务的开发来实现。
本篇博客将以springboot微服务为例,通过使用opentelemetry-java SDK 进行自动埋点以代码无侵入的方式实现微服务的分布式跟踪能力。


三 实践演示

demo项目一共3个service:foo-svc、bar-svc 、loo-svc 。
项目源码可前往:https://github.com/HFfleming/springboot-trace-demo/tree/autoconfigure
访问效果如下:
image.png


3.1 前提条件

  1. 已创建k8s 集群,可使用CCE集群平台作为基础环境。
  2. k8s 集群中已安装opentelemetry-collector组件
  3. k8s 集群中已安装jaeger作为分布式跟踪数据展示的平台

3.2 集成opentelemetry-java-instrumentation

OpenTelemetry 提供了 Java agent(opentelemetry-java-instrumentation)。当附加到应用程序中时,它会修改各种流行库和框架的字节码以捕获遥测数据。可以以多种格式导出遥测数据。还可以通过命令行参数或环境变量配置代理和导出器。最终结果是无需更改代码即可从 Java 应用程序收集遥测数据。

  1. 下载otel-java jar包并添加到容器镜像中
    前往官方仓库 https://github.com/open-telemetry/opentelemetry-java-instrumentation 下载opentelemetry-javaagent.jar


  2. 通过环境变量配置java agent和otlp导出器

  • 通过环境变量的形式配置java agent:ENV JAVA_TOOL_OPTIONS="-javaagent:/usr/app/opentelemetry-javaagent.jar"

  • 服务名称: ENV OTEL_SERVICE_NAME="foo-svc"

  • 使用otlp协议的导出器:ENV OTEL_TRACES_EXPORTER="otlp"

  • 关闭java agent的指标 otlp导出器: ENV OTEL_METRICS_EXPORTER="none"

  • 关闭java agent的日志 otlp导出器: ENV OTEL_LOGS_EXPORTER="none"

  • 指定OTLP导出器的端点,跨ns的场景下建议写上otel的ns:ENV OTEL_EXPORTER_OTLP_ENDPOINT="http://opentelemetry-collector.tracing.svc.cluster.local:4317"

    除了环境变量的形式,也可通过jvm参数形式进行agent和导出器的配置。
    详细配置或者欲开启更多导出信息可参考: https://github.com/open-telemetry/opentelemetry-java/tree/main/sdk-extensions/autoconfigure


  1. 容器镜像制作
    建议重新制作镜像,将opentelemetry-javaagent等otlp基础配置打包在镜像中。后续如果有变动,也可通过deployment中env字段进行修改覆盖。
    镜像Dockerfile文件可参照如下:

    #基于官方的Maven镜像
    FROM maven:3.8.7-openjdk-18-slim AS build
    
    #将本地代码复制到Docker容器中的 /usr/src/app 目录下
    COPY src /usr/src/foo-app/src
    COPY pom.xml /usr/src/foo-app
    COPY opentelemetry-javaagent.jar /usr/src/foo-app
    
    # 在容器的 /usr/src//foo-app 目录下,运行mvn clean package 命令,构建项目
    RUN mvn -f /usr/src/foo-app/pom.xml clean package
    
    # 使用官方的openjdk 镜像作为基础镜像
    FROM  openjdk:19-jdk-slim
    
    # 将打包生成的jar文件复制到容器中
    COPY --from=build /usr/src/foo-app/target/*.jar  /usr/app/foo-app.jar
    COPY --from=build /usr/src/foo-app/opentelemetry-javaagent.jar /usr/app/opentelemetry-javaagent.jar
    
    # 声明服务运行在8080端口
    EXPOSE 8080
    
    # 通过环境变量的形式配置java agent并且通过环境变量传递配置属性
    ENV JAVA_TOOL_OPTIONS="-javaagent:/usr/app/opentelemetry-javaagent.jar"
    # 服务的k8s servicename
    ENV OTEL_SERVICE_NAME="foo-svc"
    # 使用的是otlp协议的导出器
    ENV OTEL_TRACES_EXPORTER="otlp"
    # 关闭java agent的指标 otlp导出器
    ENV OTEL_METRICS_EXPORTER="none"
    ## 关闭java agent的日志 otlp导出器
    ENV OTEL_LOGS_EXPORTER="none"
    # 指定OTLP导出器的端点,跨ns的场景下建议写上otel的ns
    ENV OTEL_EXPORTER_OTLP_ENDPOINT="http://opentelemetry-collector.tracing.svc.cluster.local:4317"
    
    #指定docker容器的启动命令
    ENTRYPOINT ["java", "-jar","/usr/app/foo-app.jar"]
    
    

  2. 镜像推送至镜像仓库,可使用SWR容器镜像仓库
    docker build 构建完镜像后,然后docker push 至镜像仓库。
    本人demo项目镜像如下,可供读者调试使用:
    foo-svc: swr.cn-north-4.myhuaweicloud.com/k8s-solution/foo-svc:v2
    bar-svc: swr.cn-north-4.myhuaweicloud.com/k8s-solution/bar-svc:v2
    loo-svc: swr.cn-north-4.myhuaweicloud.com/k8s-solution/loo-svc:v2


  3. 在k8s集群中部署demo项目
    image.png
    其中loadgenerator服务是个客户端工具用于访问demo项目。访问信息如下:
    image.png
    相比之前没有集成opentelemetry-javaagent.jar ,访问信息请求头多了traceparent信息,很明显该信息就是分布式跟踪所需要使用到的


3.3 OpenTelemetry配置遥测数据的接受和导出

  1. 在上述环境变量中,通过otlp-grpc协议进行java微服务遥测数据导出的。所以在opentelemetry-collector中的receivers接收器配置中需要配置otlp grpc规则进行数据的接受:

    receivers:
      otlp:
        protocols:
          grpc:
            endpoint: ${env:MY_POD_IP}:4317
    

  2. otel接受到数据后,需要将数据处理后进行导出。导出后端可以是jaeger,通过jaeger进行分布式跟踪数据的展示,需要需要在opentelemery-collector中配置exporter导出器

    exporters:
      debug: {}  #导出器配置log,可记录导出行为
      otlp:
        endpoint: jaeger-collector.hu.svc.cluster.local:4317 #jaeger的otlp-grpc端口
        tls:
          insecure: true
    

    需要注意此处导出器后端jaeger使用的协议为otlp,如果jaeger-collector service未配置该端口,则会导出失败,建议检查jaeger相关service的配置。

    - name: otlp-grpc
      port: 4317
      protocol: TCP
      targetPort: 4317
    

  3. 通过pipeline启用otel采集器中配置的各种组件。上面配置了接收器和导出器,如果不在pipeline中声明,则不会启用该组件。启用方式参考:

    service: # 用于根据接收器、处理器、导出器和扩展部分中的配置来配置收集器中启用的组件
      extensions:
      - health_check
      pipelines:
        traces:
          exporters:
          - debug
          - otlp
          processors:
          - memory_limiter
          - batch
          receivers:
          - otlp
    

  4. 完整配置参考如下,这些配置以configmap形式挂载到otel-collector容器中使用。

    apiVersion: v1
    kind: ConfigMap
    metadata:
      name: opentelemetry-collector
      namespace: tracing
    data:
      relay: |
        exporters:
          debug: {}
          otlp:
            endpoint: jaeger-collector.hu.svc.cluster.local:4317
            tls:
              insecure: true
        extensions:
          health_check:
            endpoint: ${env:MY_POD_IP}:13133
    
        processors:
          batch: {}
          memory_limiter:
            check_interval: 5s
            limit_percentage: 80
            spike_limit_percentage: 25
    
        receivers:
          otlp:
            protocols:
              grpc:
                endpoint: ${env:MY_POD_IP}:4317
    
        service:
          extensions:
          - health_check
          pipelines:
            traces:
              exporters:
              - debug
              - otlp
              processors:
              - memory_limiter
              - batch
              receivers:
              - otlp
    
          telemetry:
            metrics:
              address: ${env:MY_POD_IP}:8888
    

  5. 配置更新后,重启otel-collector容器。查看otel容器日志可以看到otel已经以配置的规则进行工作。
    image.png


3.4 Jaeger查看调用链跟踪数据

访问jaeger UI,UI端口为16686。可以看到jaeger已经接收到trace信息,目前已有4条trace,每条trace均有8个span信息。
image.png

查看详细span信息,不仅可以看到服务级别的调用,还能看到方法级别的调用,以及方法级别的耗时。
image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。