Zipkin基础知识介绍

举报
SHQ5785 发表于 2024/05/30 18:17:54 2024/05/30
【摘要】 一、Zipkin是什么Zipkin为分布式跟踪系统,是Twitter开源而来。它可以帮助收集时间数据,解决在microservice架构下的延迟问题;它管理这些数据的收集和查找;Zipkin的设计是基于谷歌的Google Dapper论文。每个应用程序向Zipkin报告定时数据,Zipkin UI呈现了一个依赖图表来展示多少跟踪请求经过了每个应用程序;如果想解决延迟问题,可以过滤或者排序所...

一、Zipkin是什么

Zipkin为分布式跟踪系统,是Twitter开源而来。它可以帮助收集时间数据,解决在microservice架构下的延迟问题;它管理这些数据的收集和查找;Zipkin的设计是基于谷歌的Google Dapper论文。

每个应用程序向Zipkin报告定时数据,Zipkin UI呈现了一个依赖图表来展示多少跟踪请求经过了每个应用程序;如果想解决延迟问题,可以过滤或者排序所有的跟踪请求,并且可以查看每个跟踪请求占总跟踪时间的百分比。

二、为什么使用Zipkin

随着业务越来越复杂,系统也随之进行各种拆分,特别是随着微服务架构和容器技术的兴起,看似简单的一个应用,后台可能有几十个甚至几百个服务在支撑;一个前端的请求可能需要多次的服务调用最后才能完成;当请求变慢或者不可用时,无法得知是哪个后台服务引起的,这时就需要解决如何快速定位服务故障点,Zipkin分布式跟踪系统就能很好的解决这样的问题。

Zipkin下载和安装
ipkin下载安装可以查考https://zipkin.io/。官方提供了三种方式来启动,这里使用第二种方式来启动:

curl -sSL https://zipkin.io/quickstart.sh | bash -s
java -jar zipkin.jar

可以打开浏览器访问 http://ip:9411 即可。

三、Zipkin架构

架构图如下:

如上图所示,各业务系统在彼此调用时,将特定的跟踪消息传递至zipkin,zipkin在收集到跟踪信息后将其聚合处理、存储、展示等,用户可通过web UI方便获得网络延迟、调用链路、系统依赖等等。

四、Reporter

在某个应用中安插的用于发送数据给Zipkin的组件称为Report,目的就是用于追踪数据收集。

Instrumented ClientInstrumented Server,是指分布式架构中使用了Trace工具的两个应用,Client会调用Server提供的服务,两者都会向Zipkin上报Trace相关信息。在ClientServer通过Transport上报Trace信息后,由ZipkinCollector模块接收,并由Storage模块将数据存储在对应的存储介质中,然后Zipkin提供API供UI界面查询Trace跟踪信息。 Non-Instrumented Server,指的是未使用Trace工具的Server,不会上报Trace信息。

五、Transport

一种数据传输的方式,比如最简单的HTTP方式,当然在高并发时可以换成Kafka等消息队列

Zipkin主要包括四个模块:

  • Collector ,接收或收集各应用传输的数据。
  • Storage ,存储接受或收集过来的数据,当前支持Memory,MySQL,Cassandra,ElasticSearch等,默认存储在内存中。
  • API(Query),负责查询Storage中存储的数据,提供简单的JSON API获取数据,主要提供给web UI使用。
  • UI,负责渲染调用链路。

六、Zipkin的几个基本概念

  • Span:基本工作单元,一次链路调用(可以是RPC,DB等没有特定的限制)创建一个span,通过一个64位ID标识它, span通常还有其他的数据,例如描述信息,时间戳,key-value对的(Annotationtag信息,parent-id等,其中parent-id 可以表示span调用链路来源,通俗的理解span就是一次请求信息;

  • Trace:类似于树结构的Span集合,表示一条调用链路,存在唯一标识,即TraceIdZipkin使用Trace结构表示对一次请求的跟踪,一次请求可能由后台的若干服务负责处理,每个服务的处理是一个SpanSpan之间有依赖关系,Trace就是树结构的Span集合;

  • Annotation:注解,用来记录请求特定事件相关信息(例如时间),通常包含四个注解信息:

    • cs - Client Start,表示客户端发起请求;
    • sr - Server Receive,表示服务端收到请求;
    • ss - Server Send,表示服务端完成处理,并将结果发送给客户端;
    • cr - Client Received,表示客户端获取到服务端返回信息;

下图演示了请求依次经过 SERVICE1 -> SERVICE2 -> SERVICE3 & SERVICE4 时,span、trace、annotation 的状态变化情况。

完成链路调用的记录后,如何来计算调用的延迟呢,这就需要利用Annotation信息。

  • sr-cs 得到请求发出延迟;
  • ss-sr 得到服务端处理延迟;
  • cr-cs 得到整个链路完成延迟;

BinaryAnnotation:提供一些额外信息,一般以key-value对形式出现。

七、示例

compile group: 'io.zipkin.brave', name: 'brave', version: '5.6.0'
compile group: 'io.zipkin.reporter2', name: 'zipkin-sender-okhttp3', version: '2.7.13'
compile group: 'io.zipkin.brave', name: 'brave-context-log4j2', version: '5.6.0'

import brave.Span;
import brave.Tracer;
import brave.Tracing;
import brave.context.log4j2.ThreadContextScopeDecorator;
import brave.propagation.B3Propagation;
import brave.propagation.ExtraFieldPropagation;
import brave.propagation.ThreadLocalCurrentTraceContext;
import zipkin2.codec.SpanBytesEncoder;
import zipkin2.reporter.AsyncReporter;
import zipkin2.reporter.Sender;
import zipkin2.reporter.okhttp3.OkHttpSender;

import java.util.concurrent.TimeUnit;

public class TraceDemo {
    public static void main(String[] args) {
        Sender sender = OkHttpSender.create("http://localhost:9411/api/v2/spans");
        AsyncReporter asyncReporter = AsyncReporter.builder(sender)
                .closeTimeout(1000, TimeUnit.MILLISECONDS)
                .build(SpanBytesEncoder.JSON_V2);

        Tracing tracing = Tracing.newBuilder()
                .localServiceName("tracer-demo")
                .spanReporter(asyncReporter)
//                .propagationFactory(ExtraFieldPropagation.newFactory(B3Propagation.FACTORY, "user-name"))
                .currentTraceContext(ThreadLocalCurrentTraceContext.newBuilder().addScopeDecorator(ThreadContextScopeDecorator.create()).build())// // puts trace IDs into logs
                .build();

        Tracer tracer = tracing.tracer();
        Span span = tracer.newTrace().name("encode").start();
        try {
            doSomethingExpensive();
        } finally {
            span.finish();
        }


        Span twoPhase = tracer.newTrace().name("twoPhase").start();
        try {
            Span prepare = tracer.newChild(twoPhase.context()).name("prepare").start();
            try {
                prepare();
            } finally {
                prepare.finish();
            }
            Span commit = tracer.newChild(twoPhase.context()).name("commit").start();
            try {
                commit();
            } finally {
                commit.finish();
            }
        } finally {
            twoPhase.finish();
        }
        sleep(1000);
    }

    private static void doSomethingExpensive() {
        sleep(500);
    }

    private static void commit() {
        sleep(500);
    }

    private static void prepare() {
        sleep(500);
    }

    private static void sleep(long milliseconds) {
        try {
            TimeUnit.MILLISECONDS.sleep(milliseconds);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }
}
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。