问题排查利器 - 分布式 trace

news2025/1/17 0:57:25

        在分布式系统开发中,系统间的调用往往会横跨多个应用之间的接口。负责的调用链路也导致了,当线上环境出现问题时,例如请求失败、延迟增加或错误发生,我们无法第一时间确定是哪个环节出了问题,这给故障排查和修复带来了挑战。这时候分布式跟踪就变得至关重要。

1、什么是分布式 trace 

        

        分布式跟踪的目标是收集和分析整个分布式系统中的请求路径和性能数据,以便开发人员可以更好地理解系统中的瓶颈和问题。它通过在应用程序的不同组件之间传递唯一的标识符(通常称为跟踪 ID)来实现这一点,以便跟踪一个请求在系统中的流动。上图中的 span_id 可以理解为应用标记ID,而 trace_id 是请求标记ID,贯穿整个请求且保持不变的。

        当一个请求进入分布式系统时,它被赋予一个唯一的跟踪 ID。该跟踪 ID被传递到系统的不同组件中,每个组件在处理请求时都会记录自己的操作并将跟踪 ID 进一步传递给下一个组件。这样,整个请求路径就可以被跟踪和记录下来。

2、分布式 trace 与 日志配合

        分布式 trace 告诉了我们服务的执行链路,而日志则提供了具体的上下文内容,我们将分布式跟踪数据和日志数据进行关联和展示,可以提供更全面、准确和统一的信息,帮助我们更好地理解系统行为、定位问题,并建立监控和警报系统。这样可以快速解决故障,优化性能,提高系统的可靠性和可用性。

        那怎么将 traceId 标记到我们的每一个请求中呢? 最简单的方式就是给每个请求的所有方法都增加一段写入 traceId 的代码,但是这种对代码的侵入性太大了,我们实现业务逻辑的同时还需要考虑是否记录了 traceId ,所以这里我们通过代码增强的手段来实现 traceId 的传递。

a、使用代理增强管理 trace-id

        原理是在每个请求处理线程中通过ThreadLocal存储和获取Trace ID,确保Trace ID的唯一性和正确性。

@Aspect
@Component
public class TraceAspect {

    public static final String TRACE_ID = "trace-id";

    @Around("execution(* com.fighting.enhance.test.*.*(..))")
    public Object traceMethodExecution(ProceedingJoinPoint joinPoint) throws Throwable {
        // 不存在则增加 traceId
        String traceId = MDC.get(TRACE_ID);
        if (StringUtils.isBlank(traceId)) {
            MDC.put(TRACE_ID, UUID.randomUUID().toString());
        }

        // 执行被增强的方法
        Object result = joinPoint.proceed();

        // 删除本次请求 traceId
        MDC.remove(TRACE_ID);

        return result;
    }
}
 b、配置logback-spring.xml

        打开logback-spring.xml配置文件,并在其中添加一个自定义的PatternLayout模式,用于包含Trace ID。在该模式中,使用%X{trace-id}来引用Trace ID。

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <conversionRule conversionWord="clr" converterClass="org.springframework.boot.logging.logback.ColorConverter"/>
    <conversionRule conversionWord="wex" converterClass="org.springframework.boot.logging.logback.WhitespaceThrowableProxyConverter"/>

    <property name="CONSOLE_LOG_PATTERN" value="%clr(%d{yyyy-MM-dd HH:mm:ss.SSS}){faint} %clr(%5p) %clr(${PID:- }){magenta} %clr(---){faint} %clr([%15.15t]){faint} %clr(%-40.40logger{39}){cyan} %clr(:){faint} -%X{trace-id} %X{notifyTrackId} %m%n%wex"/>

    <appender name="CONSOLE" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>${CONSOLE_LOG_PATTERN}</pattern>
            <charset>utf8</charset>
        </encoder>
    </appender>

    <!--异步输出-->
    <appender name="async_console_log" class="ch.qos.logback.classic.AsyncAppender">
        <includeCallerData>true</includeCallerData>
        <!-- 不丢失日志.默认的,如果队列的80%已满,则会丢弃TRACT、DEBUG、INFO级别的日志 -->
        <!--<discardingThreshold>0</discardingThreshold>-->
        <!-- 更改默认的队列的深度,该值会影响性能.默认值为256 -->
        <queueSize>500</queueSize>
        <!-- 应用停止或重新部署时,等待appender刷新队列的时间,超过该时间,队列里的日志事件被丢弃,默认1秒 -->
        <maxFlushTime>3000</maxFlushTime>
        <!-- 添加附加的appender,最多只能添加一个 -->
        <appender-ref ref="CONSOLE"/>
    </appender>

    <root level="INFO">
        <appender-ref ref="async_console_log"/>
    </root>
</configuration>
c、 测试代码
@Slf4j
@Component
public class TestLogTrace {

    public void test(){
        log.info("com.fighting.enhance.test.TestLogTrace.test");
        log.info("com.fighting.enhance.test.TestLogTrace.test1");
        log.info("com.fighting.enhance.test.TestLogTrace.test2");
    }
}

@Slf4j
@SpringBootTest
@RunWith(SpringRunner.class)
class ApplicationTests {

	@Resource
	private TestLogTrace testLogTrace;

	@Test
	void contextLoads() {
		testLogTrace.test();
		log.info("testLogTrace.test after");
	}
}

测试的日志输出中即可看到 traceId 

2024-02-05 18:55:09.013  INFO 10900 --- [           main] com.fighting.enhance.test.TestLogTrace   : -a981f71b-3bd8-42e2-9683-b4f8a81c629f  com.fighting.enhance.test.TestLogTrace.test
2024-02-05 18:55:09.013  INFO 10900 --- [           main] com.fighting.enhance.test.TestLogTrace   : -a981f71b-3bd8-42e2-9683-b4f8a81c629f  com.fighting.enhance.test.TestLogTrace.test1
2024-02-05 18:55:09.014  INFO 10900 --- [           main] com.fighting.enhance.test.TestLogTrace   : -a981f71b-3bd8-42e2-9683-b4f8a81c629f  com.fighting.enhance.test.TestLogTrace.test2
2024-02-05 18:55:09.014  INFO 10900 --- [           main] com.fighting.ApplicationTests            : -  testLogTrace.test after

3、logback配置文件 [%X{traceId}] 的取值逻辑

        通过logback的MDC(Mapped Diagnostic Context)机制来获取Trace ID的值,MDC是logback框架提供的一种机制,用于在日志输出中存储和访问线程特定的上下文信息。它使用ThreadLocal实现,并允许你在应用程序中的不同组件之间共享和传递上下文信息。

         debug 看下获取 trace-id 的源码,其中 getPropertyMap 中的 copyOnThreadLocal 是通过将 MDC 的内容复制到当前线程的ThreadLocal中,以便在多线程环境中能够正确地访问和使用MDC设置的数据。

4、总结

        不仅在日志记录上可以使用,分布式 trace 与 监控可视化配合使用,还可以帮助我们更清晰的知道我们的服务端实在那一个环节出了问题,服务出现异常的比例等等

        另外在高并发场景下全量日志的打印十分消耗性能,我们也可以利用 trace-id 来实现日志采样打印,采样简单实现,可以通过计算 trace-id %10==0 ,只将满足条件的内容进行日志打印,当然也可以直接通过降级的手段,只打印 error 级别的日志。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1434871.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Spring Data Envers 数据审计实战

随着各行各业信息化发展&#xff0c;决策者们越来越意识到数据版本追踪的重要性&#xff0c;尤其是上市公司&#xff0c;数据对于他们尤为重要。考虑到研发成本&#xff0c;对重要表单数据支持页面级的修改历史查看、对所有业务数据支持DB级的版本查看是一个不错的选择。 对于…

基于OpenCV灰度图像转GCode的斜向扫描实现

基于OpenCV灰度图像转GCode的斜向扫描实现基于OpenCV灰度图像转GCode的斜向扫描实现 引言激光雕刻简介OpenCV简介实现步骤 1.导入必要的库2. 读取灰度图像3. 图像预处理4. 生成GCode5. 保存生成的GCode6. 灰度图像斜向扫描代码示例 总结 系列文章 ⭐深入理解G0和G1指令&…

通过遵循最佳做法来提高 EDA 和 HPC 应用程序的 Azure NetApp 文件性能

介绍 Azure NetApp 文件是一项托管存储解决方案&#xff0c;适用于各种方案&#xff0c;包括高性能计算 (HPC) 基础结构。 低延迟和每秒高 I/O 操作数 (IOPS) 对于大规模企业而言是一种很好的组合。 假设你就职于一家半导体公司。 你的任务是设计公司的集成电路芯片&#xff…

问题:塑瓷后的牙冠要比完成的牙冠大() #学习方法#其他

问题&#xff1a;塑瓷后的牙冠要比完成的牙冠大&#xff08;&#xff09; A.10% B.10%-15% C.15%-20% D.20%-30% E.50% 参考答案如图所示

mysql8通过binlog恢复数据

参考资料: 通过binlog恢复误update的数据(一)_binlog 恢复update-CSDN博客 记录一次工作中的误删除&#xff0c;使用binlog恢复数据的问题。 1&#xff1a;找到mysql8的binlog文件。 2&#xff1a;把binlog文件转换为初始sql文件 mysqlbinlog -vv --base64-outputdecode-row…

【CSS】什么是BFC?BFC有什么作用?

【CSS】什么是BFC&#xff1f;BFC有什么作用&#xff1f; 一、BFC概念二、触发BFC三、BFC特性即应用场景1、解决margin塌陷的问题2、避免外边距margin重叠&#xff08;margin合并&#xff09;3、清除浮动4、阻止元素被浮动元素覆盖 一、BFC概念 BFC(block formatting context)…

【已解决】pt文件转onnx后再转rknn时得到推理图片出现大量锚框变花屏

前言 环境介绍&#xff1a; 1.编译环境 Ubuntu 18.04.5 LTS 2.RKNN版本 py3.8-rknn2-1.4.0 3.单板 迅为itop-3568开发板 一、现象 采用yolov5训练并将pt转换为onnx&#xff0c;再将onnx采用py3.8-rknn2-1.4.0推理转换为rknn&#xff0c;rknn模型能正常转换&#xff0c;…

Mac OS中创建适合网络备份的加密镜像文件:详细步骤与参数选择

这篇文章提供了在Mac OS中创建适合网络备份的加密镜像文件的详细步骤&#xff0c;同时探讨了在选择相关参数时的关键考虑因素&#xff0c;以确保用户能够安全、高效地存储和保护重要数据。 创建步骤 在Mac OS Monterey中&#xff0c;你可以使用“磁盘工具”&#xff08;Disk …

Django通过Json配置文件分配多个定时任务

def load_config():with open("rule.json", rb)as f:config json.load(f)return configdef job(task_name, config, time_interval):# ... 通过task_name判断进行操作if task_name get_data_times:passdef main():config load_config()for task_name, task_value…

代码随想录算法训练营第三十六天|背包问题

01背包问题 二维 代码随想录 视频讲解&#xff1a;带你学透0-1背包问题&#xff01;| 关于背包问题&#xff0c;你不清楚的地方&#xff0c;这里都讲了&#xff01;| 动态规划经典问题 | 数据结构与算法_哔哩哔哩_bilibili public class BagProblem {public static void main(…

LoRA:语言模型微调的计算资源优化策略

编者按&#xff1a;随着数据量和计算能力的增加&#xff0c;大模型的参数量也在不断增加&#xff0c;同时进行大模型微调的成本也变得越来越高。全参数微调需要大量的计算资源和时间&#xff0c;且在进行切换下游任务时代价高昂。 本文作者介绍了一种新方法 LoRA&#xff0c;可…

C++多态_C++回顾

多态的概念 通俗的说多态就是多种形态&#xff0c;具体点就是去完成某个行为&#xff0c;当不同的对象去完成时会产生出不同的概念。 什么是多态 静态的多态 静态的多态即函数重载&#xff0c;编译时是参数匹配和函数名修饰规则。 动态的多态 运行时实现&#xff0c;跟指…

【Java网络编程05】网络原理进阶(三)

1. HTTP协议概述 HTTP协议&#xff1a;又被称为"超文本传输协议"&#xff0c;是一种使用非常广泛的应用层协议&#xff0c;我们之前在文件章节介绍过文本文件与二进制文件的区别&#xff0c;文本可以看做字符串&#xff08;能在utf8/gbk等编码表中查找到合法字符&am…

Unity类银河恶魔城学习记录1-14 AttackDirection源代码 P41

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释&#xff0c;可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili PlayerPrimaryAttackState.cs using System.Collections; using System.Co…

测试开发体系

软件测试 通过手工或者工具对 “被测对象”进行测试验证实际结果与预期结果之间是否存在差异 软件测试作用 通过测试工作可以发现并修复软件当中存在的缺陷&#xff0c;从而提高用户对产品的使用信心测试可以降低同类型产品开发遇到问题的风险 软件缺陷 软件缺陷被测试工程…

京东数据分析(电商数据查询):2023年冲锋衣行业大卖,销售额同比增长96%!

在服装行业&#xff0c;每年都会出现不同的服装爆款&#xff0c;成为人们时尚穿搭的新宠&#xff0c;2023年的服装爆款无疑是冲锋衣。 在社交平台上&#xff0c;冲锋衣鲨鱼裤运动鞋的搭配一时间成为许多女性消费者的户外潮流穿搭&#xff0c;不少网友点赞表示“很出片”。对于…

python创建pdf文件

目录 一&#xff1a;使用reportlab库 二&#xff1a;使用使pdf库 在Python中生成PDF文件可以使用多种库&#xff0c;其中最常用的是reportlab和fpdf。以下是使用这两个库生成PDF文件的示例代码&#xff1a; 一&#xff1a;使用reportlab库 1&#xff1a;写入文字信息 from r…

34 使用 LNMP 架构部署动态网站环境

源码包程序 LNMP 动态网站部署架构 LNMP 动态网站部署架构是一套由 Linux Nginx MySQL PHP 组成的动态网站系统 解决方案。 1. 准备工作 在使用源码包安装服务程序之前&#xff0c;首先要让安装主机具备编译程序源码的环境。这需要 具备 C 语言、C语言、Perl 语言的编译器&…

宝塔+php+ssh+vscode+虚拟机 远程调试

远程(虚拟机)宝塔 安装扩展 配置文件添加&#xff0c;zend_extension看你虚拟机的具体位置 [Xdebug] zend_extension/www/server/php/74/lib/php/extensions/no-debug-non-zts-20190902/xdebug.so xdebug.modedebug xdebug.start_with_requesttrigger xdebug.client_host&quo…

关于RabbitMQ面试题汇总

什么是消息队列&#xff1f;消息队列有什么用&#xff1f; 消息队列是一种在应用程序之间传递消息的通信机制。它是一种典型的生产者-消费者模型&#xff0c;其中生产者负责生成消息并将其发送到队列中&#xff0c;而消费者则从队列中获取消息并进行处理。消息队列的主要目的是…