性能分析排查思路之日志（1）

news2026/2/12 1:26:07

本文是性能问题分析排查思路的展开内容之一，主要分为日志1期，机器4期、环境2期共7篇系列文章，本期是第一篇，讲日志的分析方法和经验。

系列文章传送门：
一图梳理性能问题分析排查思路-总体概述（0）

一般分析步骤

大数据领域，日志的范畴很广泛，主要思路如下：

收集相关日志：
- 任务日志：对于运行在YARN等分布式计算框架上的任务，首先要获取任务执行过程中的标准输出（stdout）和标准错误（stderr）日志，这些日志可能包含了任务启动、运行、失败的具体信息，包括错误栈、资源分配状况、任务进度等。
关键在于找到第一现场，最后的错误往往是由更早的错误引发的！
- 服务日志：针对具体的大数据服务组件，如HDFS NameNode、DataNode、YARN ResourceManager、NodeManager、Kafka Broker、HBase RegionServer等，收集其运行时的日志文件，这些日志记录了服务内部状态变化、请求处理情况、异常事件等重要信息。

错误不一定发生在每一个节点上，如不能定位到节点，分布式的服务需要关注每一个节点的信息。

上下游服务日志：如果问题涉及到多个服务之间的交互，例如数据流经Elasticsearch、Flink、Kafka等中间件，也需要查看这些上游和下游服务的相关日志，以便确定数据传输是否正常、是否存在接口调用失败或超时等问题。

这招很管用！

筛选关键信息：
- 使用grep、awk等命令行工具或日志管理平台进行关键词过滤和搜索，快速定位到包含错误信息或异常堆栈的部分。
- 查看日志中与时间戳相关的条目，找到问题发生的时间窗口内的日志记录（以便回溯对应时间段的硬件资源状态）。
关联分析：
- 将不同来源的日志按时间顺序排列，观察同一时间段内各服务的状态和交互情况。
- 分析错误前后的上下文信息，寻找可能导致问题的触发因素，如资源耗尽、并发冲突、配置错误等。
深度解析：
- 对于复杂的系统错误或性能瓶颈，可能需要深入理解日志中所反映出的系统内部机制，比如内存溢出、磁盘空间不足、网络延迟高等问题（这在机器相关章节展开）。
- 如果是代码级别的错误，通过错误栈跟踪查找引发问题的具体代码行，结合源码进一步分析（在环境章节展开讲）。
重现与调试：
- 在条件允许的情况下，尝试复现问题并开启额外的日志级别（debug或trace级别），以获取更详细的运行时信息。
- 如果有必要，可以通过远程调试或者增加临时日志输出来追踪特定变量的变化或流程控制路径。
不能重现的问题往往是没有找到根因！

常见的错误类型

HDFS与YARN类

组件	错误关键词	解释说明
Hadoop	namenode.SafeModeException	安全模式下无法操作
Hadoop	ConnectException: Call From datanode-host	DataNode连接失败
YARN	ConnectException：Failed to connect to server	ResourceManager无法启动或连接失败
YARN	Failed to launch container … ExitCode xx is -104	容器初始化失败
YARN	FileAlreadyExistsException	输出目录已存在等
Hadoop	RemoteException: StandbyException …	HA模式下Active NameNode变更
Hadoop	UnknownHostException: namenode-host	NameNode服务未响应或不可达
Hadoop	sasl.SaslException: GSS initiate failed	Kerberos认证失败
YARN	OutOfMemoryError: Java heap space	Map或Reduce任务内存溢出
Hadoop	IOException: Failed to handshake with NN	DataNode与NameNode之间通信失败

Hive和HBase类

组件	错误关键词	解释说明
Hive	FAILED: MetaException(message:Got	元数据比如表或分区创建、删除、更新等操作失败
Hive	FAILED: ParseException line x:xx	SQL语句解析错误，如语法不符合规范
Hive	SemanticException [Error 10001]: Line xx	SQL语句虽符合语法，但在执行计划生成阶段出现语义错误
Hive	HiveExecutionException Error while processing	在查询执行过程中发生的异常
Hive	.FileNotFoundException: File does not exist	与HDFS相关的读写错误，如文件不存在、权限不足
Hive	DAG submission failed due to	Tez作为执行引擎时，由于资源不足等导致失败
Hive	hive.serde2.SerDeException:	在序列化或反序列化数据时遇到的问题
HBase	ZooKeeperConnectionException: HBase is unable to connect	ZK连接异常
HBase	IllegalArgumentException: KeyValue size too large	RowKey过大错误
HBase	Lease expired on client… for table …	RegionServer租约过期错误

Spark类

组件	错误关键词	解释
Spark	OutOfMemoryError: Java heap space	内存溢出
Spark	NoClassDefFoundError`,` ClassNotFoundException	依赖库缺失或版本冲突
Spark	SocketTimeoutException: Read timed out	网络通信错误
Spark	FetchFailedException: Connection from	Spark Shuffle错误
Spark	sql.AnalysisException:Table or view not found	表或视图不存在，或者SQL语句语法有误
Spark	YarnAllocationException	向YARN资源管理器申请资源失败

日志处理的常用命令

基础类：cat + grep关键字，less、more、tail

统计类：wc统计行数、字符数

管道类：awk配合grep

tail -n 1000 /var/log/hadoop/xxxx.log | grep "Error" | awk '{print $1, $4}' > errors.txt

工具类：split将很大的日志文件切分成小文件，zip或tar压缩！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1476460.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

性能分析排查思路之日志（1）

一般分析步骤

常见的错误类型

HDFS与YARN类

Hive和HBase类

Spark类

日志处理的常用命令

相关文章

‘grafana.ini‘ is read only ‘defaults.ini‘ is read only

HarmonyOS开发云工程与开发云函数

高性能图表组件LightningChart .NET v11.0发布——增强DPI感知能力

【从零开始学习重要知识点 | 第一篇】快速了解什么是幂等性以及常见解决方案

Python多功能课堂点名器、抽签工具

vue中组合式API和选项式API的区别

CSS3详解

搭建服务器及跨域处理

Vue 环境安装以及项目创建

【C++进阶】哈希 + unordered系列容器

前端css、js、bootstrap、vue2.x、ajax查漏补缺（1）

机器学习专项课程03：Unsupervised Learning, Recommenders, Reinforcement Learning笔记 Week01

前端视角对Rust的浅析

单细胞Seurat - 细胞聚类(3)

【三维重建】【slam】【分块重建】LocalRF：逐步优化的局部辐射场的鲁棒视图合成

学习Android的第十八天

观成科技：加密C2框架Covenant流量分析

【C/C++】inline内联函数详解

使用drawio画数据库实体关系图

如何利用ChatGPT搞科研？论文检索、写作、基金润色、数据分析、科研绘图（全球地图、植被图、箱型图、雷达图、玫瑰图、气泡图、森林图等）