在前面我已经分享了关于ebpf入门的文章:基于ubuntu22.04-深入浅出 eBPF。这篇文章介绍一个基于ebpf技术的强大工具–bpftrace。
在现代计算机系统中,了解系统的内部运行情况对于诊断问题、优化性能以及进行安全监控至关重要。bpftrace作为一款强大的跟踪工具,为开发人员和系统管理员提供了一种独特的方式来监视和分析Linux系统的内部运行。本文描述bpftrace的原理和使用。
bpftrace
bpftrace是基于eBPF和BBC实现了通过探针机制采集内核和程序运行的信息,然后用图表等方式将信息展示出来,帮助开发者找到隐藏较深的Bug、安全问题和性能瓶颈。
bpftrace是一种高级跟踪,适用于最新的Linux内核(4.x)中提供的Linux增强型Berkeley数据包过滤器(eBPF)。bpftrace使用LLVM作为将脚本编译为BPF码字节语言,并使用BCC与Linux BPF系统交互,以及现有的Linux跟踪功能:内核动态跟踪(kprobes)、用户级动态跟踪(uprobes)、和跟踪点。bpftrace语言的灵感来自awk和C,以及DTrace和SystemTap等前身跟踪
bpftrace通过高度抽象的封装来使用eBPF,大多数功能只需要寥寥几笔就可以运行起来,可以很快让我们搞清楚eBPF是什么样的,而暂时不关心eBPF复杂的内部机理。由于bpftrace深受AWK和c的影响,bpftrace使用起来于AWK非常相似,那些内核hook注入点几乎可以按普通字符串匹配来理解,非常容易上手。
bpftrace安装
在bpftrace的项目中,提供了一些常见系统的安装方法,官方文档:(https://github.com/iovisor/bpftrace/blob/master/INSTALL.md#ubuntu-packages)。支持的系统:Ubuntu,Fedora,Gentoo,Debian,openSUSE,CentOS,Arch,Alpine。
- 作者使用ubuntu22.04系统,安装过程非常简单,步骤如下:
youyeetoo@youyeetoo:~$ sudo apt-get install -y bpftrace
- 安装完毕,可以确认一下安装情况,如果看到版本号说明安装成功:
youyeetoo@youyeetoo:~$ bpftrace -V
bpftrace v0.14.0
bpftrace使用
bpftrace是eBPF的高级封装,借助bpftrace可以一窥 eBPF 轮廓。
## 列出ebpf支持的探针指令:
$ bpftrace -l
## 查看ebpf支持的探针个数:
$ bpftrace -l | wc -l
## 查看不同类型ebpf探针个数:
$ bpftrace -l | awk -F ":" '{print $1}' | sort | uniq -c
bpftrace执行脚本
bpftrace提供了两种不同的方式执行脚本:
- 单行指令执行:bpftrace -e ‘cmds’
- 单行指令模式是即用即弃,执行一些简短的指令非常方便,所有指令都包含在最后一个参数中,需要注意的是,虽然单行指令模式的指令可能很长,但对于 bpftrace 来说,它只接受了 2 个参数:-e 和 一个指令字符串(需要使用单引号包裹,确保所有指令都被识别为一个完整的字符串)。
- 单行指令,官方也提供了一些样例,如下:
# Files opened by process
$ bpftrace -e 'tracepoint:syscalls:sys_enter_open { printf("%s %s\n", comm, str(args->filename)); }'
# Syscall count by program
$ bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @[comm] = count(); }'
# Read bytes by process:
$ bpftrace -e 'tracepoint:syscalls:sys_exit_read /args->ret/ { @[comm] = sum(args->ret); }'
# Read size distribution by process:
$ bpftrace -e 'tracepoint:syscalls:sys_exit_read { @[comm] = hist(args->ret); }'
# Show per-second syscall rates:
$ bpftrace -e 'tracepoint:raw_syscalls:sys_enter { @ = count(); } interval:s:1 { print(@); clear(@); }'
# Trace disk size by process
$ bpftrace -e 'tracepoint:block:block_rq_issue { printf("%d %s %d\n", pid, comm, args->bytes); }'
# Count page faults by process
$ bpftrace -e 'software:faults:1 { @[comm] = count(); }'
# Count LLC cache misses by process name and PID (uses PMCs):
$ bpftrace -e 'hardware:cache-misses:1000000 { @[comm, pid] = count(); }'
# Profile user-level stacks at 99 Hertz, for PID 189:
$ bpftrace -e 'profile:hz:99 /pid == 189/ { @[ustack] = count(); }'
# Files opened, for processes in the root cgroup-v2
$ bpftrace -e 'tracepoint:syscalls:sys_enter_openat /cgroup == cgroupid("/sys/fs/cgroup/unified/mycg")/ { printf("%s\n", str(args->filename)); }'
- 脚本文件执行:bpftrace
- 通过bpftrace 就可以执行c style的代码,通过这类的代码,bpftrace可以实现相对复杂的逻辑。比如通过bpftrace获取当前所有shell的输入,代码如下:
BEGIN
{
printf("Tracing bash commands... Hit Ctrl-C to end.\n");
printf("%-9s\t%s\t%s\t%s\n", "TIME", "UID", "PID", "COMMAND");
}
uretprobe:/bin/bash:readline
{
time("%H:%M:%S\t");
printf("%d\t%d\t%s\n", uid, pid, str(retval));
}
END
{
printf("end-test");
}
- 官方提供了很多工具可直接调用,链接:https://github.com/iovisor/bpftrace/tree/master/tools
工具 | 说明 |
---|---|
tools/bashreadline.bt | 在系统范围内打印输入的bash命令 |
tools/biolatency.bt | 以直方图形式显示块I/O延迟 |
tools/biosnoop.bt | 块I/O跟踪工具,显示每个I/O延迟 |
tools/biostacks.bt | 使用初始化堆栈显示磁盘 I/O 延迟 |
tools/bitesize.bt | 以直方图形式显示磁盘 I/O 大小 |
tools/capable.bt | 跟踪安全能力检查 |
tools/cpuwalk.bt | 采样哪些 CPU 正在执行进程 |
tools/dcsnoop.bt | 跟踪目录条目缓存 (dcache) 查找 |
tools/execsnoop.bt | 通过 exec() 系统调用跟踪新进程 |
tools/gethostlatency.bt | 显示 getaddrinfo/gethostbyname[2] 调用的延迟 |
tools/killsnoop.bt | 由kill()系统调用发出的跟踪信号 |
tools/loads.bt | 打印负载平均值 |
tools/mdflush.bt | 跟踪 md 刷新事件 |
tools/naptime.bt | 显示自愿睡眠呼叫 |
tools/opensnoop.bt | 跟踪显示文件名的 open() 系统调用 |
tools/oomkill.bt | 跟踪 OOM 杀手 |
tools/pidpersec.bt | 计算新进程(通过 fork) |
tools/runqlat.bt | CPU 调度程序运行队列延迟作为直方图 |
tools/runqlen.bt | CPU 调度程序运行队列长度作为直方图 |
tools/setuids.bt | 跟踪 setuid 系统调用:权限提升 |
tools/ssllatency.bt | 将 SSL/TLS 握手延迟总结为直方图 |
tools/sslsnoop.bt | 跟踪 SSL/TLS 握手,显示延迟和返回值 |
tools/statsnoop.bt | 跟踪 stat() 系统调用以进行一般调试 |
tools/swapin.bt | 按进程显示交换 |
tools/syncsnoop.bt | 跟踪sync()各种系统调用 |
tools/syscount.bt | 统计系统调用 |
tools/tcpaccept.bt | 跟踪 TCP 被动连接 (accept()) |
tools/tcpconnect.bt | 跟踪 TCP 活动连接 (connect()) |
tools/tcpdrop.bt | 跟踪基于内核的 TCP 数据包丢失的详细信息 |
tools/tcplife.bt | 使用连接详细信息跟踪 TCP 会话生命周期 |
tools/tcpretrans.bt | 跟踪 TCP 重传 |
tools/ tcpsynbl.bt | 以直方图形式显示 TCP SYN 积压 |
tools/threadsnoop.bt | 列出新线程创建 |
tools/undump.bt | 捕获 UNIX 域套接字包 |
tools/vfscount.bt | 统计 VFS 调用 |
tools/vfsstat.bt | 对一些 VFS 调用进行计数,并提供每秒摘要 |
tools/writeback.bt | 跟踪文件系统写回事件的详细信息 |
tools/xfsdist.bt | 将 XFS 操作延迟分布总结为直方图 |