qemu 抓取linux kernel vmcore

一、背景

在qemu调试linux kernel时有时我们会遇到dump 情况，这时可以通过gdb 方式连接分析dump，但实际中我们用得更多的是离线dump 分析，分析的文件通常是vmcore（linux kernel panic 生成的coredump文件）或者ramdump（类似高通平台提供的抓取手机的整个内存空间）；这里我将介绍如何利用qemu 抓取vmcore, 以及后续利用crash 工具离线分析异常的方法。

二、qemu monitor建立连接

1、qemu 抓取vmcore 需要建立连接，server端连接建立

qemu-system-aarch64 \
    -monitor telnet:127.0.0.1:5554,server,nowait \
    -machine virt,virtualization=true,gic-version=3 \
    -nographic \
    -m size=2048M \
    -cpu cortex-a72 \
    -smp 2 \ 
    -kernel Image \
    -drive format=raw,file=rootfs.img \
    -append "root=/dev/vda rw "

对比前面的qemu 启动linux kernel, 这里需要增加指令：

-monitor telnet:127.0.0.1:5554,server,nowait

monitor通过telnet端口5554 建立server连接；

2、qemu monitor telnet client连接

geek@geek-virtual-machine:~/workspace/linux/qemu$ telnet 127.0.0.1 5554

qemu monitor中也有一些指令用来查看qemu运行的linux kernel 状态，这里不详细展开，有兴趣的可以自行搜索（比如热插拔增加一个device, 执行info roms查看 qemu运行的信息，抓取寄存器等）

对于抓取vmcore,我们唯一需要关心的是指令dump-guest-memory ：

dump-guest-memory [-p] [-d] [-z|-l|-s|-w] filename [begin length] -- dump guest memory into file 'filename'.
			-p: do paging to get guest's memory mapping.
			-d: return immediately (do not wait for completion).
			-z: dump in kdump-compressed format, with zlib compression.
			-l: dump in kdump-compressed format, with lzo compression.
			-s: dump in kdump-compressed format, with snappy compression.
			-w: dump in Windows crashdump format (can be used instead of ELF-dump converting),
			    for Windows x64 guests with vmcoreinfo driver only.
			begin: the starting physical address.
			length: the memory size, in bytes.

通常使用 dump-guest-memory filename 或 dump-guest-memory -z filename 指令会抓取qemu中linux kernel的vmcore，一个是不压缩，一个是zlib压缩格式，后续就可以利用这个vmcore来进行kernel panic 离线分析；

三、qemu vmcore抓取

1、如何生成vmcore

先用最简单的命令行触发一个panic： echo c > /proc/sysrq-trigger

~ # echo c > /proc/sysrq-trigger 
[  142.419430] sysrq: Trigger a crash
[  142.419886] Kernel panic - not syncing: sysrq triggered crash
[  142.420293] CPU: 0 PID: 143 Comm: sh Tainted: G                 N 6.6.1-g3cba94c761ec-dirty #15
[  142.420642] Hardware name: linux,dummy-virt (DT)
[  142.420985] Call trace:
[  142.421120]  dump_backtrace+0x90/0xe8
[  142.421412]  show_stack+0x18/0x24
[  142.421673]  dump_stack_lvl+0x48/0x60
[  142.422098]  dump_stack+0x1c/0x28
[  142.422434]  panic+0x39c/0x3f0
[  142.422744]  sysrq_reset_seq_param_set+0x0/0x10c
[  142.423099]  __handle_sysrq+0x154/0x294
[  142.423427]  write_sysrq_trigger+0x80/0xcc
[  142.423731]  proc_reg_write+0x108/0x16c
[  142.423990]  vfs_write+0x158/0x45c
[  142.424218]  ksys_write+0xd0/0x180
[  142.424425]  __arm64_sys_write+0x44/0x58
[  142.424651]  invoke_syscall+0x60/0x184
[  142.424887]  el0_svc_common.constprop.0+0x78/0x13c
[  142.425132]  do_el0_svc+0x30/0x40
[  142.425351]  el0_svc+0x38/0x70
[  142.425559]  el0t_64_sync_handler+0x120/0x12c
[  142.425816]  el0t_64_sync+0x190/0x194
[  142.426441] SMP: stopping secondary CPUs
[  142.427057] Kernel Offset: disabled
[  142.427264] CPU features: 0x1,00000200,3c020000,1000421b
[  142.427700] Memory Limit: none
[  142.428385] ---[ end Kernel panic - not syncing: sysrq triggered crash ]---

然后在qemu monitor 端执行： dump-guest-memory ramdump1

或者：dump-guest-memory -z vmcore1

用 -z参数和不带参数抓取的vmcore只是一个压缩，一个不压缩，大小不同而已，对我们分析无影响

后面我们就用这个抓取到的ramdump1/vmcore1 文件进行分析，分析前我们还需要准备对应的kernel版本的vmlinux, 以及crash 工具（这个工具是redhat开发的分析kdump的免费开源工具）;

2、crash工具交叉编译

1.下载crash tool
https://github.com/crash-utility/crash.git
2.编译crash, 我们分析的vmcore是arm64平台
make target=ARM64
3.根目录会生成crash工具，加到环境变量中使用即可
4. crash 还有一些externsion在目录extensions  ---本次分析vmcore暂时不涉及，可以忽略
   make extensions
   编译生成后的so,在crash中通过extend XXX.so方式加载
   a. trace.so 用来提取ramdump中的trace log, 分析一些疑难杂症是有用，
      本质就是根据trace buffer结构体提取里面的trace log
   https://github.com/fujitsu/crash-trace
   b.gcore.so 可以在kernel panic后的ramdump中提取指定进程的coredump,对应用端逻辑调用栈进行分析
   https://github.com/fujitsu/crash-gcore

crash 的指令学习可以参考下面两篇文章：

CRASH安装和调试_crash gcore-CSDN博客

四、crash加载vmcore

1、crash加载指令：

crash vmcore路径 vmlinux路径 -m vabits_actual=XX 指定虚拟地址长度（位长的设置后面会介绍）

crash  ../qemu/vmcore1 vmlinux -m vabits_actual=48

虚拟地址长度可以在.config中查看（64位平台通常的配置是48或者39）：
//CONFIG_ARM64_VA_BITS_48=y CONFIG_ARM64_VA_BITS=48

2、加载遇到问题

看来这个问题已经在crash bug上有人报过了，但是问题还是没有解决（反馈者对比发现4.X 版本的内核是正常的---我自己用4.19也是正常的，现在我用的linux6.6.1也是有问题，这个问题应该在crash arm64上存在了很久，但是没人去解决）。

[Crash-utility] [Question] crash-arm64 cannot determine VA_BITS_ACTUAL for qemu dump-guest-memory

花了些时间分析后，发现是自动计算kimage_voffset时遇到了问题，导致后面无法进行；由于这个在一个编译的版本上是固定值，于是我简单通过 gdb 连接，然后在内核查看变量kimage_voffset的值，最后通过crash的参数设定传入，

(gdb) p /x kimage_voffset
$3 = 0xffff80003fe00000

上面可以看到我这个版本的kimage_voffset值是0xffff80003fe00000,不清楚怎么单步调试kernel的参考我前面的文章：无人知晓：qemu单步调试arm64 linux kernel

3、crash增加参数 kimage_voffset=XXX

重新加载vmcore, 通过gdb获取kimage_voffset的值，在crash 加载vmcore/ramdump时，arm64平台有如下几个参数可以设置：

    ARM64: //这些都是特定平台相关参数，通过 -m option=value 指定
      phys_offset=<physical-address>  //指定物理地址的起始
      kimage_voffset=<kimage_voffset-value>   //指定kimage_voofset的值
      max_physmem_bits=<value>                  
      vabits_actual=<value>     //指定虚拟地址长度,手机通常使用39位，虚拟地址空间已经到512G,足够使用，
                                //39位相对48位，正好少一级页表，性能上有提升，同时当前的虚拟地址空间足够手机使用了

   --kaslr offset //kaslr指定kaslr偏移的参数，qemu调试我们通常会关闭，否则对齐vmlinux需要花些功夫
                  //在高通平台中ocimem.bin特定offset存放，
                  //linux ramdump parse解析的结果也有这个offset
crash最终启动命令: 
crash  ../qemu/vmcore1 vmlinux -m vabits_actual=48 -m kimage_voffset=0xffff80003fe00000

如上，加载vmcore成功。

五、crash中如何调试一个vmcore

echo c > /proc/sysrq-trigger 方式触发的dump, 入口在drivers/tty/sysrq.c中

实际我们在调试中，遇到panic都需要恢复调用栈及问题发生时的寄存器来进行分析；

1、如何恢复调用栈

crash> bt
PID: 143      TASK: ffff00000bc09f00  CPU: 0    COMMAND: "sh"
bt: WARNING: cannot determine starting stack frame for task ffff00000bc09f00

执行bt为什么无法恢复调用栈？panic时sp指针等信息并没有填入导致的，正如我们在使用T32调试通常也需要也个cmm放置 x0～x29, sp/lr 等信息才能正常恢复异常现场

2、如何获取panic时的寄存器信息？

通常内核发生异常时会打印当前CPU的寄存器信息，利用这个打印信息就可以，在遇到wdt或者tz卡死类问题时，肯定是无法打印出来，这时平台通常是触发fiq到trustzone, 然后在TZ中抓取EL1 的cpu寄存信息，我们这里是因为调用的panic, 这个默认也是不打印寄存器信息的。如果是触发data abort或者instuction abort等异常还是能正常打印，如：

上面是我用4.19内核echo c 触发的，4.19的实现就是通过空指针访问制造的异常（个人觉得用空指针制造的panic更方便分析）

3、获取panic时的调用栈

执行bt时，提供了 pid和触发panic的进程name信息：

PID: 143 TASK: ffff00000bc09f00 CPU: 0 COMMAND: "sh"

crash> task -x -R thread.cpu_context 143
PID: 143 TASK: ffff00000bc09f00 CPU: 0 COMMAND: "sh"
thread.cpu_context = {
x19 = 0xffff80008475af40,
x20 = 0x0,
x21 = 0xffff00000bc09f00,
x22 = 0xffff7fffb13f4000,
x23 = 0xffff800082e0e748,
x24 = 0xffff00000bd1d500,
x25 = 0xffff800085fd7850,
x26 = 0xffff80008475b338,
x27 = 0xffff800082e0e750,
x28 = 0xffff000034202748,
fp = 0xffff800085fd7740,
sp = 0xffff800085fd7740, //利用sp恢复
pc = 0xffff8000817d4390
},
利用bt恢复时，需要lr指针，sp + 8就是lr, sp中存放的是上一级的sp；不清楚可以看后面参考的链接：https://student.cs.uwaterloo.ca/~cs452/docs/rpi4b/aapcs64.pdf

crash> bt -S 0xffff800085fd7748
PID: 143      TASK: ffff00000bc09f00  CPU: 0    COMMAND: "sh"
bt: WARNING: cannot determine starting stack frame for task ffff00000bc09f00
 #0 [ffff800085fd7750] idle_cpu at ffff80008010a9a0
 #1 [ffff800085fd7780] irq_exit_rcu at ffff8000800c4a68
 #2 [ffff800085fd7790] arm64_preempt_schedule_irq at ffff8000817d424c
 #3 [ffff800085fd77b0] el1_interrupt at ffff8000817caf10
 #4 [ffff800085fd77d0] el1h_64_irq_handler at ffff8000817cb2c0
 #5 [ffff800085fd7910] el1h_64_irq at ffff800080011ae4
 #6 [ffff800082b361e0] (null) at f420
     PC: 000000000044fd4c   LR: 00000000004b7734   SP: 0000ffffd8894070
    X29: 0000ffffd8894070  X28: 0000000000000000  X27: 0000000000000000
    X26: 0000000001e57970  X25: 0000000000000002  X24: 0000000000000020
    X23: 0000000001e5c6a0  X22: 0000000000602000  X21: 0000000000000002
    X20: 0000000001e5c6a0  X19: 0000000000000001  X18: 0000000000000000
    X17: 0000000000403140  X16: 0000000000600020  X15: 000000000360ed96
    X14: 0000000000000001  X13: 0000ffffd88941b0  X12: 00000000ffffffc8
    X11: 00000000ffffff80  X10: 0000000000000000   X9: 0000000000000020
     X8: 0000000000000040   X7: 7f7f7f7f7f7f7f7f   X6: 0000000000000063
     X5: fffffffffffffffe   X4: 0000000000000001   X3: 0000000000601ca5
     X2: 0000000000000002   X1: 0000000001e5c6a0   X0: 0000000000000001
    ORIG_X0: 0000000000000001  SYSCALLNO: 40  PSTATE: 80000000

恢复到第五级，遇到一些问题，直接查看堆栈内容，在0xffff800085fd7910处出现了栈回溯问题，这是因为中断的原因，跳过这一级继续向下就可以恢复完整异常发生的调用栈，如下标红线的就是sp回溯，sp + 8就是每一级对应的lr函数，可以通过sym XXXXX查看

从0xffff800085fd7920 开始恢复调用栈，此时就是真实触发异常的调用栈

crash> bt -S 0xffff800085fd7928
PID: 143      TASK: ffff00000bc09f00  CPU: 0    COMMAND: "sh"
bt: WARNING: cannot determine starting stack frame for task ffff00000bc09f00
 #0 [ffff800085fd7930] __delay at ffff800081789ecc
 #1 [ffff800085fd7960] __const_udelay at ffff800081789fb0
 #2 [ffff800085fd7a20] panic at ffff8000800ba5ec
 #3 [ffff800085fd7ab0] sysrq_handle_crash at ffff800080bc78c8
 #4 [ffff800085fd7ac0] __handle_sysrq at ffff800080bc8414
 #5 [ffff800085fd7b40] write_sysrq_trigger at ffff800080bc8eb8
 #6 [ffff800085fd7b70] proc_reg_write at ffff8000804b83e8
 #7 [ffff800085fd7ca0] vfs_write at ffff8000803f5b84
 #8 [ffff800085fd7d60] ksys_write at ffff8000803f6130
 #9 [ffff800085fd7da0] __arm64_sys_write at ffff8000803f6224
#10 [ffff800085fd7dd0] invoke_syscall at ffff80008002ee48
#11 [ffff800085fd7e20] el0_svc_common.constprop.0 at ffff80008002efe4
#12 [ffff800085fd7e60] do_el0_svc at ffff80008002f0d8
#13 [ffff800085fd7e80] el0_svc at ffff8000817cb060
#14 [ffff800085fd7ea0] el0t_64_sync_handler at ffff8000817cb45c
#15 [ffff800085fd7fe0] el0t_64_sync at ffff800080011d48
     PC: 000000000044fd4c   LR: 00000000004b7734   SP: 0000ffffd8894070
    X29: 0000ffffd8894070  X28: 0000000000000000  X27: 0000000000000000
    X26: 0000000001e57970  X25: 0000000000000002  X24: 0000000000000020
    X23: 0000000001e5c6a0  X22: 0000000000602000  X21: 0000000000000002
    X20: 0000000001e5c6a0  X19: 0000000000000001  X18: 0000000000000000
    X17: 0000000000403140  X16: 0000000000600020  X15: 000000000360ed96
    X14: 0000000000000001  X13: 0000ffffd88941b0  X12: 00000000ffffffc8
    X11: 00000000ffffff80  X10: 0000000000000000   X9: 0000000000000020
     X8: 0000000000000040   X7: 7f7f7f7f7f7f7f7f   X6: 0000000000000063
     X5: fffffffffffffffe   X4: 0000000000000001   X3: 0000000000601ca5
     X2: 0000000000000002   X1: 0000000001e5c6a0   X0: 0000000000000001
    ORIG_X0: 0000000000000001  SYSCALLNO: 40  PSTATE: 80000000

crash的使用技巧可以参考文末部分（写得都很详细）