1 背景

故事还要从一次翻车现场说起。

为了统计各个CPU上的系统调用数据按照cpu分别进行统计，我参考了kernel Documents中关于percpu map的一段原话：

Values stored in BPF_MAP_TYPE_ARRAY can be accessed by multiple programs across different CPUs. To restrict storage to a single CPU, you may use a BPF_MAP_TYPE_PERCPU_ARRAY.

用我不太靠谱的英语人肉翻译了一下，最后抓住了关键字"you may use a BPF_MAP_TYPE_PERCPU_ARRAY"，我毫不犹豫的选择了BPF_MAP_TYPE_PERCPU_ARRAY作为数据的存储载体。

接下来就是编写一个最简单的代码框架，然后慢慢完善、打磨功能。谁知刚刚代码框架刚刚写好，结果一跑程序就崩溃了(segfault. 我是幸运的，其实是偶现，如果没有撞见可能程序上线前我都发现不了这个问题)。几经周折，异常引发的范围缩小到bpf_map_lookup_elem(map_fd, &cpu, &value)这个调用引发，而且将BPF_MAP_TYPE_PERCPU_ARRAY换成BPF_MAP_TYPE_ARRAY就再也不出现了。

这是为什么呢，难道是我用的不对？为了找到原因，接下来就开始了漫长的PERCPU map的探索之路。

这里补充一些bpf_map_lookup_elem()的知识，以免一些同学一头雾水。

bpf_map_lookup_elem()是ebpf中查找map中特定key对应value的函数。这个函数存在于两个不同的形态：1) 内核中提供的helper function，供ebpf程序调用；2) libbpf库中提供的用户态接口，最终是通过系统调用来实现查找key对应的value。

2 自我反省

在深扒代码我认真思考了一下目前的局势：

1 使用BPF_MAP_TYPE_ARRAY map时，用户态bpf_map_lookup_elem()不出这个问题；

2 ebpf中内核使用bpf_map_lookup_elem()的helper function为什么就没有问题.

带着两个问题我深深的怀疑BPF_MAP_TYPE_PERCPU_ARRAY类型的map对于bpf_map_look_elem()的实现在内核helper function和用户态在系统调用上的实现上是不一致的。

3 分析bpf_map_lookup_elem的实现

为了搞清楚BPF_MAP_TYPE_PERCPU_ARRAY map在bpf_map_look_elem()函数上对于内核helper function和用户态syscall的区别，我开始了这两种方式的探索。

3.1 内核helper function的实现

可以很清楚的看到，内核helper function在根据key查找元素时最终是通过this_cpu_ptr()获取元素指针。

3. 2 用户态系统调用

可以看到，这里最终是拷贝了num_possible_cpus()*元素size 大小的内存到用户态。这里和helper function是有区别的；上面helper function只访问了一个元素大小的内存，而这里则是num_possible_cpus()个元素，也就是说对于BPF_MAP_TYPE_PERCPU_ARRAY这种percpu 类型的map，用户态通过系统调用bpf_map_look_elem()去访问时，需要传递num_possible_cpus()个元素大小的内存来存放内核拷贝的数据。如果只是按照普通MAP方式，传递一个元素大小的内存，则会发生越界。