eBPF内核技术在滴滴云原生的落地实践

news2025/1/11 13:02:18

将滴滴技术设为“星标⭐️

第一时间收到文章更新

导读

eBPF是Linux内核革命性技术,能够安全高效地扩展内核能力,应用广泛,尤其是在云原生可观测性领域的应用已经成为行业热点。在滴滴云原生环境中,eBPF技术进行了业务实践和内源共建,HuaTuo eBPF 平台快速落地并取得初步收益,目前已经支持云原生关键组件,诸如服务访问关系拓扑、容器安全、宿主机安全、网络诊断、根因定位等业务,HuaTuo也是滴滴开源委员会的精品孵化项目。希望本文为业界开发者提供一种如何将eBPF 技术快速应用到云原生场景的落地方式,共同提升云原生系统深度可观测性。

本文分为:

1.BPF 技术的前世

2.BPF 技术的今生

3.滴滴生产环境的业务痛点

  • 流量回放测试

  • 服务访问拓扑

  • 容器安全

  • 内核根因定位

4.滴滴HuaTuo eBPF 平台实践

  • 平台建设

  • 平台组成

  • 平台使用

5.滴滴业务落地实践

  • 内核根因定位背景

  • 内核根因定位思路

  • 内核根因定位平台

6.未来规划展望

1

BPF 技术的前世

Berkeley Packet Filter BPF 伯克利报文过滤器,最初构想提出于 1993 年,Steven McCanne 和 Van Jacobson 的论文《The BSD packet filter: a new architecture for user-level packet capture》。其目标提供一种新的高效过滤网络报文的方法。最初BPF 只附着在Linux 内核网络套接字上,当套接字绑定BPF字节码后,每接收一次报文都会执行该字节。内核根据BPF字节码返回值决定是否允许网络报文通过。

fa928b25c66972e92fc91ebe26fdc671.png

从指令集角度,BPF 起初的架构比较简单,只有一个32位宽度累加器A,一个32位宽度寄存器X,以及16x32bit 数组内存空间。但BPF 实现了加载、存储、跳转、运算四类指令。BPF 起初还没有即时编译器JIT,所有这些指令完全在内核小巧的虚拟机中运行,即便如此性能已经完全碾压其他报文过滤器。

b25c79951c04e35e766014300478bf23.png

BPF使用起来也比较方便,我们可以通过tcpdump、libpcap或者bpf_asm 生成BPF字节码,通过setsockopt SO_ATTACH_FILTER加载到内核。如下所示实现ICMP报文过滤,只需要根据L2/L3报文头漂移量判断协议号是否符合条件。

518e943b9ca3de7a694d1cb33744ce69.png

BPF 最先在sk_filter 落地使用,后续在netfilter、seccomp、team 驱动等网络子系统都有应用,但应用方向依旧在网络报文处理。

4099f155619baa034f1e916e3115eaff.png

2

BPF 技术的今生

BPF 最核心的思想实现了内核可编程,即在不改动源码,重新编译内核的情况下,实现高效扩展内核能力。2013 年,Alexei Starovoitov 对 BPF 进行改造,增加新特性,改善其性能。BPF 的进一步发展,为内核带来了巨大的改变,使内核具备了更加强大、可编程的动态变化的能力。这种能力在各种需要定制化的应用场景中,将发挥巨大的价值,既可以用于扩展功能,也可以用于优化性能。新版本被命名为 eBPF (“extended BPF”),以前的 BPF 变成 cBPF(“classic” BPF),后续篇章中BPF特指该项技术。

首先指令集角度,eBPF 是一种精简指令集,支持R0-R9 10个64bit 通用寄存器。其中R0寄存器用于内核函数的返回值,R1-R5寄存器用于内核函数的参数传递,这和x86_64、aarch64 类似。eBPF 支持两种指令集编码格式,64位宽度的基础编码,128位宽度的宽指令编码(该指令编码在基础编码之后附加64位立即数实现)。此外,eBPF 也丰富了四类指令集。

96f000472657c872d1e5d8277390f08c.png

e6d3fda137933e72350e50ca232ca915.png

Just In Time,  JIT 编译器,BPF 指令会被内核的 JIT 编译器动态编译为物理机原生指令,实现运行效率的“零”损耗。该特性在cBPF 时期由Eric Dumazet 实现,只支持x86-64架构。eBPF 根据自身指令特点再次扩展该编译器,eBPF 指令不仅仅可以JIT 成物理机CPU原生指令,同时可以翻译成一些设备如某些智能网卡的特定指令。这样诸如智能网卡的设备可以通过eBPF的方式实现可编程。

除了对指令层面丰富和扩展,eBPF 也增加了基于键值对的数据存储机制,可用于实现内核用户态的数据存储和交换。eBPF 新增比较丰富的BPF Helper函数,这使 BPF 程序可以访问内核功能,扩展BPF 能力,同时保持 BPF 程序和内核的安全隔离。 

随着BPF 功能增强,该技术不再局限于在内核网络子系统,也逐步应用于动态追踪、事件检测、性能分析优化、IO 子系统、进程调度、文件子系统等等。应用场景也从具体的点扩展到面:可观测性、Tracing、安全、性能分析和根因分析等等。同时也涌现出大批优秀的开源项目如Bcc、Cilium、bpftrace、Falco、Katran、Pixie。

79bab159193164eb22222bdf8eec3bbd.png

3

滴滴生产环境的业务痛点

在数据中心有很多基础服务,这些服务在稳定性、生产效能、可扩展性、安全等发挥着重要作用,这些基础设施在实际落地时都面临着不同程度的挑战。

流量回放测试

云原生的规模越来越大,承载的业务种类,业务流量和规模也都在急剧地扩大,软件测试也面临极大的挑战,包括测试环境搭建和测试用例的编写和维护等。流量回放测试是一种全新的测试方法。通过在线下测试环境进行回放,实现回归测试,流量回放能够完整的复现线上复杂的业务访问场景,极大地提高项目迭代效率、加速业务回归测试进度,保证业务研发质量提升。项目面临的挑战:

  • 业务编程语言繁多,基础库种类版本繁多。

  • 业务网络模型不统一(php单进程处理,golang协程处理,其他编程语言多线程/进程)。

  • 对特定业务定制化,难以提升覆盖度,并且成本较高。

  • 业务有感,在稳定性上较难保障。 

服务访问拓扑

随着微服务架构的兴起,服务数量日渐增多,服务之间的依赖关系变得越来越复杂。服务链路的可观测性对业务稳定性保障有很重要的意义。它能够清晰地展示服务接口之间的访问关系,以及诸如性能、延迟、超时等业务指标。线上出现问题的时候,依据服务拓扑关系能够快速地定位问题节点。项目面临的挑战:

  • 业务种类量大,人工梳理成本高易出错。

  • 通过推广特定SDK依靠 metric 以及日志中服务调用关系进行串联的方式推动难度大,在生产环境中容易出现断链的情况。 

容器安全

在云原生的大势所趋下,越来越多的企业选择拥抱云原生,容器已经成为应用交付的标准,也是云原生时代计算资源和配套设施的交付单元。容器的使用日益普及,容器安全问题日益凸显。滴滴针对容器安全有一套完整的方案,其中一些核心的痛点就通过eBPF 技术解决。 

内核根因定位

滴滴云原生平台的容器部署密度、超卖比都较高,在共享内核容器虚拟化场景下容易出现资源不合理使用导致的问题。传统的内核指标偏向于基本、整体、粗粒度层面的统计检测,同时传统的定位工具资源消耗较多,性能影响较大。因此彻底确定内核根因,需要对内核子系统进行深度观测,以及实现常态化观测,解决事中事后出现的突发、超时、毛刺等棘手问题。

4

滴滴HuaTuo eBPF 平台实践

eBPF 技术能够很好的解决上述出现的语言依赖痛点,同时eBPF 和动态追踪技术结合对实现深度观测内核提供支撑。但实际落地过程中需要回答如下问题:

  • 在需求多的情况下,如何快速的满足这些需求,提升研发效能快速落地?

  • 目前行业中虽有落地案例,但规模相对较小,如何实现从点到面的落地,如何保证宿主机稳定性?

  • 如何统一观测和保障插桩点性能损耗,出现问题如何快速回退、降级、止损? 

平台建设

基于如上考虑我们研发了eBPF 平台,业务可以直接使用平台提供的通用能力,只需要关注自身逻辑实现即可。平台建设过程中重点围绕着提升研发效能,提供业务视角,保障稳定性和保障性能等维度。

  • 提升研发效能

早期用户需要关心如何解析BPF 字节码,如何加载到内核,创建KV Map 以及将特定的Section 代码附着到特定的运行节点。最后用户还需要关注如何从内核获取数据。平台重要的功能是将底层的技术细节屏蔽,类似的上述功能只需要调用bpfload和bpfmap 接口即可。

  • 提供业务视角

业务和平台,业务和业务之间的发布规律不同。最终我们采用BPF Obj字节码的方式将业务的逻辑和平台解耦,业务根据需求调用平台接口即可。同时平台需要考虑标准化,支持其他开源组件定义的SEC,这样就能够兼容已有的BPF字节码,直接在平台运行。

c3582e9342699a18e95381abff47399c.png

  • 保障稳定性

作为新的技术落地,需要重点关注宿主稳定性问题。稳定的保障主要从内核层,框架侧,以及和业务感知的方面建立。

19ee708a7137252eafca90048895d3d5.png

  • 保障性能

所有的BPF 代码都是运行在内核态,因此过多的耗时依然会对系统造成影响。事件驱动,共享内存,ringbuf 生产消费等方式在该平台都有应用。

e3c8fa5fb717859868477fb704938b5f.png

平台组成

  • BPF字节码管理

首先是解析ELF能力,包括SEC、Map、变量、结构体的定义。通过SEC能够清楚BPF Prog 类型以及可以自动加载的Hook 附着点等。通过Map的定义解析出其类型,大小,Key 类型,Value 类型等信息。

  • 高性能数据处理

平台支持业务类型较多,因此需要从各个维度考虑性能保障。首先在内核侧对probe hook点动态评测,提供熔断机制。在平台侧提供高性能数据通信,ringbuf 生产消费方式减低延迟。

  • 稳定性管理

平台设计初衷是解决线上问题保证业务稳定性,因此平台自身实现了事件熔断和自愈功能。当检测到宿主BPF 出现异常,平台会自动unload bpf从而避免当前BPF造成过高的负载。除了实现事件的熔断和自愈,同时限制平台使用的系统资源如cpu、mem。

  • 容器信息管理

实现该功能主要基于如下因素:1. 所有业务运行在容器,参数的传递,业务的识别都需要该信息。2. 内核cgroup信息需要和容器信息进行聚合。

平台使用

平台除了API 接口,还提供了命令行方式,这样非常态运行BPF OBJ或者调试OBJ 都可以在该平台运行。

代码示例如下:

5a0b4f6d28300da60fec00af3b4dd190.png

编译:

clang -O2 -g -target bpf -c $(NAME).bpf.c -o $(NAME).o

运行:平台自动解析BPF 定义的结构体并打印到stdout。

f7f109caa56aeb5b16e877a578ffa507.png

5

滴滴业务落地实践

在滴滴很多业务已经接入HuaTuo eBPF 平台,例如服务测试回归、容器安全、主机安全、服务访问拓扑、网络诊断,内核根因定位等等。下面主要以内核根因定位为例进行讲解。 

内核根因定位背景

现今,降本增效是广大互联网公司的主题,在滴滴容器部署密度,超卖比都较高,共享内核容器技术在这种情景下很难避免由于资源不合理使用影响到其他业务的情况。在发生故障时第一举措是止损,容器漂移,这样问题现场就丢失了,线下复现问题的难度大,人力机器的成本很高。此外,线上偶发的毛刺、耗时和超时等问题没有规律可循,综上原因常态观测是一个非常强的需求。

内核根因定位思路

根据可观测性三大支柱(如下图所示),首先我们建立起内核深度观测指标,这些指标更加细粒度,能够反映出内核各子系统健康状态。建立这些指标时会从不同的角度评测合理性、性能影响,最终实现常态观测。其次,事件驱动实现获取内核异常日志上下文,我们关心内核各子系统在异常路径,慢路径等出错状态收集。异常事件是解决内核问题根因的关键。随着底层基础能力的建立,我们可以将这些信息就行汇总、分析、最终给出分析报告。

cc99a487d0bf575d4c1b05b7a9b8ee23.png

内核根因定位平台

40f5957b6168f708aaf1d6c683b45c43.png

我们将内核根因定位平台分为四部分:

  • 内核数据采集。该部分主要实现内核核心指标采集,以及内核异常上下文的收集。

  • 内核数据聚合。该部分主要实现将内核观测数据和容器/Pod信息进行汇总并上传到存储设备。

  • 数据分析层。该部分主要将收集到的数据进行处理,对上提供分析服务。

  • 数据展示层。主要分析诊断中心、观测中心、日志中心、分析报告、以及报警中心等。

6

未来规划展望

eBPF内核技术在滴滴云原生场景进行了大规模多场景的落地实践,未来HuaTuo eBPF平台会服务更多的业务线。如今,我们正寻求合适的基金会进行项目孵化,一起和行业开发者共建、共享。最近几年,eBPF 技术虽然有比较大的发展,但在某些场景中的功能还不够完善,比如在性能上进行优化、CPU调度等在离线混部场景中深入探索等,期待后续与大家持续交流探讨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/722714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23西安电子科技大学电子工程学院821考研录取情况

01、电子工程学院各个方向 02、23电子工程学院一志愿考研录取情况总览、平均分 PS:电院23年院线相对于22年院线上涨10-15分,个别专业下降5分,这是因为22年西电电院报名人数较少,导致23年增加了一部分人数。 PS:1、电院…

前端 | windows安装nvm管理node.js

文章目录 01 nvm介绍02 安装03 设置镜像04 安装与版本管理05 基础使用 01 nvm介绍 nvm,即node version manager,是一个方便切换和管理node.js版本的工具。 安装nvm前的注意事项: 卸载掉现有的node.js所有安装目录避免出现空格和中文选用管理…

PaoPao泡泡清新文艺的微社区系统源码

泡泡是一个真正意义上高性能的微社区,虽然规模不大却拥有完备的功能。 该系统采用了GoZinc架构,前端使用Vue3进行构建,采用清新简洁的设计风格,布局类似Twitter的三栏设计。 后端服务使用Go编写,仅占用8MB的内存&…

Meta将生成人工智能功能应用于其产品能否提升吸引力?

随着技术的不断进步,人工智能在各个领域发挥着越来越重要的作用。最近,Meta公司宣布将在旗下产品中加入生成人工智能功能,以提升其吸引力。这一举措引起了广泛关注,人们开始思考,Meta将生成人工智能功能应用于其产品是…

可以提升效率的时间管理APP,上班族的好帮手

在时间少,但是待办事项多的快节奏社会中,时间管理成为了很多人都需要面临的重要问题。特别是对于繁忙的上班族来说,高效地利用时间是提升工作效率的关键。有不少上班族都在为如何高效管理时间而烦恼,于是一些时间管理工具应运而生…

【聊聊开发中十分重要的“必抓!”算法】

目录 一:前言 二:常见算法介绍 三: 典型算法详述 1.冒泡排序 2.递归排序 3.哈希算法 四:算法的应用场景 五 总结 一:前言 算法在计算机科学和软件开发中具有重要的地位,它们是解决问题和优化过程的…

0基础学习VR全景平台篇 第57篇:高级功能-多语言

功能位置示意 一、本功能将用在哪里? 多语言功能,可一键设置作品界面语言为中/英文,或跟随系统自动切换中/英文,各位可以用户可以轻松制作英文版VR全景作品,满足国外用户访问的需求。 此外蛙色VR平台,可通…

android车载开发,如何模拟器上实现多屏

三个点,Display-addSecondary display 方案一 通过Presentation来实现,他是一个Dialog(context,display) val displayService getSystemService(DISPLAY_SERVICE) as DisplayManager val displays displayService.…

9、架构:CLI 设计

通常大部分的程序员会更加习惯使用 CLI(Command-Line Interface 命令行界面)来辅助开发业务,包括初始化、更新、构建、发布等功能,可以获得沉浸式一站的开发体验。 在之前有一篇企业级 CLI 开发实战介绍过如何开发一款适用团队的…

了解k8s容器组pods

一:Pods概述 在 部署第一个应用程序 中创建 Deployment 后,k8s创建了一个 Pod(容器组) 来放置应用程序实例(container 容器) Pod 容器组 是一个k8s中一个抽象的概念,用于存放一组 container&a…

yolov5增加AFPN-全新特征融合模块AFPN,效果完胜PAFPN

论文学习:AFPN: Asymptotic Feature Pyramid Network for Object Detection-全新特征融合模块AFPN,完胜PAFPN_athrunsunny的博客-CSDN博客 先上配置文件yolov5s-AFPN.yaml # YOLOv5 🚀 by Ultralytics, AGPL-3.0 license# Parameters nc: 80…

Nginx安装与介绍

Nginx概述 Nginx (“engine x”) 是一个高性能的 HTTP 和反向代理服务器,特点是占有内存少,并发能力强,事实上 Nginx 的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用 Nginx 网站用户有:百度、京东、新浪…

Windows11最新版官网制作系统盘

在百度里搜索"windows11官网下载",然后选择微软官网的链接: 下載 Windows 11https://www.microsoft.com/zh-tw/software-download/windows11 然后就可以制作U盘windows11官网系统的安装U盘了。

进行APP广告变现之前,媒体需要关注哪些APP运营的信息指标

在进行广告变现之前,媒体商务或运营人员首先要知道自家 APP 的一些基本体量信息及基本用户使用情况信息。唯有充分而全面的掌握并罗列出这些基础 APP 运营指标,才能便于媒体通过自家真实流量规模、实力等来预估广告位价值,或更好的像广告需求…

设计模式--------创建型模式

创建型模式 用于描述“怎样创建对象”,它的主要特点是“将对象的创建与使用分离”。GoF(四人组)书中提供了单例、原型、工厂方法、抽象工厂、建造者等 5 种创建型模式。 1.单例设计模式 单例模式(Singleton Pattern&#xff09…

如何截取视频中的一段视频?简单的截取方法分享

如果我们只需要处理视频中的某一部分,就可以将这一部分的内容截取下来,可以省去处理整个视频文件的时间和精力。此外,截取视频也可以让更加方便地分享和保存视频内容。此外,如果我们只需要分享视频中的一部分给他人观看&#xff0…

二、MongoDB 安装集

一、MongoDB—Docker mongoNoSQL Manager for MongoDB: L1、L2 1. 创建容器 docker search mongo docker pull mongodocker run -d --namemongo_1 -p 27017:27017 \-v /root/mongo/configdb:/data/configdb/ \-v /root/mongo/db/:/data/db/ \[镜像ID] --auth2. 登…

【软件测试】盘一盘工作中遇到的 Redis 异常测试

目录 前言: 一、更新 Key 异常 二、Key的删除和丢失 三、KEY 过期策略不当造成内存泄漏 四、查询Redis异常时处理 五、redis 穿透、击穿、雪崩 六、Redis死锁 七、Redis持久化 八、缓存与数据库双写时的数据一致性 前言: 在软件测试过程中&…

第八章、【Linux】文件与文件系统的压缩,打包与备份

8.1 压缩文件的用途与技术 8.2 Linux 系统常见的压缩指令 列几个常见的压缩文件扩展名: 8.2.1 gzip, zcat/zmore/zless/zgrep gzip 可以说是应用度最广的压缩指令了!目前 gzip 可以解开 compress, zip 与 gzip 等软件所压缩的文件。 当你使用 gzip 进…

Error: 系统错误,错误码:80051,source size 2649KB exceed max limit 2MB [202306

小程序主包体积过大,预览到手机失败 把这个勾选一下,上限调整到4MB