01-容器基础:从进程说起

news2025/1/15 6:48:57

本章内容包括:

  • 容器是什么样的一种技术
  • 容器的边界是怎么实现的
  • 容器支持哪些Namespace
  • 容器的本质是什么
  • 虚拟机与容器

在开始本章之前,我希望你能理解这样一个道理:容器本身没有价值,有价值的是"容器编排"

那么容器究竟是怎么一回事呢?

容器其实是一种沙盒技术。 顾名思义,沙盒就是能够像一个集装箱一样,把你的应用"装"起来的技术。这样,应用与应用之间,就因为有了边界而不至于相互干扰;而被装进集装箱的应用,也可以被方便的搬来搬去,这不就是PaaS最理想的状态吗。

不过这两个技术说起来简单,但真要人从技术手段去实现它们,可能很多人就无从下手了。

所以,就先说说这个"边界"的实现手段把。

1 进程

假如,现在你要写一个计算加法的小程序,这个程序需要的输入来自于一个文件,计算完成后的结果则输出到另一个文件中。

由于计算机只认识0和1,所以无论用哪种语言编写这段代码,最后都需要通过某种方式翻译成二进制文件,才能在计算机操作系统中运行起来。

而为了能够让这些代码正常运行,我们往往还要给它提供数据,比如我们这个加法程序所需要的输入文件。这些数据加上代码本身的二进制文件,放在磁盘上,就是我们平常所说的一个"程序",也叫做代码的可执行镜像(executableimage)。

然后,我们就可以在计算机上运行这个程序了。

首先,操作系统从“程序”中发现输入数据保存在一个文件中,所以这些数据就会被加载到内存中待命。同时,操作系统又读取到了计算加法的指令,这时,它就需要指示CPU完成加法操作。而CPU与内存协作进行加法计算,又会使用寄存器存放数值、内存堆栈保存执行的命令和变量。同时,计算机里还有被打开的文件,以及各种各样的I/O设备在不断地调用中修改自己的状态。

就这样,一旦程序被执行起来,它就从磁盘上的二进制文件,变成了计算机内存中的数据、寄存器里的值、堆栈中的指令、被打开的文件,以及各种设备的状态信息的一个集合。像这样一个程序运行起来后的计算机执行环境的总和,就是我们今天的主角:进程。

所以,对于进程来说,它的静态表现就是程序,平常都安安静静的待在磁盘上;而一旦运行起来,它就变成了计算机中的数据和状态的总和,这就是它的动态表现。

容器技术的核心功能,就是通过约束和修改进程的动态表现,从而为其创造出一个"边界"。

对于Docker等大多数Linux容器来说,Cgroups技术是用来制造约束的主要手段,而NameSpace技术则是用来修改进程视图的主要方法。

你可能会觉得Cgroups和Namespace这两个概念很抽象,别担心,接下来我们一起动手实践一下,你就很容易理解这两项技术了。

2 进程隔离

让我们先创建一个容器试试。

$ docker run -it busybox /bin/sh 
/ #

这个命令是Docker项目最重要的一个操作,即大名鼎鼎的docker run。

而-it参数告诉了Docker项目在启动容器后,需要给我们分配一个文本输入/输出环境,也就是TTY,跟容器的标准输入相关联,这样我们就可以和这个Docker容器进行交互了。而/bin/sh就是我们要在Docker容器里运行的程序。

所以,上面这条指令翻译成人类的语言就是:请帮我启动一个容器,在容器里执行/bin/sh,并且给我分配一个命令行终端跟这个容器交互。

这样,我的机器就变成了一个宿主机,而一个运行着/bin/sh的容器,就跑在这个宿主机里面。

接着,我们在容器里面执行一个ps命令。

/ # ps 
PID USER TIME COMMAND 
1 root 0:00 /bin/sh 
10 root 0:00 ps

可以看到,我们在Docker里最开始执行的/bin/sh,就是这个容器内部的第1号进程(PID=1)​,而这个容器里一共只有两个进程在运行。这就意味着,前面执行的/bin/sh,以及我们刚刚执行的ps,已经被Docker隔离在了一个跟宿主机完全不同的世界当中。

这究竟是怎么做到的呢?

本来,每当我们在宿主机上运行了一个/bin/sh程序,操作系统都会给它分配一个进程编号,比如PID=100。这个编号是进程的唯一标识,就像员工的工牌一样。所以PID=100,可以粗略地理解为这个/bin/sh是我们公司里的第100号员工,而第1号员工就自然是比尔 · 盖茨这样统领全局的人物。

而现在,我们要通过Docker把这个/bin/sh程序运行在一个容器当中。这时候,Docker就会在这个第100号员工入职时给他施一个“障眼法”​,让他永远看不到前面的其他99个员工,更看不到比尔 · 盖茨。这样,他就会错误地以为自己就是公司里的第1号员工。

这种机制,其实就是对被隔离应用的进程空间做了手脚,使得这些进程只能看到重新计算过的进程编号,比如PID=1,实际上,它们在宿主机的操作系统里,还是原来的100号进程。

这种技术,就是Linux里面的Namespace机制。而Namespace的使用方式也非常有意思:它其实是Linux创建进程的一个可选参数。 我们知道,在Linux系统中创建进程的系统调用是clone(),比如:

int pid = clone(main_function, stack_size, SIGCHLD, NULL);

这个系统调用就会为我们创建一个新的进程,并且返回它的进程号pid。

而当我们用clone()系统调用创建一个新进程时,就可以在参数中指定CLONE_NEWPID参数,比如:

int pid = clone(main_function, stack_size, CLONE_NEWPID | SIGCHLD, NULL);

这时,新创建的这个进程将会“看到”一个全新的进程空间,在这个进程空间里,它的PID是1。之所以说“看到”​,是因为这只是一个"障眼法",在宿主机真实的进程空间里,这个进程的PID还是真实的数值,比如100。

当然,我们还可以多次执行上面的clone()调用,这样就会创建多个PID Namespace,而每个Namespace里的应用进程,都会认为自己是当前容器里的第1号进程,它们既看不到宿主机里真正的进程空间,也看不到其他PID Namespace里的具体情况。

而除了我们刚刚使用到的PID Namespace,Linux操作系统还支持了Mount,UTS、IPC、Network和User这些Namespace,用来对各种不同的进程上下文进行"障眼法"操作。

  1. Mount Namespace(挂载命名空间)
    • 描述:隔离文件系统的挂载点。每个挂载命名空间都有自己独立的挂载点视图。
    • 用途:允许容器或进程拥有独立的文件系统视图,避免对全局文件系统的影响。
    • 命令unshare -mmount --make-rprivate /
  2. PID Namespace(进程 ID 命名空间)
    • 描述:隔离进程 ID 空间。每个 PID 命名空间都有自己的进程编号。
    • 用途:允许容器或进程拥有独立的进程树,避免进程 ID 冲突和进程管理的干扰。
    • 命令unshare -pclone(CLONE_NEWPID)
  3. Network Namespace(网络命名空间)
    • 描述:隔离网络设备、IP 地址、路由表、防火墙规则等网络资源。
    • 用途:允许容器或进程拥有独立的网络栈,支持虚拟网络和网络隔离。
    • 命令unshare -nip netns add
  4. IPC Namespace(进程间通信命名空间)
    • 描述:隔离 System V IPC(消息队列、信号量和共享内存)和 POSIX 消息队列。
    • 用途:允许容器或进程拥有独立的 IPC 资源,避免不同容器之间的 IPC 资源冲突。
    • 命令unshare -iclone(CLONE_NEWIPC)
  5. UTS Namespace(UNIX 时间共享命名空间)
    • 描述:隔离主机名和域名。
    • 用途:允许容器或进程拥有独立的主机名和域名,支持多租户环境下的主机名隔离。
    • 命令unshare -usethostname
  6. User Namespace(用户命名空间)
    • 描述:隔离用户和组 ID。每个用户命名空间都有自己的用户和组 ID 映射。
    • 用途:允许非特权用户在容器内拥有特权操作,增强安全性。
    • 命令unshare -Uclone(CLONE_NEWUSER)
  7. Cgroup Namespace(控制组命名空间)
    • 描述:隔离控制组(cgroup)视图。每个 cgroup 命名空间都有自己的 cgroup 层次结构。
    • 用途:允许容器或进程拥有独立的 cgroup 视图,支持资源限制和监控的隔离。
    • 命令unshare -Cclone(CLONE_NEWCGROUP)
      甚至在 Linux 内核 5.6 及更高版本中还支持了时间命名空间。

比如,Mount Namespace,用于让被隔离进程只看到当前Namespace里的挂载点信息;Network Namespace,用于让被隔离进程看到当前Namespace里的网络设备和配置。

这就是Linux容器最基本的实现原理了。

所以,Docker容器这个听起来玄而又玄的概念,实际上是在创建容器进程时,指定了这个进程所需要启用的一组Namespace参数。 这样容器就只能看到当前Namespace所限定的资源、文件、设备、状态或者配置。而对于宿主机以及其他不相干的程序,它就完全看不到了。

所以说,容器其实就是一种特殊的进程而已。

3 小结

谈到为“进程划分一个独立空间”的思想,相信你一定会联想到虚拟机。而且,你应该还看过一张虚拟机和容器的对比图。
在这里插入图片描述
这幅图的左边,画出了虚拟机的工作原理。其中,名为Hypervisor的软件是虚拟机最主要的部分。它通过硬件虚拟化功能,模拟出了运行一个操作系统需要的各种硬件,比如CPU、内存、I/O设备等等。然后,它在这些虚拟的硬件上安装了一个新的操作系统,即Guest OS。

这样,用户的应用进程就可以运行在这个虚拟的机器中,它能看到的自然也只有Guest OS的文件和目录,以及这个机器里的虚拟设备。这就是为什么虚拟机也能起到将不同的应用进程相互隔离的作用。

而这幅图的右边,则用一个名为Docker Engine的软件替换了Hypervisor。这也是为什么,很多人会把Docker项目称为“轻量级”虚拟化技术的原因,实际上就是把虚拟机的概念套在了容器上。

可是这样的说法,却并不严谨。

在理解了Namespace的工作方式之后,你就会明白,跟真实存在的虚拟机不同,在使用Docker的时候,并没有一个真正的“Docker容器”运行在宿主机里面。Docker项目帮助用户启动的,还是原来的应用进程,只不过在创建这些进程时,Docker为它们加上了各种各样的Namespace参数。

这时,这些进程就会觉得自己是各自PID Namespace里的第1号进程,只能看到各自Mount Namespace里挂载的目录和文件,只能访问到各自Network Namespace里的网络设备,就仿佛运行在一个个“容器”里面,与世隔绝。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2068198.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SD-WAN降低网络运维难度的关键技术解析

为什么说SD-WAN(软件定义广域网)大大降低了网络运维的复杂性,主要是因为它的智能路径选择、应用识别和链路质量监测这三个核心技术。这几项在SD-WAN中尤为重要的技术,它们共同作用,提升了整体网络性能,为网…

软件测试——自动化测试博客系统

代码gitee仓库地址——SoftwareTest 测试思路 注意用例之间的依赖 通过clear保证输入框内没有信息通过刷新保证输入框内没有信息不要在中间释放driver 登录成功 输入正确的账户密码后会跳转页面,可以检测是否能抓取到跳转页面上的与登录页面不同的某个元素通过…

【MySQL】黑马 MySQL基础 笔记

文章目录 概述数据模型关系型数据库 SQL通用语法分类DDL数据库操作表操作-查询表操作-创建表操作-数据类型表操作-修改 DML添加数据修改数据删除数据 DQL基本查询(SELECT、FROM)条件查询(WHERE)聚合函数(count、max、min、avg、su…

秒懂C++之红黑树

目录 前言 一. 红黑树的概念 二. 红黑树的性质 三. 红黑树的插入 插入代码 四. 红黑树的验证 InOrder IsBalance 五. 全部代码 前言 红黑树中涉及到了AVL树旋转的特点,如果对旋转不太了解可以去这篇文章:秒懂C之AVL树-CSDN博客 一. 红黑树的概…

ZNS SSD是不是持久缓存的理想选择?

随着数据量的增加和技术的进步,对于高效、可靠的存储解决方案的需求日益增长。传统的基于块的SSD虽然具有成本效益和持久性的优点,但在处理写密集型和更新密集型工作负载时存在局限性。 NAND闪存的特点是数据只能按页(例如4KiB)写…

【国赛】【美赛】【五一杯】【电工杯】【华数杯】【亚太杯】······各赛事历年优秀论文+真题分享

今天继续给大家分享十分重磅的资料哦,数学建模各大竞赛的资料汇总,可能很多小伙伴平时进行某个比赛的资料搜索的时候会发现,我们想要的这个比赛的资料有时候非常难搜索到,搜索23年,显示21年的,搜索小美赛&a…

Prometheus 监控指标采集

原文链接:https://www.hezebin.com/article/66b3b1fb4379b36dec11a1a1 前言 在现代分布式系统和云原生环境中,为了确保复杂的分布式系统和服务的高可用性、可靠性和性能,通常采用实时可视化监控和分析,实现故障快速响应、资源优…

单片机驱动彩屏最简方案:单片机_RA8889最小开发板驱动控制TFT彩屏介绍(二)硬件电路设计

本文介绍使用单片机RA8889来驱动和控制彩屏的最小方案。文章从RA8889的架构功能、硬件电路设计及软件设计三个方面来说明。 小编已发布多篇文章介绍了单片机RA8889来驱动控制彩屏,但是仍有不少单片机玩家可能对驱动彩屏还不算熟悉,在此加推一个短篇介绍…

机器学习-随机森林(全网最详解)

文章目录 一、简介1.定义2.基本原理3.优缺点4.应用场景 二、代码运用1.数据预处理2.模型训练3.模型评估4.绘制特征排名 三、总结 一、简介 1.定义 随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇…

公司电脑被监控有什么表现?电脑监控VS员工隐私,员工合理摸鱼需知!职场小贴士为您解答!

公司电脑被监控有什么表现? 数字化办公日益普及,许多企业为了保障信息安全、提升工作效率,会选择在公司电脑上安装监控软件。这一举措在提升企业管理效能的同时,也引发了关于员工隐私与合理工作界限的讨论。本文将为您解析公司电…

k8s教程

1. k8s框架 - kubernetes的架构- Control Plane: 控制K8S集群的组件。- Api Server: 集群的访问入口。- etcd: 存储集群的数据。一般情况下,只有API-SERVER会访问.- Control Manager: 维护集群的状态。- Scheduler: 负责Pod的调度功能。- Wor…

防止拷贝电脑资料?【三种数据拷贝的详细方法分享!】

防止电脑资料被拷贝通常是指采取措施来保护敏感或专有信息不被未经授权的用户复制或传播。 这里我理解您可能想要了解的是如何防止数据被拷贝的方法,而不是进行数据拷贝的方法。 下面是一些常见的防止数据拷贝的策略和技术: 1. 物理安全控制 锁屏或密…

一篇讲完自动化基础-Python【万字详细讲解】

​ ​ 您好,我是程序员小羊! 前言 这篇文章主要学习Python的语法,为后续的自动化打基础 Python requests 接口自动化 Python selenium web 自动化 Python appium移动端自动化(手机 app) 这篇文章分六个阶段百分比进行划分,到时…

Elasticsearch:使用 semantic_text 进行语义搜索

警告:截止 8.15 版本,此功能处于测试阶段,可能会发生变化。设计和代码不如官方 GA 功能成熟,并且按原样提供,不提供任何保证。测试版功能不受官方 GA 功能的支持 SLA 约束。 本教程向你展示如何使用 semantic text 功能…

硬件检测工具箱 | 入梦工具箱 v8.8

入梦工具箱(RM Toolbox)是一款专为硬件检测、评分和测试设计的免费开源软件。它以其小巧的体积和简洁的界面,迅速成为DIY玩家和硬件爱好者的首选工具。 功能特点 集成常用硬件检测工具:包括CPUZ、GPUZ、AIDA64等,全面…

3种将4K视频转换成1080P格式的无损方法

用户总是倾向于将 4k 视频转换为 1080p,以便缩小它们并在兼容设备上观看。这种 4k 到 1080p 的转换被称为降频或降级,因为视频分辨率降低了。如果你想知道如何在不损失质量的情况下将 4k 缩小到 1080p,那么这是你找到答案的正确地方。阅读以下…

在idea中的git选择某一次记录拉出一个新分支

一 创建新分支 1.1 操作步骤 需求:需要在图中标红的历史记录,从此记录拉出一个分支 1.右键【new branch】 2.起一个新的名字: 3.新分支代码

HTTP协议相关知识

1 HTTP协议的解读 1.1 HTTP和HTTPS区别 HTTP协议:超文本传输协议是互联网上应用最为广泛的一种网络协议。所有的HTML文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法 HTTPS协议:HTTP协议的安全版,在HT…

快9月了才开始强化,刷张宇1000还是李林880?

如果你现在才开始强化,并且在张宇1000和李林880中间纠结,可以花5分钟看看这篇文章! 张宇1000题,今年进行了改版,去掉了一些「偏难怪」的题目,这类题目,对于大家的友好度明显上升。但是难度和综合…

springboot admin监控

服务端搭建 maven的依赖&#xff0c;包括服务端和客户端&#xff0c;以及注册到nacos上面 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XML…