前言
从《initrd&init进程》可知,我们通过ssh连接linux服务器,其实主是linux启动一shell进程与我们做交互。而Linux又是多租户的,这使用得用户与用户间产生了,资源的争抢。 如何隔离资源,且让用户都无法察觉?
Linux Namespace 是什么
Namespace 是 Linux 内核中实现的特性,本质上是一种资源隔离方案.
其提供了一种抽象机制,将原本全局共享的资源隔离成不同的集合,集合中的成员独享其原本全局共享的资源。
举个例子:进程 A 和进程 B 分别属于两个不同的 Namespace,那么进程 A 将可以使用 Linux 内核提供的所有 Namespace 资源:如独立的主机名,独立的文件系统,独立的进程编号等等。同样地,进程 B 也可以使用同类资源,但其资源与进程 A 使用的资源相互隔离,彼此无法感知。
从用户的角度来看,每一个命名空间应该像一台单独的 Linux计算机一样,有自己的 init进程 (PID为 I),其他进程的PID依次递增, A和B空间都有PID为l的init进程, 子命名空间的进程映 射到父命名空间的进程上,父命名空间可以知道每一个子命名空间的运行状态,而子命名空间 与子命名空间之间是隔离的
当前 Linux一共实现了 7 种不同类型的 Namespace
User Namespace
User namespace 用于隔离安全相关的资源,包括 user IDs and group IDs(keys和 capabilities)。同样一个用户的 user ID 和 group ID 在不同的 user namespace 中可以不一样权限。换句话说,一个用户可以在一个 user namespace 中是普通用户,但在另一个 user namespace 中是超级用户。
打开两个终端
## 终端1
## 使用unshare命令进行 namespace
unshare --user /bin/bash
## 使用id命令查看
> id
uid=65534(nobody) gid=65534(nogroups) groups=65534(nogroup)
## 在新的 user namespace 中,当前用户变成了 nobody,并且 ID 也变成了 65534。
## 这是因为我们还没有映射父 user namespace 的 user ID 和 group ID 到子 user namespace 中来
## 如果没有映射,当在新的 user namespace 中用 getuid() 和 getgid() 获取 user ID 和 group ID 时,系统将返回文件 /proc/sys/kernel/overflowuid 中定义的 user ID 以及 proc/sys/kernel/overflowgid 中定义的 group ID,它们的默认值都是 65534。也就是说如果没有指定映射关系的话,会默认会把 ID 映射到 65534。
> cat /proc/sys/kernel/overflowuid
65534
> cat /proc/sys/kernel/overflowgid
65534
## 下面我们来完成 nick (外部用户)在新的 user namespace 中的映射。
## 映射ID的方法就是添加映射信息到 /proc/PID/uid_map 和 /proc/PID/gid_map (这里的 PID 是新 user namespace 中的进程 ID,刚开始时这两个文件都是空的)文件中。
## 查询当前namespace进程id
> echo $$
16471
## 终端2
## 使用ll命令查询,uid_map,gid_map文件的归属
> ll /proc/16471/uid_map /proc/16471/gid_map
## 查看容器外用户ID
> id
uid=1000(nick) gid=1000(nick) groups=1000(nick)
## 对 uid_map 和 gid_map 文件的写入操作有着严格的权限控制,简单点说就是:这两个文件的拥有者是创建新的 user namespace 的用户
## 所以和这个用户在一个 user namespace 中的 root 账号可以写;这个用户自己是否有写 map 文件的权限还要看它有没有 CAP_SETUID 和 CAP_SETGID 的 capability(权限)
## 给nick 用户设置权限
> sudo setcap cap_setgid,cap_setuid+ep /bin/bash
> exec bash
## 查询权限
> getcap /bin/bash
/bin/bash = cap_setgid,cap_setuid+ep
## uid_map 和 gid_map 的配置信息的格式如下(每个文件中可以有多条配置信息):
## ID-inside-ns(容器内用户ID) ID-outside-ns(容器外用户ID) length
## 比如 0 1000 500 这条配置就表示父 user namespace 中的 1000~1500 映射到新 user namespace 中的 0~500。、
## 容器内 0 为root 对应容器外 1000 (nike用户)
> echo '0 1000 500' > /proc/16471/uid_map
> echo '0 1000 500' > /proc/16471/gid_map
## 终端1
> exec bash
> id
uid=0(root) gid=0(root) groups=65534(nogroup)
## 查看root目录仍没有权限,比如这里 root 对应父 user namespace 的用户是 nick
> ll / grep root
dxwx---- 4 nobody nogroup 4096 root/
当然也可以使用“-r” 来将当前用户自动映射root
unshare --user -r /bin/bash
命令解释
- $$ :Shell本身的PID(ProcessID),即当前进程的PID。
- setcap 设置进程特权的Linux命令。它允许普通用户运行某些需要特权的服务,而无需以root身份运行整个服务
- uid(用户ID)、gid(初始组ID), groups是用户所在组(这里既可以看到初始组,如果有附加组,则也能看到附加组)
User namespace 与其它 namespace 的关系
. Linux 下的每个 namespace,都有一个 user namespace 与之关联,这个 user namespace 就是创建相应 namespace 时进程所属的 user namespace,相当于每个 namespace 都有一个 owner(user namespace),这样保证对任何 namespace 的操作都受到 user namespace 权限的控制。
NetWork Namespace
Network Namespace 是用来隔离网络设备、 IP地址端口 等网络械的 Namespace。 Network Namespace 可以让每个容器拥有自己独立的(虚拟的)网络设备,而且容器内的应用可以绑定 到自己的端口,每个 Namespace 内的端口都不会互相冲突。在宿主机上搭建网桥后,就能很方 便地实现容器之间的通信,而且不同容器上的应用可以使用相同的端口 。
同样的打开两个终端
## 终端1
## 查看ip
> ifconfig
ens33: 192.168.3.34
lo: 127.0.0.1
## 使用 root映射的身份进入,并net 隔离
> unshare --net --user -r /bin/bash
## 再次查询,发现为空,net 隔离成功
> ifconfig
## 查看进程
> echo $$
16894
## 终端2
## Linux上创建一对veth设备
> sudo ip link add veth0 type veth peer name veth1
> ip a | grep veth
3: veth1@veth0: <BROADCAST,MULTICAST,M-DOWN> mtu 1500 qdisc noop state DOWN group default qlen 1000
4: veth0@veth1: <BROADCAST,MULTICAST,M-DOWN> mtu 1500 qdisc noop state DOWN group default qlen 100
## 为veth0设置IP地址并启动
> sudo ip a add dev veth0 192.168.10.10/24
> sudo ip link set veth0 up
> ifconfig
ens33: 192.168.3.34
lo: 127.0.0.1
veth0: 192.168.10.10
## 将veth1移动到刚才新建的network namespace 中
sudo ip link set veth1 netns 16894
## 终端1
## 在ns1中启动veth1并设置IP地址
> ip link set dev veth1 up
> ip a add dev veth1 192.168.10.20/24
> ifcofing
veth1: 192.168.10.20
## 使用ping测试连通
> ping 192.168.10.10
PING 192.168.10.10 (192.168.10.10) 56(84) bytes of data.
64 bytes from 192.168.10.10: icmp_seq=1 ttl=64 time=0.076 ms
现在ns1还不能和公网通信。解决这个问题也很简单,在root network namespace中开启转发并设置SNAT,在ns1中添加默认路由即可。
- veth是一种Linux内核网络设备,它通常用于在不同的网络命名空间之间创建虚拟网络接口。veth可以分为成对出现的两个设备,一个位于主机上,另一个则与容器相关联。
在容器技术中,veth设备通常用于将主机上的网络连接和容器内部的网络连接隔离开来。- SNAT(Source Network Address Translation)是一种将源IP地址和端口从一个网络地址转换为另一个网络地址的技术
主要参考
《linux unshare 命令,详解Linux Namespace之User》
《Linux namespace之:network namespace》
《自己动手写Docker》