unshare

创建 user namespace

我们可以通过 unshare 命令的 --user 选项来创建新的 user namespace：

$ unshare -user -r /bin/bash

通过 -r 参数，我们把新的 user namespace 中的 root 用户映射到了外面的 nick 用户(接下来会介绍映射相关的概念)。在新的 user namespace 中，root 用户是有权限创建其它的 namespace 的，比如 uts namespace。这是因为当前的 bash 进程拥有全部的 capabilities：

下面我们创建一个新的 uts namespace 试试：

$ unshare --uts /bin/bash

我们看到，新的 uts namespace 被顺利的创建了。这是因为除了 user namespace 外，创建其它类型的 namespace 都需要 CAP_SYS_ADMIN 的 capability。当新的 user namespace 创建并映射好 uid、gid 了之后， 这个 user namespace 的第一个进程将拥有完整的所有 capabilities，意味着它就可以创建新的其它类型 namespace。

其实没有必要把上面的操作(创建两个 namespace)分成两步，我们可以通 unshare 一次创建多个 namespace：

在 unshare 的实现中，其实就是传入了 CLONE_NEWUSER | CLONE_NEWUTS，大致如下：
unshare(CLONE_NEWUSER | CLONE_NEWUTS);
在上面这种情况下，内核会保证 CLONE_NEWUSER 先被执行，然后执行剩下的其他 CLONE_NEW*，这样就使得不用 root 用户而创建新的容器成为可能，这条规则对于clone 函数也同样适用。

root@ubuntu:/home/ubuntu# readlink /proc/self/ns/pid
pid:[4026531836]
root@ubuntu:/home/ubuntu# unshare --uts --pid --mount --fork /bin/bash
root@ubuntu:/home/ubuntu# readlink /proc/self/ns/pid
pid:[4026534173]
root@ubuntu:/home/ubuntu# hostname
ubuntu
root@ubuntu:/home/ubuntu# hostname container0
root@ubuntu:/home/ubuntu# hostname
container0
root@ubuntu:/home/ubuntu# exec bash
root@container0:/home/ubuntu#

理解 UID 和 GID 的映射

在前面的演示中我们提到了用户在 user namespace 之间的映射，下面我们同样通过演示来理解映射是什么。我们先查看下当前用户的 ID 和 user namespace 情况：

然后执行 unshare --user /bin/bash 命令创建一个新的 user namespace，注意这次没 -r 参数：

$ unshare --user /bin/bash

在新的 user namespace 中，当前用户变成了 nobody，并且 ID 也变成了 65534。
这是因为我们还没有映射父 user namespace 的 user ID 和 group ID 到子 user namespace 中来，这一步是必须的，因为这样系统才能控制一个 user namespace 里的用户在其他 user namespace 中的权限(比如给其它 user namespace 中的进程发送信号，或者访问属于其它 user namespace 挂载的文件)。
如果没有映射，当在新的 user namespace 中用 getuid() 和 getgid() 获取 user ID 和 group ID 时，系统将返回文件 /proc/sys/kernel/overflowuid 中定义的 user ID 以及 proc/sys/kernel/overflowgid 中定义的 group ID，它们的默认值都是 65534。也就是说如果没有指定映射关系的话，会默认会把 ID 映射到 65534。

下面我们来完成 nick 用户在新的 user namespace 中的映射。
映射 ID 的方法就是添加映射信息到 /proc/PID/uid_map 和 /proc/PID/gid_map (这里的 PID 是新 user namespace 中的进程 ID，刚开始时这两个文件都是空的)文件中。这两个文件中的配置信息的格式如下(每个文件中可以有多条配置信息)：

ID-inside-ns ID-outside-ns length

比如 0 1000 500 这条配置就表示父 user namespace 中的 1000~1500 映射到新 user namespace 中的 0~500。

对 uid_map 和 gid_map 文件的写入操作有着严格的权限控制，简单点说就是：这两个文件的拥有者是创建新的 user namespace 的用户，所以和这个用户在一个 user namespace 中的 root 账号可以写；这个用户自己是否有写 map 文件的权限还要看它有没有 CAP_SETUID 和 CAP_SETGID 的 capability。注意：只能向 map 文件写一次数据，但可以一次写多条，并且最多只能 5 条。

[root@bogon ~]# id
uid=0(root) gid=0(root) groups=0(root)
[root@bogon ~]# unshare --user /bin/bash
[nfsnobody@bogon ~]$ id
uid=65534(nfsnobody) gid=65534(nfsnobody) groups=65534(nfsnobody)
[nfsnobody@bogon ~]$

[root@bogon ~]# echo $$
18640/proc/18640/gid_map  /proc/18640/uid_map

/:
bin  boot  data  data1  data2  dev  etc  home  lib  lib64  media  mnt  nova.sh  opt  perf.hist.0  perf.hist.1  perf.hist.2  proc  root  run  sbin  srv  sys  tftpboot  tmp  usr  var
[root@bogon ~]#

我们把刚才打开的 shell 窗口称为第一个 shell 窗口开始执行用户的映射操作(把用户 nick 映射为新 user namespace 中的 root)。
第一步，先在第一个 shell 窗口中查看当前进程的 ID：

uid=1000(ubuntu) gid=1000(ubuntu) groups=1000(ubuntu),4(adm),24(cdrom),27(sudo),30(dip),46(plugdev),108(lxd),113(lpadmin),114(sambashare),118(libvirt)
ubuntu@ubuntu:~$ unshare --user /bin/bash
nobody@ubuntu:~$ id
uid=65534(nobody) gid=65534(nogroup) groups=65534(nogroup)
nobody@ubuntu:~$ echo $$
32601
nobody@ubuntu:~$

第二步，新打开一个 shell 窗口，我称之为第二个 shell 窗口。查看进程 3049 的映射文件属性：

用户 nick 是这两个文件的所有者，让我们尝试向这两个文件写入映射信息：

ubuntu@ubuntu:~$ ls -l /proc/32601/uid_map /proc/32601/gid_map
-rw-r--r-- 1 ubuntu ubuntu 0 Nov 18 10:24 /proc/32601/gid_map
-rw-r--r-- 1 ubuntu ubuntu 0 Nov 18 10:24 /proc/32601/uid_map
ubuntu@ubuntu:~$ cat /proc/32601/uid_map
ubuntu@ubuntu:~$ cat /proc/32601/gid_map
ubuntu@ubuntu:~$ echo '0 100 500' >  /proc/32601/gid_map
-bash: echo: write error: Operation not permitted
ubuntu@ubuntu:~$ echo '0 100 500' >  /proc/32601/uid_map 
-bash: echo: write error: Operation not permitted
ubuntu@ubuntu:~$

看上去很奇怪呀，明明是文件的所有者，却没有权限向文件中写入内容！其实根本的原因在于当前的 bash 进程没 CAP_SETUID 和 CAP_SETGID 的权限：

ubuntu@ubuntu:~$ cat /proc/$$/status | egrep 'Cap'
CapInh: 0000000000000000
CapPrm: 0000000000000000
CapEff: 0000000000000000
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
ubuntu@ubuntu:~$

下面我们为 /bin/bash 程序设置相关的 capabilities：

$ sudo setcap cap_setgid,cap_setuid+ep /bin/bash

然后重新加载 bash，就可以看到相应的 capabilities 了：

ubuntu@ubuntu:~$  sudo setcap cap_setgid,cap_setuid+ep /bin/bash
[sudo] password for ubuntu: 

Try: sudo apt install <deb name>

ubuntu@ubuntu:~$ cat /proc/$$/status | egrep 'Cap'
CapInh: 0000000000000000
CapPrm: 0000000000000000
CapEff: 0000000000000000
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
ubuntu@ubuntu:~$ exec bash
ubuntu@ubuntu:~$ cat /proc/$$/status | egrep 'Cap'
CapInh: 0000000000000000
CapPrm: 00000000000000c0
CapEff: 00000000000000c0
CapBnd: 0000003fffffffff
CapAmb: 0000000000000000
ubuntu@ubuntu:~$

现在重新向 map 文件写入映射信息：

$ echo '0 1000 500' > /proc/3049/uid_map
$ echo '0 1000 500' > /proc/3049/gid_map

这次的写入成功了。后面就不需要我们手动写入映射信息了，所以我们通过下面的命令把 /bin/bash 的 capability 恢复为原来的设置：

$ sudo setcap cap_setgid,cap_setuid-ep /bin/bash

ubuntu@ubuntu:~$ echo '0 100 500' > /proc/32601/gid_map
ubuntu@ubuntu:~$ echo '0 100 500' > /proc/32601/uid_map
ubuntu@ubuntu:~$ setcap cap_setgid,cap_setuid-ep /bin/bash
unable to set CAP_SETFCAP effective capability: Operation not permitted
ubuntu@ubuntu:~$ getcap /bin/bash
/bin/bash = cap_setgid,cap_setuid+ep
ubuntu@ubuntu:~$ sudo setcap cap_setgid,cap_setuid-ep /bin/bash
ubuntu@ubuntu:~$ getcap /bin/bash
/bin/bash =
ubuntu@ubuntu:~$ echo '0 100 500' > /proc/32601/gid_map
bash: echo: write error: Operation not permitted
ubuntu@ubuntu:~$

第三步，回到第一个 shell 窗口
重新加载 bash，并执行 id 命令：

当前用户已经变成了 root(新的 user namespace 中的 root 用户)。在看看当前 bash 进程具有的 capability：

0000003fffffffff 表示当前运行的 bash 拥有所有的 capability。

第四步，在第一个 shell 窗口中
查看 /root 目录的访问权限：

没权限啊！尝试修改主机的名称：

依然是没有权限啊！看来这个新 user namespace 中的 root 用户在父 user namespace 里面不好使。这也正是 user namespace 所期望达到的效果，当访问其它 user namespace 里的资源时，是以其它 user namespace 中的相应用户的权限来执行的，比如这里 root 对应父 user namespace 的用户是 nick，所以改不了系统的 hostname。
普通用户 nick 没有修改 hostname 的权限，那把默认的 user namespace 中的 root 用户映射为子 user namespace 中的 root 用户后可以修改 hostname 吗？答案是，不行！那是因为不管怎么映射，当用子 user namespace 的用户访问父 user namespace 的资源的时候，它启动的进程的 capability 都为空，所以这里子 user namespace 的 root 用户在父 user namespace 中就相当于一个普通的用户。

User namespace 与其它 namespace 的关系

Linux 下的每个 namespace，都有一个 user namespace 与之关联，这个 user namespace 就是创建相应 namespace 时进程所属的 user namespace，相当于每个 namespace 都有一个 owner(user namespace)，这样保证对任何 namespace 的操作都受到 user namespace 权限的控制。这也是为什么在子 user namespace 中设置 hostname 失败的原因，因为要修改的 uts namespace 属于的父 user namespace，而新 user namespace 的进程没有老 user namespace 的任何 capabilities。
以 uts namespace 为例，在 uts_namespace 的结构体中有一个指向 user namespace 的指针，指向它所属的 user namespace(笔者查看的 v4.13内核，uts_namespace 结构体的定义在 /include/linux/utsname.h 文件中)：

其它 namespace 的定义也是类似的。

root@pc-01:/home/pc#  unshare --fork --pid --mount-proc bash
root@pc-01:/home/pc# ps -elf
F S UID          PID    PPID  C PRI  NI ADDR SZ WCHAN  STIME TTY          TIME CMD
4 S root           1       0  0  80   0 -  1397 wait   20:17 pts/5    00:00:00 bash
0 R root          11       1  0  80   0 -  1740 -      20:17 pts/5    00:00:00 ps -elf
root@pc-01:/home/pc# ps -ef|grep unshare
root          13       1  0 20:18 pts/5    00:00:00 grep --color=auto unshare
root@pc-01:/home/pc# exit
exit
root@pc-01:/home/pc# ps -elf  | more
F S UID          PID    PPID  C PRI  NI ADDR SZ WCHAN  STIME TTY          TIME CMD
4 S root           1       0  1  80   0 - 40467 ep_pol Oct30 ?        04:38:16 /lib/systemd/systemd --system --deserialize 34
1 S root           2       0  0  80   0 -     0 kthrea Oct30 ?        00:00:19 [kthreadd]
1 I root           3       2  0  60 -20 -     0 rescue Oct30 ?        00:00:00 [rcu_gp]
1 I root           4       2  0  60 -20 -     0 rescue Oct30 ?        00:00:00 [rcu_par_gp]
1 I root           6       2  0  60 -20 -     0 worker Oct30 ?        00:00:00 [kworker/0:0H-kb]
1 I root           7       2  0  80   0 -     0 worker Oct30 ?        00:01:28 [kworker/u128:0-]
1 I root           9       2  0  60 -20 -     0 rescue Oct30 ?        00:00:00 [mm_percpu_wq]
1 S root          10       2  0  80   0 -     0 smpboo Oct30 ?        00:01:16 [ksoftirqd/0]
1 I root          11       2  0  80   0 -     0 rcu_gp Oct30 ?        00:27:31 [rcu_sched]
1 S root          12       2  0 -40   - -     0 smpboo Oct30 ?        00:00:04 [migration/0]
5 S root          13       2  0   9   - -     0 smpboo Oct30 ?        00:00:00 [idle_inject/0]

注意上面输出的进程关系，和之前创建普通的namespace的进程关系不同，创建PID namespace时，sudo的子进程unshare进程保留了，这就是命令行中使用--fork的效果：在unshare中创建出pid namespace后，它将fork出它的子进程加入到新的pid namespace中，并在该子进程中exec加载指定的/bin/bash进程作为该pid namespace中的第一个进程。

所以使用--fork后导致的结果是：unshare进程被保留，且保留在原来的pid namespace中，而不是加入新的pid namespace中,开另外一个终端可以看到(在man pid_namespaces中明确指出了创建pid namespace的unshare或setns进程不会也不能进入新的pid namespace)。

最后来看–mount-proc:

这个选项能确保创建了 PID 和 Mount namespace 后，自动挂载 /proc 文件系统，无需我们手动执行 mount -t proc proc /proc 命令