Linux-等待子进程

参考资料：《Linux环境编程：从应用到内核》

僵尸进程

进程退出时会进行内核清理，基本就是释放进程所有的资源，这些资源包括内存资源、文件资源、信号量资源、共享内存资源，或者引用计数减一，或者彻底释放。不过，进程的退出其实并没有将所有的资源完全释放，仍保留了少量的资源，比如进程的PID依然被占用着，不可被系统分配。此时的进程不可运行，事实上也没有地址空间让其运行，进程进入僵尸状态。

僵尸进程依然保留的资源有进程控制块task_struct、内核栈等。这些资源不释放是为了提供一些重要的信息，比如进程为何退出，是收到信号退出还是正常退出，进程退出码是多少，进程一共消耗了多少系统CPU时间，多少用户CPU时间，收到了多少信号，发生了多少次上下文切换，最大内存驻留集是多少，产生多少缺页中断？等等。

父进程通过fork()函数创建子进程后，子进程退出，但父进程没有调用wait()或waitpid()回收子进程的资源的话，这个时候子进程变成僵尸进程。

清除僵尸进程有以下两种方法：

父进程调用wait函数或waitpid函数，为子进程“收尸”。
父进程退出，init进程会为子进程“收尸”。

一般而言，系统不希望大量进程长期处于僵尸状态，因为会浪费系统资源。除了少量的内存资源外，比较重要的是进程ID。僵尸进程并没有将自己的进程ID归还给系统，而是依然占有这个进程ID，因此系统不能将该ID分配给其他进程。

如果我们不关心子进程的退出状态，就应该将父进程对SIGCHLD的处理函数设置为SIG_IGN，或者在调用sigaction函数时设置SA_NOCLDWAIT标志位。这两者都会明确告诉子进程，父进程很“绝情”，不会为子进程“收尸”。子进程退出的时候，内核会检查父进程的SIGCHLD信号处理结构体是否设置了SA_NOCLDWAIT标志位，或者是否将信号处理函数显式地设为SIG_IGN。如果是，则autoreap为true，子进程发现autoreap为true也就“死心”了，不会进入僵尸状态，而是调用release_task函数“自行了断”了。

等待子进程之wait()

Linux提供了wait()函数来获取子进程的退出状态：

#include <sys/wait.h>

pid_t wait(int* status);

成功时，返回已退出子进程的进程ID；失败时，则返回-1并设置errno，常见的errno。

在这里插入图片描述

注意父子进程是两个进程，子进程退出和父进程调用wait()函数获取子进程状态在时间上是独立的，所以会出现以下两种情况：

子进程先退出，父进程后调用wait()函数
父进程先调用wait()函数，子进程后退出

对于第一种情况，子进程执行完毕已经退出，只留下了少量的信息等待父进程回收。当父进程调用wait()函数时候，父进程获取到子进程的状态信息，wait函数立刻返回。

对于第二种情况，如果父进程先调用wait()函数，此时子进程还没退出，wait()函数就会阻塞在这里，直到某个子进程退出。

// 示例

#include <iostream>
#include <sys/wait.h>
#include <sys/types.h>
#include <fcntl.h>
#include <unistd.h>

int main()
{
    pid_t pid = fork();

    if (pid < 0)
    {
        std::cout << "子进程创建失败" << std::endl;

        return -1;
    }
    else if (pid == 0)
    {
        // 这是子进程
        std::cout << "打印子进程的进程ID: " << getpid() << std::endl;

        sleep(10);
    }
    else
    {
        // 子进程还没退出，会阻塞在wait函数这里
        std::cout << "子进程还没退出" << std::endl;

        // 这是父进程
        pid_t pc = wait(nullptr);

        std::cout << "子进程退出, 进程ID: " << pc << std::endl;
    }

    return 0;
}

[root@Zhn test4]# g++ test1.cpp -o test1
[root@Zhn test4]# ./test1
子进程还没退出
打印子进程的进程ID: 3400
子进程退出, 进程ID: 3400
[root@Zhn test4]#

可以看到，父进程阻塞在wait()函数，等待子进程退出后执行。

wait()函数等待的是任意一个子进程，任何一个子进程退出都会让其立刻返回。当多个子进程都处于僵尸状态时，wait()函数获取到其中一个子进程的信息后立刻返回。由于wait()函数不会接收pid_t类型的参数，所以也不能明确等待某一个子进程的退出。

那么一个进程如何等待所有子进程都返回呢？

wait()函数返回有三种可能性：

等到了子进程退出，获取其退出信息，返回值是该子进程的进程ID；
等待过程中，收到了信号，信号打断了系统调用，并且注册信号处理函数时并没有设置SA_RESTART标志位，这样的话系统调用就不会重启wait()函数，wait()函数会返回-1，并且errno设置为EINTR；
已经成功等待了所有子进程退出，没有子进程的退出信息需要接收，这种情况下，wait()函数返回-1并且errno设置为ECHILD。

《Linux/Unix系统编程手册》给出下面的代码来等待所有子进程的退出：

while((childPid = wait(NULL)) != -1)
    continue;
    
if(errno !=ECHILD)
    errExit("wait");

但是这种方法忽略了wait()函数被信号中断这种情况，如果wait()函数被信号中断，上述代码就不能成功等待所有子进程退出。

所以我们需要把上面代码封装以下：

pid_t r_wait(int *stat_loc)
{
    int retval;
    
    // 如果被信号中断，表达式为真，重启wait()函数
    while(((retval = wait(stat_loc)) == -1 && (errno == EINTR));
    
    return retval;
}

while((childPid = r_wait(NULL)) != -1)
    continue;
    
If(errno != ECHILD)
{
    /*some error happened*/
}

由上面可以看出wait()函数具有一些局限性：

不能等待特定的子进程：如果进程存在多个子进程，而它只想获取某一个子进程的退出状态，就需要一一等待，通过返回的进程ID判断是不是自己关心的子进程；
如果不存在子进程退出，wait函数就会阻塞：有时候，只是想尝试获取子进程退出的状态，如果没有子进程退出就立刻返回，不需要阻塞等待；
wait()函数只能发现子进程的终止事件：如果某些子进程因某信号而停止，或者停止的子进程收到SIGCONT信号又恢复执行，这些事wait函数无法获知。

为了解决这三个缺点，引入了waitpid()函数。

等待子进程之waitpid()

waitpid()函数接口如下：

 #include <sys/wait.h>
 
 pid_t waitpid(pid_t pid, int *status, int options);

waitpid()与wait()相同的地方：

返回值的含义相同，都是终止子进程或因信号停止或因信号恢复而执行的子进程的进程ID。
status的含义相同，都是用来记录子进程的相关事件，后面将会详细介绍。

接下来介绍waitpid（）函数特有的功能：

第一个参数是pid_t类型，所以waitpid()可以明确指定要等待哪一个子进程的退出：

pid > 0：表示等待进程ID为pid的子进程；
pid = 0：表示等待与调用进程同一个进程组的任意子进程，因为子进程可以设置进程组，那么如果某些子进程和父进程不在同一个进程组，这样的进程就不关心它的退出状态；
pid = -1：表示等待任意子进程，同wait类似，waitpid(-1, &status, 0)与wait(&status)完全等价；
pid < -1：等待所有子进程中，进程组ID与pid绝对值相等的子进程。

第二个参数是int*类型：

无论是wait()还是waitpid()，都有一个status变量，这个变量是一个int类型指针。可以传递mullptr，表示不关心子进程退出状态，不为空就可以获得更多子进程的状态。

子进程是正常退出的：
进程收到信号，导致退出：
进程收到信号，被停止：
子进程恢复执行

第三个参数options是一个位掩码，可以同时存在多个标志位。如果options没有设置任何标志位，其行为与wait类似，即阻塞等待与pid匹配的进程退出。

options的标志位可以是如下标志位的组合：

WUNTRACED：除了关心终止子进程的信息，也关心那些因信号而停止的子进程信息。
WCONTINUED：除了关心终止子进程的信息，也关心那些因收到信号而恢复执行的子进程的状态信息。
WNOHANG：指定的子进程并未发生状态变化，立刻返回，不会阻塞。这种情况下返回值是0。如果调用进程并没有与pid匹配的子进程，则返回-1，并设置errno为ECHILD，根据返回值和errno可以区分这两种情况。

Linux提供了SIGSTOP（信号值19）和SIGCONT（信号值18）两个信号，来完成暂停和恢复的动作，可以通过执行kill-SIGSTOP或kill-19来暂停一个进程的执行，通过执行kill-SIGCONT或kill-18来让一个暂停的进程恢复执行。

// 示例

// 等待子进程之waitpid

#include <iostream>
#include <unistd.h>
#include <sys/wait.h>
#include <sys/types.h>

int main()
{
    int status;

    pid_t pid = fork();

    if (pid < 0)
    {
        std::cout << "子进程创建失败" << std::endl;

        return -1;
    }
    else if (pid == 0)
    {
        std::cout << "这是子进程: " << getpid() << std::endl;

        sleep(3);

        exit(3);
    }
    else
    {
        std::cout << "这是父进程: " << getpid() << std::endl;

        pid_t pc = waitpid(0, &status, WNOHANG);

        if (pc == 0)
            std::cout << "此时没有子进程退出" << std::endl;
        else if (WIFEXITED(status))
            std::cout << "子进程: " << pc << "正常退出, 退出状态为" << WEXITSTATUS(status) << std::endl;
        else
            std::cout << "子进程: " << pc << "非正常退出" << std::endl;
    }

    return 0;
}

[root@Zhn test4]# g++ test2.cpp -o test2
[root@Zhn test4]# ./test2
这是父进程: 4551
此时没有子进程退出
这是子进程: 4552
[root@Zhn test4]#