【APUE】Chapter13 Daemon Processes

这章节内容比较紧凑,主要有5部分:

1. 守护进程的特点

2. 守护进程的构造步骤及原理。

3. 守护进程示例:系统日志守护进程服务syslogd的相关函数。

4. Singe-Instance 守护进程。

5. 其他相关内容

1. 守护进程的特点

  守护进程也是unix系统中的一种进程。有大量的系统守护进程,其最主要的特点有两个:

  (1)系统启动的时候守护进程就跟着起来;只有当系统关闭的时候守护进程才跟着关闭

  (2)没有controlling terminal,运行在background

  直观上,可以用ps(1)命令先去查看各种进程,执行ps -efj > o (结果重定向到文件里方便处理

  e(every)代表所有进程;f(full)代表现实全部信息;j(job)job模式,结果如下图:

  

  (1)/sbin/init是一个user-level的守护进程,系统启动的时候kernel让它跟着起来

  (2)带中括号的进程都是kernel级别的进程,kernel process跟着系统一起起来执行周期是entire lifetime;而且这些进程没有controlling terminal & command line,正经的Daemon Processes

  (3)其中[kthread]是'kernel的kernel',其他的kernel来产生其他的kernel进程,这一点从其他kernel进程的PPID就能够看出来(kthread的PID是2,其余的kernal processes的PPID都是2

  除了kernel process还有一些常见的非kernel的daemons processes,比如xinted(监听网络服务),crond(定时任务),sshd(远程链接),rsyslogd(系统日志服务)等

  

  

    

  

  (1)注意到这些守护进程,大都是有root权限的;而且TTY的选项都是'?' (即没有controlling terminal)。

  (2)这些非kernel的daemon processes的parent process都是init进程

  (3)除了rsyslogd之外,一般的daemon processes都是独占session和process group,并且都是leader。在这个方面rsyslogd算是一个特例,后面单独拎出来讲rsyslogd。

      

  

2. 守护进程的构造步骤及原理

  系统自带了大量的守护进程,如果我们要自己构建一个守护进程,需要按照特定的方式一步步来完成。

  先上一个代码(并非书上的例子,而是stackoverflow找的http://stackoverflow.com/questions/17954432/creating-a-daemon-in-linux

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <signal.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <syslog.h>

static void skeleton_daemon()
{
    pid_t pid;
    
    pid = fork(); // 1. fork off the parent process
    if (pid < 0) { 
        exit(EXIT_FAILURE); 
    } 
    if (pid > 0) { // 1. terminates the parent process
        exit(EXIT_SUCCESS); 
    } 
    if (setsid()<0) { // 2. child process becomes session leader
        exit(EXIT_FAILURE); 
    } 
    signal(SIGCHLD, SIG_IGN);
    signal(SIGHUP,SIG_IGN);

    pid = fork(); // 3. fork off the second time
    if (pid<0) { 
        exit(EXIT_FAILURE); 
    }
    if (pid>0) { // terminates the parents
        exit(EXIT_SUCCESS); 
    }

    umask(0); // 4. set new file permissions

    chdir("/"); // 5. change the working directory

    int x; // 6. close all open file descriptors
    for (x=sysconf(_SC_OPEN_MAX); x>0; x--)
    {
        close(x);
    }

    openlog("firstdaemon", LOG_PID, LOG_DAEMON);
}

int main()
{
    skeleton_daemon();
    while (1)
    {
        syslog(LOG_NOTICE, "First daemon started.");
        sleep(20);
        break;
    }

    syslog(LOG_NOTICE, "First daemon terminated.");
    closelog();

    return EXIT_SUCCESS;
}

   按照上述代码的注释中的标号 (代码注释中的标号对应着下面分析的标号)& APUE Chapter 13.3的内容,分析如下(要想看懂上面的代码,必须有APUE前面章节关于fork和进程的知识):

  (1)构造孤儿进程

      做第一次fork,结束parent process,留下child process;这样留下的child process就成了孤儿进程。

      为什么要做这一步呢?

      构造孤儿进程的目的:后续构建步骤要调用setsid(),而调用setsid()的进程要求必须不是process group leader,孤儿进程肯定不是group leader

  (2)脱离原来的session

      就是一句调用setsid()就可以了,产生 了一个新的session。

      为什么要做这一步呢?

      回顾APUE(英文原版)P295上的内容,当非process group leader调用setsid()的时候会产生如下的作用:

      a. 这个孤儿进程成为了新的session的唯一进程,并且也是session leader

      b. 这个孤儿进程成为了所在process group的leader

      c. 这个孤儿进程没有相对应的controlling terminal

      这一步的原因就是,新产生的session是没有controlling terminal的,这个是daemons process要求的

  (3)* 再次构造孤儿进程

      做第二次fork,结束parent process,留下child process;这样上次刚刚调用setsid()函数的进程,由产下第二个孤儿进程。

      为什么要做这一块呢?

      在(2)中,通过setsid()已经让进程所在的session没有了controlling terminal,按理说是是符合daemon的要求了;但是某些条件下,系统会给这些没有controlling terminal的进程 “allocating the controlling terminal for a session”。

      回顾APUE书上P297中Controlling Terminal的部分,上面说的“某些条件下”包括:

      a. 首先这个process是session leader

      b. "这个process调用了open,并且没有设定O_NOCTTY flag"或"调用了ioctl函数"

      简单来说,只要一个process虽然所在的session是没有controlling terminal的;但是只要这个process是session leader,那么还是有可能在某种情况下被触发,让系统给其分配controlling terminal,打破了daemon process的禁区。

      这一步骤,在APUE书上并不是必须的,但是既然说的有道理,就应该当成是一个必须的步骤。

  (4)设置文件权限

      unmask(0),这个不太明白,先记个“权限”

  (5)修改进程工作的目录

      由于child process的工作目录是从parent process中继承获得的,修改工作目录,给process增加“权限”

  (6)关闭所有的file descriptors

      这个也是从parent process继承过来的,但是daemon process并不需要。

      daemon process不能与stdout stderr stdin发生交互;所以如果之前有打开的,就必须给关上才行。

  代码编译运行后,在终端并没有什么输出。

  执行ps xj,结果如下:

  

  可以看到a.out的PPID是1(归init管了);TTY是‘?’(没有controlling terminal了);SID PGID都是一样的;但是PID与PGID不一样(这就是第二次fork的作用,不是session leaders了,不会触发某些条件使得所在session被allocating controlling terminal了)。

  一个daemon process的例子就完成了。

3. 系统日志守护进程服务:syslogd及其相关函数

  我们检查一下/var/log/messages文件(需要root权限),发现多了如下的两行:

  

  我们关注2中main函数中的代码:

int main()
{
    skeleton_daemon();
    while (1)
    {
        syslog(LOG_NOTICE, "First daemon started.");
        sleep(20);
        break;
    }

    syslog(LOG_NOTICE, "First daemon terminated.");
    closelog();

    return EXIT_SUCCESS;
}

  main的开始先调用skeleton_daemon()构建了一个daemon process;后面syslog函数中包含输出结果中的文本;这个过程中发生了什么?

  (1)首先说一下motivation。回顾1中提到的daemon process的特点:没有controlling terminal,不能写到标准输入输出中。那么如果daemon process出了问题,或者想输出一些log信息便于调试该怎么办?那么多的daemon process存在,总不能来一个daemon process就制定一个separate file作为输出的容器吧。更好的做法是把daemon process统一管理起来,于是就产生了上面提到的一种专门负责日志输出的daemon process,就是rsyslogd

  (2)系统已经提供了rsyslogd服务来处理日志,那么我们只需要学会调用就可以了。具体的流程图如下(P469)

    

  通过上面的流程图,我们对发生了什么可以了解个大概:

    a. 在main中调用syslog函数 

    b. 调用kernel中的unix domain datagrom socket相关的内容 

    c. 再调用rsyslogd服务,完成了日志内容的输出

  再由上图的内容,扩展一下unix系统处理日志输出的kernel框架:

    a. 有一个分支专门管kernal routines的输出的

    b. 有一个分支专门管TCP/IP network来的

    c. 处理user process中各种log需求的(最左边的)

  (3)了解了大致流程后,我们看openlog和syslog函数的具体参数

    openlog(const char *ident, int option, int facility)

    ident : 用于标示是哪个程序产生的,一般都用程序的名;在上面的例子中就是"firstdaemon"

    option : 书上写的也比较模糊,直接man openlog查看,如下:

      

      大概也看懂了,就是可以用or的运算逻辑把这些选项添加到option中

      我们改变一下原来的代码,把option中的LOG_PID换成LOG_CONS,运行结果如下:

      

      可以看到PID的信息就没有打入log中。

    facility:还是man openlog

      

      大概意思就是说,标示什么类型的程序要logging message;显然在这个背景下,是应用的LOG_DAEMON

    syslog(int priority, const char *format, ...)

    priority:限定log message重要级别的

      

      自上而下,级别逐渐降低,例子中用的是NOTICE级别的日志(回想实习中用到的也是NOTICE级别的日志

    format:这个从例子中可以看到了,就是输出什么格式的信息,跟printf的那种差不多。

   (4)还剩一个问题没有解决,为什么例子中的日志就打入了/var/log/message中呢

      回顾一下(2)中的流程图,user process调用syslog后,最终还是交给rsyslogd守护进程去具体操作了。因此,答案就在rsyslogd怎么去判断往哪个文件写上了。那么可以猜测,rsyslogd会读取一个配置文件,判断log要往哪里写。

      我用的系统中,这个配置文件是/etc/rsyslog.conf。查看一下:

      

      原来,上面提到的syslog函数中的priority确定了日志的importance level之后,rsyslogd会从conf文件中读取配置,哪个level的log信息该写到哪里。这个文件一般不能被修改,影响的面非常广,就不做破坏性试验了。但是还可以通过一个小栗子感受一下:

    栗子代码如下:

#include <syslog.h>

int main(int argc, char **argv)
{
    openlog("test error", LOG_CONS | LOG_PID, 0);
    syslog(LOG_INFO, "This is a syslog test message generated by program '%s'
", argv[0]);
    closelog();
    return 0;
}

    编译运行,在/var/log/messages中多了如下的信息:

    

    如果把上述代码中的LOG_INFO改成LOG_DEBUG,则/var/log/messages中则不会有新的内容。至于这个输出到哪里去了,我还没弄明白。

  

 4. Singe-Instance 守护进程

   书上首先给出了这部分内容的一些概述:

  (1)某些daemons可能有多个copy,但是某些时候必须保证只有一个copy在运行。

  (2)比如,cron这个定时任务调度daemon,如果多个cron都在running,那么调度任务肯定要乱套的;再比如多个daemons操作一个文件,如果有写操作,也是需要类似同步的机制来保护的。

  (3)有些情况下,有机制可以保证daemon只能有一个copy instance在执行(比如访问某些device,这时候device driver就会保证同一时间,只有一个daemon能操作device);但是如果没有现成的保护机制,那么就得靠程序员自己实现

  想想threads那一章已经提到了mutex,condition variable等互斥锁机制来保持同步,为什么这个地方还要单独拎出来呢?之前提到的多线程同步毕竟都是在同一个进程中的(寻址空间、多个线程之间可以共享全局互斥变量);而daemons别说同一个process了,即使是同一个daemon的不同copies,都在不同的session中,按照我个人的理解,用之前全局互斥锁的方法是行不通的(毕竟不同进程的寻址空间不一样),所以这个单独拎出来了

  上面(3)中提到的例子中,file- & record-locking(具体实现在14.3节,先不去纠结具体实现,当成是现成的了)就是非常典型的一个。

  file-locking & record-locking大概要实现的就是:如果daemon的多个copies向同一个资源进行写操作,并且都会请求一个write lock,那么只能有一个wirte lock满足请求,其余再有请求这个write lock的,都让他们知难而退了

  本质上,file-locking & record-locking就是一种便捷的文件锁:daemon先请求加锁,daemon退出的时候锁自动解开。

  为什么要搞这种文件锁?书上说的是“This simplifies recovery, eliminating the need for us to clean up from the previous instance of the daemon”。我并没有太理解,只能简单猜测,处理锁是容易的而处理daemon是困难的,所以宁愿去玩儿锁而不去搞daemon。

  书上给了一个already_running函数的实现如下:

#include <unistd.h>
#include <stdlib.h>
#include <fcntl.h>
#include <syslog.h>
#include <string.h>
#include <errno.h>
#include <stdio.h>
#include <sys/stat.h>

#define LOCKFILE "/var/run/daemon.pid"
#define LOCKMODE (S_IRUSR|S_IWUSR|S_IRGRP|S_IROTH)

extern int lockfile(int);

int
already_running(void)
{
    int        fd;
    char    buf[16];

    fd = open(LOCKFILE, O_RDWR|O_CREAT, LOCKMODE);
    if (fd < 0) {
        syslog(LOG_ERR, "can't open %s: %s", LOCKFILE, strerror(errno));
        exit(1);
    }
    if (lockfile(fd) < 0) {
        if (errno == EACCES || errno == EAGAIN) {
            close(fd);
            return(1);
        }
        syslog(LOG_ERR, "can't lock %s: %s", LOCKFILE, strerror(errno));
        exit(1);
    }
    ftruncate(fd, 0);
    sprintf(buf, "%ld", (long)getpid());
    write(fd, buf, strlen(buf)+1);
    return(0);
}

  由于这段代码依赖lockfile的实现(14.3节),所以先不去编译运行,只是分析实现思路。

  为了达到single-instance daemon的效果:

  (1)如果file已经被lock,那么请求write lock的daemon就会fail,并且errno为EACCES(Premission Denied)或EAGAIN(Resource temporarily unavaliable

  (2)如果获得了lock,则先ftruncate file(这里相当于清空file,防止上次写入文件的内容还留着),执行写操作。

5. 其他相关内容

  (1)lockfile一般放在/var/run/xxx.pid

  (2)如果daemon支持configuration,则配置文件一般放在/etc/XXX.conf

  (3)daemon可以从命令行启动,但系统daemon一般从系统脚本启动

  (4)daemon如果有配置文件,则只在daemon启动时读一次,如果中间修改了配置则需要重读才行;一种做法就是让daemon接收SIGHUP信号,以此作为一个标志来重读配置文件

   贴一个书上的综合例子:

#include "apue.h"
#include <pthread.h>
#include <syslog.h>

sigset_t    mask;

extern int already_running(void);

void
reread(void)
{
    /* ... */
}

void *
thr_fn(void *arg)
{
    int err, signo;

    for (;;) {
        err = sigwait(&mask, &signo);
        if (err != 0) {
            syslog(LOG_ERR, "sigwait failed");
            exit(1);
        }

        switch (signo) {
        case SIGHUP:
            syslog(LOG_INFO, "Re-reading configuration file");
            reread();
            break;

        case SIGTERM:
            syslog(LOG_INFO, "got SIGTERM; exiting");
            exit(0);

        default:
            syslog(LOG_INFO, "unexpected signal %d
", signo);
        }
    }
    return(0);
}

int
main(int argc, char *argv[])
{
    int                    err;
    pthread_t            tid;
    char                *cmd;
    struct sigaction    sa;

    if ((cmd = strrchr(argv[0], '/')) == NULL)
        cmd = argv[0];
    else
        cmd++;

    /*
     * Become a daemon.
     */
    daemonize(cmd);

    /*
     * Make sure only one copy of the daemon is running.
     */
    if (already_running()) {
        syslog(LOG_ERR, "daemon already running");
        exit(1);
    }

    /*
     * Restore SIGHUP default and block all signals.
     */
    sa.sa_handler = SIG_DFL;
    sigemptyset(&sa.sa_mask);
    sa.sa_flags = 0;
    if (sigaction(SIGHUP, &sa, NULL) < 0)
        err_quit("%s: can't restore SIGHUP default");
    sigfillset(&mask);
    if ((err = pthread_sigmask(SIG_BLOCK, &mask, NULL)) != 0)
        err_exit(err, "SIG_BLOCK error");

    /*
     * Create a thread to handle SIGHUP and SIGTERM.
     */
    err = pthread_create(&tid, NULL, thr_fn, 0);
    if (err != 0)
        err_exit(err, "can't create thread");

    /*
     * Proceed with the rest of the daemon.
     */
    /* ... */
    exit(0);
}

  这是个代码框架,按顺序分析main中的代码内容:

  (1)处理cmd命令

  (2)让进程变成daemon

  (3)保证single-instance daemon

  (4)恢复SIGHUP的信号处理方式,并在main线程中屏蔽所有信号(这一步需要回顾之前daemonize的实现,中间有一步骤是屏蔽SIGHUP信号,所以在这里要恢复对SIGHUP的处理方式

  (5)开一个新线程,在新线程中专门开一个sigwait来处理SIGHUP和SIGTERM信号(这里需要用到12.8中sigwait的知识):如果是SIGHUP信号,则reread()配置文件;如果是SIGTERM信号,则直接退出

  书上还提到了,并不是所有的daemons都是支持多线程的。对于这样的daemon则就用传统单线程方式,注册signal handler然后再处理。

以上。

  

原文地址:https://www.cnblogs.com/xbf9xbf/p/4923491.html