【Linux】进程的结构,创建,结束,以及程序转化为的进程的过程

本文内容:

1.进程的结构

2.程序转化为进程的过程

3.进程的创建

4.进程的结束


背景知识:

1.进程是计算机中处于运行的程序的实体

2.进程是线程的容器

3.程序本身只是指令,数据以及组织形式的描述,进程才是程序真正的运行实例

4.多个进程可以与同一个程序关联,而每个进程则是以同步或者异步的方式独立运行


一.Linux的进程结构

Linux进程结构由三部分组成:代码段,数据段,堆栈段

代码段:存放程序代码,如果多个进程运行同一个程序则他们使用同一个代码段

数据段:存放程序的全局变量,常量,静态变量

堆栈段:函数的参数,函数内部定义的局部变量,进程控制块PCB(处于进程核心堆栈的底部)

ps:

1.PCB是进程存在的唯一标识,系统通过PCB的存在而感知进程的存在

2.系统通过PCB对进程进行调度和管理,PCB包括创建进程,执行程序,退出进程以及改变进程优先级等

3.进程与PID进程标识符是一对一关系,而与程序文件之间是多对一关系!


二.程序转化为进程过程

Linux程序的生成分为四个阶段:预编译,编译,汇编,链接

ps:编译器G++经过预编译,编译,汇编三个步骤将源程序文件转化为目标文件,如果程序有多个目标文件或者程序使用了库函数,则编译器还需要将所有的目标wen就链接起来,最后形成可执行程序


程序转换为进程的步骤:

1)内核将程序代码和数据读入内存,为程序分配内存空间

2)内核为进程分配进程标识符PID和其他资源

3)内核为进程保存PID以及相应的状态信息,把进程放到运行队列中等待执行,程序转化为进程后就可以被操作系统的调度程序调度执行了


三.进程的创建

背景知识:

1.进程创建有两种方式:由操作系统创建,由父进程创建

2.系统启动时,操作系统会创建一些进程,他们承担着管理和分配系统资源的任务,这些进程通常被叫做系统进程

3.系统允许一个进程创建子进程,从而形成进程树结构

4.整个Linux系统的所有进程也是一个树形结构、

5.除了0号进程是由系统创建的,其他进程都是由他们的父进程创建的


关于进程的创建函数fork:

pid_t fork(void)

1.对于父进程,fork函数返回子进程的PID

2.对于子进程,fork函数返回0

3.如果创建出错,则fork函数返回-1

函数分析:fork函数创建一个新进程,并从内核中为进程分配一个新的可用的进程标识符PID,然后将父进程空间中的内核复制到子进程,包括父进程的数据段和堆栈段,和父进程共享代码段,这个时候子进程和父进程一模一样!

问题:为什么对于不同的进程(父进程,子进程),fork函数的返回值会不一样呢?

因为在复制时复制了进程的堆栈段,所以两个进程都停留在fork函数中,等待返回,因此fork函数会返回两次,为了方便区别父进程和子进程,所以返回值不一样


fork函数样例:

#include <iostream>
#include<pthread.h>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<errno.h>
#include<semaphore.h>
using namespace std;

int main()
{
    pid_t pid;
    pid=fork();
    if(pid<0)
    {
        cout<<"fork error"<<endl;
        exit(-1);//abnormal exit
    }
    else if(pid==0)
    {
        cout<<"son process,son:"<<getpid()<<",parent:"<<getppid()<<endl;
    }
    else
    {
        cout<<"parent process,parent:"<<getpid()<<"son:"<<pid<<endl;
        sleep(2);
    }
    return 0;
}

QQ截图20190716141340

分析:getpid为获得当前进程的pid,getppid为获得当前进程的父进程的pid,上述代码验证了fork的不同返回值


下面我们验证一下父进程和子进程只共享了代码段,而没有共享数据段和堆栈段

#include <iostream>
#include<pthread.h>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<errno.h>
#include<semaphore.h>
using namespace std;

int data_x=1;

int main()
{
  pid_t pid;
  int stack_x=1;
  int *heap=(int*)malloc(sizeof(int));
  *heap=3;

  pid=fork();

  if(pid<0)
  {
    cout<<"fork error"<<endl;
    exit(-1);
  }else if(pid==0)
  {
    data_x++;
    stack_x++;
    (*heap)++;
    cout<<"son,data_x="<<data_x<<",stack_x="<<stack_x<<",heap="<<*heap<<endl;
    exit(0);
  }else
  {
    sleep(2);
    cout<<"parent,data_x="<<data_x<<",stack_x="<<stack_x<<",heap="<<*heap<<endl;
  }
  return 0;
}

QQ截图20190716143450

分析:我们发现数据段,栈中,堆中的数据,两个进程的这些数据都是不一样的,证明父进程和子进程没有共享数据段和堆栈段!,对子进程中数据段和堆栈段中内容的修改,并不会影响父进程中的数据,父子进程共享代码段的目的是节省存储空间

父进程的资源大部分被子进程复制,只有小部分是不同的,比如pid,该进程的父进程号等这些东西


关于“写时复制”概念的说明:

现在的Linux内核在实现fork函数时往往在创建子进程时并不立即复制父进程的数据段和堆栈段,而是当子进程修改这些数据内容时复制操作才会发生,内核才会给子进程分配进程空间,将父进程的内容复制过来,然后继续后面的操作,这样的实现对一些为了复制自身完成一些工作的进程来说更为合理!,效率也更高


四.进程的结束:

Linux中分为进程正常退出和进程异常退出

1)正常退出的方式:main函数中return 0,调用exit函数,调用_exit函数

2)异常退出的方式:调用abort函数,进程收到某个信号而该信号会使进程终止

当然,不管哪一种方式,系统最终都会执行一段相同的代码:用来关闭进程打开的文件描述符,释放其锁占用的内存资源

需要区别的是,return之后控制器交给了调用函数,而exit是个函数,执行完后系统的控制权交给了系统


现在我们再来看一下_exit函数和exit函数:

_exit函数更为接近底层,exit函数是_exit函数的一个封装,那么exit函数比 _exit函数多做了什么事情呢?

exit函数会进行【读完/写完缓存IO】的操作,而_exit函数则不会,在不恰当的时候使用_exit函数无法保证数据的完整性!

换句话说就是,exit函数在彻底结束进程之前会检查文件的打开情况,把文件缓冲区的内容写回文件!


那调用_exit函数为什么会出现数据不完整的情况呢?我们深究一下Linux底层

在Linux标准函数库中,有一种被称为【缓冲IO】的操作,其特征就是对应每一个打开的文件,在内存中都有一片缓冲区,每次读文件时会连续的读出若干条数据,这样在下次读数时就可以直接从内存的缓冲区中读取,提高了速度,同样的,每次写文件的时候也仅仅是写入内存缓冲区,等满足一定的条件后(积累到一定数量的字符),再将缓冲区中的内容一次性写入文件,这种技术大大增加了文件的读写速度,但是也给编程增添了一点小坑,比如有一些数据,理论上应该写入了文件,但实际上因为没有满足特定的条件,它还知识保存是内存的缓冲区中,如果采用_exit函数直接结束进程,缓冲区的数据就会丢失,因此想要保证数据的完整性,就一定要使用exit函数,而不是_exit函数



原文地址:https://www.cnblogs.com/yinbiao/p/11202089.html