【Linux】进程的结构，创建，结束,以及程序转化为的进程的过程

本文内容：

1.进程的结构
2.程序转化为进程的过程
3.进程的创建
4.进程的结束

背景知识：

1.进程是计算机中处于运行的程序的实体
2.进程是线程的容器
3.程序本身只是指令，数据以及组织形式的描述，进程才是程序真正的运行实例
4.多个进程可以与同一个程序关联，而每个进程则是以同步或者异步的方式独立运行

一.Linux的进程结构

Linux进程结构由三部分组成：代码段，数据段，堆栈段
代码段：存放程序代码，如果多个进程运行同一个程序则他们使用同一个代码段
数据段：存放程序的全局变量，常量，静态变量
堆栈段：函数的参数，函数内部定义的局部变量，进程控制块PCB（处于进程核心堆栈的底部）
ps：
1.PCB是进程存在的唯一标识，系统通过PCB的存在而感知进程的存在
2.系统通过PCB对进程进行调度和管理，PCB包括创建进程，执行程序，退出进程以及改变进程优先级等
3.进程与PID进程标识符是一对一关系，而与程序文件之间是多对一关系！

二.程序转化为进程过程

Linux程序的生成分为四个阶段：预编译，编译，汇编，链接
ps：编译器G++经过预编译，编译，汇编三个步骤将源程序文件转化为目标文件，如果程序有多个目标文件或者程序使用了库函数，则编译器还需要将所有的目标wen就链接起来，最后形成可执行程序

程序转换为进程的步骤：
1）内核将程序代码和数据读入内存，为程序分配内存空间
2）内核为进程分配进程标识符PID和其他资源
3）内核为进程保存PID以及相应的状态信息，把进程放到运行队列中等待执行，程序转化为进程后就可以被操作系统的调度程序调度执行了

三.进程的创建

背景知识：

1.进程创建有两种方式：由操作系统创建，由父进程创建
2.系统启动时，操作系统会创建一些进程，他们承担着管理和分配系统资源的任务，这些进程通常被叫做系统进程
3.系统允许一个进程创建子进程，从而形成进程树结构
4.整个Linux系统的所有进程也是一个树形结构、
5.除了0号进程是由系统创建的，其他进程都是由他们的父进程创建的

关于进程的创建函数fork：

pid_t fork(void)
1.对于父进程，fork函数返回子进程的PID
2.对于子进程，fork函数返回0
3.如果创建出错，则fork函数返回-1

函数分析：fork函数创建一个新进程，并从内核中为进程分配一个新的可用的进程标识符PID，然后将父进程空间中的内核复制到子进程，包括父进程的数据段和堆栈段，和父进程共享代码段，这个时候子进程和父进程一模一样！
问题：为什么对于不同的进程（父进程，子进程），fork函数的返回值会不一样呢？
因为在复制时复制了进程的堆栈段，所以两个进程都停留在fork函数中，等待返回，因此fork函数会返回两次，为了方便区别父进程和子进程，所以返回值不一样

fork函数样例:

#include <iostream>
#include<pthread.h>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<errno.h>
#include<semaphore.h>
using namespace std;

int main()
{
    pid_t pid;
    pid=fork();
    if(pid<0)
    {
        cout<<"fork error"<<endl;
        exit(-1);//abnormal exit
    }
    else if(pid==0)
    {
        cout<<"son process,son:"<<getpid()<<",parent:"<<getppid()<<endl;
    }
    else
    {
        cout<<"parent process,parent:"<<getpid()<<"son:"<<pid<<endl;
        sleep(2);
    }
    return 0;
}

分析：getpid为获得当前进程的pid，getppid为获得当前进程的父进程的pid，上述代码验证了fork的不同返回值

下面我们验证一下父进程和子进程只共享了代码段，而没有共享数据段和堆栈段

#include <iostream>
#include<pthread.h>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
#include<unistd.h>
#include<errno.h>
#include<semaphore.h>
using namespace std;

int data_x=1;

int main()
{
  pid_t pid;
  int stack_x=1;
  int *heap=(int*)malloc(sizeof(int));
  *heap=3;

  pid=fork();

  if(pid<0)
  {
    cout<<"fork error"<<endl;
    exit(-1);
  }else if(pid==0)
  {
    data_x++;
    stack_x++;
    (*heap)++;
    cout<<"son,data_x="<<data_x<<",stack_x="<<stack_x<<",heap="<<*heap<<endl;
    exit(0);
  }else
  {
    sleep(2);
    cout<<"parent,data_x="<<data_x<<",stack_x="<<stack_x<<",heap="<<*heap<<endl;
  }
  return 0;
}

分析：我们发现数据段，栈中，堆中的数据，两个进程的这些数据都是不一样的，证明父进程和子进程没有共享数据段和堆栈段！，对子进程中数据段和堆栈段中内容的修改，并不会影响父进程中的数据，父子进程共享代码段的目的是节省存储空间

父进程的资源大部分被子进程复制，只有小部分是不同的，比如pid，该进程的父进程号等这些东西

关于“写时复制”概念的说明：

现在的Linux内核在实现fork函数时往往在创建子进程时并不立即复制父进程的数据段和堆栈段，而是当子进程修改这些数据内容时复制操作才会发生，内核才会给子进程分配进程空间，将父进程的内容复制过来，然后继续后面的操作，这样的实现对一些为了复制自身完成一些工作的进程来说更为合理！，效率也更高

四.进程的结束：

Linux中分为进程正常退出和进程异常退出

1）正常退出的方式：main函数中return 0，调用exit函数，调用_exit函数

2）异常退出的方式：调用abort函数，进程收到某个信号而该信号会使进程终止

当然，不管哪一种方式，系统最终都会执行一段相同的代码：用来关闭进程打开的文件描述符，释放其锁占用的内存资源

需要区别的是，return之后控制器交给了调用函数，而exit是个函数，执行完后系统的控制权交给了系统

现在我们再来看一下_exit函数和exit函数：

_exit函数更为接近底层，exit函数是_exit函数的一个封装，那么exit函数比 _exit函数多做了什么事情呢？
exit函数会进行【读完/写完缓存IO】的操作，而_exit函数则不会，在不恰当的时候使用_exit函数无法保证数据的完整性！
换句话说就是，exit函数在彻底结束进程之前会检查文件的打开情况，把文件缓冲区的内容写回文件！

那调用_exit函数为什么会出现数据不完整的情况呢？我们深究一下Linux底层

在Linux标准函数库中，有一种被称为【缓冲IO】的操作，其特征就是对应每一个打开的文件，在内存中都有一片缓冲区，每次读文件时会连续的读出若干条数据，这样在下次读数时就可以直接从内存的缓冲区中读取，提高了速度，同样的，每次写文件的时候也仅仅是写入内存缓冲区，等满足一定的条件后（积累到一定数量的字符），再将缓冲区中的内容一次性写入文件，这种技术大大增加了文件的读写速度，但是也给编程增添了一点小坑，比如有一些数据，理论上应该写入了文件，但实际上因为没有满足特定的条件，它还知识保存是内存的缓冲区中，如果采用_exit函数直接结束进程，缓冲区的数据就会丢失，因此想要保证数据的完整性，就一定要使用exit函数，而不是_exit函数