linux内核CFS进程调度策略

一、概述

首先简介一下主要的设计思路，
CFS思路非常easy。就是依据各个进程的权重分配执行时间(权重怎么来的后面再说)。
进程的执行时间计算公式为:
分配给进程的执行时间 = 调度周期 * 进程权重 / 全部进程权重之和 (公式1)
调度周期非常好理解。就是将全部处于TASK_RUNNING态进程都调度一遍的时间，
几乎相同相当于O(1)调度算法中执行队列和过期队列切换一次的时间
（我对O(1)调度算法看得不是非常熟，如有错误还望各位大虾指出）。
举个样例。比方仅仅有两个进程A, B，权重分别为1和2，
调度周期设为30ms，那么分配给A的CPU时间为
30ms * (1/(1+2)) = 10ms
而B的CPU时间为

30ms * (2/(1+2)) = 20ms
那么在这30ms中A将执行10ms。B将执行20ms。
公平怎么体现呢？它们的执行时间并不一样阿？
事实上公平是体如今另外一个量上面。叫做virtual runtime(vruntime)。它记录着进程已经执行的时间，
可是并非直接记录，而是要依据进程的权重将执行时间放大或者缩小一个比例。
我们来看下从实际执行时间到vruntime的换算公式
vruntime = 实际执行时间 * 1024 / 进程权重。 (公式2)
为了不把大家搞晕。这里我直接写1024。实际上它等于nice为0的进程的权重，代码中是NICE_0_LOAD。
也就是说。全部进程都以nice为0的进程的权重1024作为基准。计算自己的vruntime添加速度。
还以上面AB两个进程为例。B的权重是A的2倍，那么B的vruntime添加速度仅仅有A的一半。

如今我们把公式2中的实际执行时间用公式1来替换。能够得到这么一个结果：
vruntime = (调度周期 * 进程权重 / 全部进程总权重) * 1024 / 进程权重=调度周期 * 1024 / 全部进程总权重
看出什么眉目没有？没错，尽管进程的权重不同，可是它们的vruntime增长速度应该是一样的（这里所说的增长速度一样，是从宏观上来看的。从上一篇文章能够看出来。而在上一篇文章中说vruntime的增量不同，是从公式分析得到的，算是局部分析，在公式2中，假设实际执行时间都是一样。非常显然权重小的增长的多。权重大的增长的小，我个人认为正是虚拟时钟的存在。转换了思想。才有了这个CFS,事实上还是依据权重来决定一个进程在一个调用周期内执行了多长时间，可是虚拟时钟决定了怎么调度这个过程，这就是思想），与权重无关。
好，既然全部进程的vruntime增长速度宏观上看应该是同一时候推进的。
那么就能够用这个vruntime来选择执行的进程。谁的vruntime值较小就说明它曾经占用cpu的时间较短，
受到了“不公平”对待，因此下一个执行进程就是它。

这样既能公平选择进程，又能保证高优先级进程
获得较多的执行时间。
这就是CFS的主要思想了。

再补充一下权重的来源，权重跟进程nice值之间有一一相应的关系，能够通过全局数组prio_to_weight来转换，
nice值越大，权重越低

以下来分析代码。网上已经有非常多cfs的文章。因此我打算换一个方式来写，选择几个点来进行情景分析，
包含进程创建时。进程被唤醒，主动调度(schedule)，时钟中断。

介绍代码之前先介绍一下CFS相关的结构
第一个是调度实体sched_entity，它代表一个调度单位。在组调度关闭的时候能够把他等同为进程。
每个task_struct中都有一个sched_entity，进程的vruntime和权重都保存在这个结构中。
那么全部的sched_entity怎么组织在一起呢？红黑树。全部的sched_entity以vruntime为key
(实际上是以vruntime-min_vruntime为单位，难道是防止溢出？反正结果是一样的)插入到红黑树中，
同一时候缓存树的最左側节点。也就是vruntime最小的节点，这样能够迅速选中vruntime最小的进程。
注意仅仅有等待CPU的就绪态进程在这棵树上，睡眠进程和正在执行的进程都不在树上。
我从ibm developer works上偷过来一张图来展示一下它们的关系：
汗。图片上传功能被关闭了。先盗链一个过来。别怪我没品哈。。。

CFS

如今開始分情景解析CFS。

二、创建进程

第一个情景选为进程创建时CFS相关变量的初始化。
我们知道。Linux创建进程使用fork或者clone或者vfork等系统调用，终于都会到do_fork。

假设没有设置CLONE_STOPPED，则会进入wake_up_new_task函数，我们看看这个函数的关键部分