浅谈操作系统原理

注：文中讲述的原理是推理和探讨，和现实中的实现不一定完全相同。

操作系统，主要分为 8 个部分：

1 引导程序

2 设备驱动

3 控制台

4 进程调度

5 虚拟内存

6 文件系统

7 网络通信

8 编译器

引导程序，按照现在的业界标准，大概是接通电源 -> BIOS 启动 -> 引导程序。引导程序是磁盘开头的一段字节存储的代码。 BIOS 启动后就将控制权交给这段代码，或者说加载这段代码进入内存，并执行这段代码。引导程序加载到内存里应该也是存储在内存的低位地址附近，比如从地址为 0 ，或者 1 的内存单元开始存储。不过我到现在都有一个疑问，内存地址可以使用 “0” 这个地址吗？ C / C++ / C# 好像都是用 0 来表示空指针（null）的。

引导完了，要显示一个界面给用户看，最基本的就是控制台。要显示控制台，需要操作显示器，所以这就是需要设备驱动。

当然，还需要键盘鼠标的输入，最起码要有键盘的输入，这也是设备驱动。

所以控制台就是设备驱动加上一点小小的控制程序就可以啦。

这就是一个简单的小小操作系统了。

看起来跟 Dos 很像？

我们再来看看设备驱动如何实现，

设备驱动就是给设备发送指令，以及和设备的数据传输。

CPU 应该有给设备发送指令的指令。据说设备会被映射成寄存器？或者一个内存地址？

CPU 和设备之间的通信分为 CPU 操作设备和设备通知 CPU 。

CPU 操作设备很简单，就向设备发出指令，该写数据写数据，该读数据读数据就行。

设备通知 CPU 这个有点复杂，

比如鼠标键盘网卡，这些交互式的设备，以及和外部通信的设备都会通知 CPU 。

比如用户对鼠标移动按键等，就会通知 CPU，网卡接收到网络传输过来的数据，也会通知 CPU ，

由 CPU 对数据做出处理（响应）。

这个通知的方式是中断，即设备需要通知 CPU 时，发起一个中断， CPU 接收到中断会转入中断处理程序，接下来就可以对设备的数据进行处理。

中断是 CPU 硬件实现的一个机制，所以效率很高。

我前段时间看过一篇文章，说早期的 CPU 也是没有中断的，那时的操作系统是通过轮询的方式来检查设备是否有数据（通知 (Announce)），

看到这里，我笑了。

严格来讲，转入中断处理程序时要保存当前程序的上下文，所以，中断处理程序是一个进程，或者说，转入中断处理程序是跨进程的。

而在执行中断处理程序的过程中，如果又发生了中断，怎么办？

好像可以嵌套执行中断，就好像函数嵌套一样，新的中断发生，就转入新中断的处理程序，处理完以后，再回到原来的中断处理程序继续执行。

还有就是忽略中断中的中断，这大概是级别比较高的系统核心中断会这么做。

也许还可以有中断排队。

当然这些就是操作系统要处理的逻辑。

进程调度，

现代操作系统都是多进程多线程的架构。

有的文章说 Linux 里的线程是小进程，有的文章说 Windows 里是以线程为调度单位。

不管小进程还是线程，我们以线程来看好了。

我们这样来设计：

系统的调度单元是线程，一个进程可以包含多个线程，最少会有一个线程。

进程的动态性由线程来表现，进程作为一个静态的资源边界。

这跟 Windows 比较像吧？

因为各个厂商各个型号的设备的操作方式不同，所以操作系统定义一个规范，可以由厂商和开发者自己编写设备驱动程序，来支持设备。

操作系统只要和设备驱动程序交互就行。

而设备驱动程序的规范中一个重要的部分就是上述的中断原理。

当 CPU 接收到设备发出的中断后，转入中断处理程序，但并不需要在中断处理程序中进行具体的处理逻辑，中断处理程序只需要将负责具体处理逻辑的驱动程序线程加入就绪队列就可以，这样驱动程序线程很快就可以执行，进行具体的处理了。驱动程序线程平时是挂起（Suspend）的状态。

进程作为一个静态边界，主要就是内存里的数据段代码段，广义的说，还有线程池等等资源。

线程共用的堆和每个线程各自的栈，应该都是在数据段里吧 ~~ ？

那么如何来调度进程（线程）呢？

我觉得平均主义最简单，

对于就绪队列里的线程，每个分配 1000 纳秒的时间片，这样轮流执行，这样， 1 秒钟可以执行 100万个线程，当然每个线程只能分到 1 个时间片。

如果是 1万个线程，那么每个线程可以分到 100 个时间片，累计时间是 100 微秒 = 0.1 毫秒。

如果是 1千个线程，那么每个线程可以分到 1000 个时间片，累计时间是 1000 微秒 = 1 毫秒。

如果是 100 个线程，那么每个线程可以分到 1 万个时间片，累计时间是 1万微秒 = 10 毫秒。

当然这是理论上的，并没有把线程切换等的时间花费算进去。

大家会问，对于不怎么运行的线程，平均分配会不会被不怎么运行的线程占用比较多的时间片，造成浪费？

这是因为 Windows （Linux ？）有一个 “抢占式多任务” 的概念吧，意思就是对于使用时间片越多的线程就分配更多的时间片给它。

但我觉得这个问题不存在，

不运行的线程就挂起嘛，不管是 Sleep，还是挂起， Sleep 也是一种挂起。

挂起了就不占用时间片了，所以不存在浪费一说。

对于在就绪队列中的线程，均等的给予时间片，保证实时响应性。

有一个基本的问题是，应用程序进程在运行时是占用了 CPU 的，那么，由谁来调度进程？应用程序进程怎么切换到其它进程？

还是用上面说的中断的方法。

操作系统会在 CPU 里设置一个中断，我们可以称之为 “系统中断”，可以设定为每隔一个时间片（比如 1000 纳秒）发起一次中断，

这是 CPU 自己发出的中断，

中断后，转入系统中断处理程序，即系统中断进程，

在系统中断进程里，可以进行进程调度，根据调度算法，系统中断进程将 CPU 交给下一个等待执行的进程。

在 Windows 的任务管理器里，可以看到一个 “系统中断” 的进程，也许就是我们上面说的系统中断进程吧 ~ ！

在系统比较繁忙，比如开了比较多的程序时，会看到任务管理器里的 “系统中断” 进程会占用比较多的 CPU，可能是忙于虚拟内存的页载入载出，

如果是这样的话， Windows 里的 “系统中断” 还包含了虚拟内存的功能。

接下来说说虚拟内存，

虚拟内存里，页的大小（Size）是一个关键的参数。

页太大了不好，页太小了也不好。

我提议用线性表作为页表，假设有 1M 个页表项，每个页的大小（Size）是 1M ，这样虚拟内存空间可以达到 1M * 1M = 1T ，

如何？

页表项的内容是 1 当前页是在物理内存还是在磁盘页文件， 2 如果在物理内存，页的物理内存地址，如果在磁盘页文件，页在页文件里的地址（Position）。

1T 的地址空间大概是用 40位的地址可以表示，再加上用一个位表示在物理内存还是磁盘页文件，页表项可以用 41 位来表示，

我们可以放宽一点，用 64 位（8 个字节）来表示，

这样， 1M 个页表项就占用 1M * 8 = 8M 的空间，或者说，页表需要占用 8M 的空间。

也就是说， 8M 的页表可以管理 1T 的虚拟内存空间。

线性表的优点是查找快。

实际上页表项还可以再小一点，因为页的大小是固定的，所以我们可以用编号来表示页在物理内存和磁盘页文件中的位置。

比如

编号 * 1M = 页在磁盘页文件中的位置，

编号 * 1M + 起始地址 = 页在物理内存中的位置，起始地址是物理内存开始用来存储页的地址

这样页表项只要有 21 位就可以了， 20 位表示 1M 范围内的编号， 1 位表示页在物理内存还是磁盘页文件。

但是这样需要多一个计算的过程，就是上面说的，

编号 * 1M = 页在磁盘页文件中的位置，

编号 * 1M + 起始地址 = 页在物理内存中的位置，起始地址是物理内存开始用来存储页的地址

要多一次计算才能知道页在磁盘页文件或者页在物理内存中的位置。

虚拟内存地址换算成物理内存地址的算法是，虚拟地址 / 除以页的大小（Size），商 = 页的序号，余数 = 地址在页里的偏移量。

根据页的序号在页表中查找页表项，

因为页表是线性表，所以根据页的序号在页表中查找页表项相当于查找数组。

找到页表项后，可以知道页在物理内存还是磁盘页文件，

如果在物理内存，则可以知道页的物理地址，页的物理地址 + 地址在页里的偏移量 = 虚拟地址的换算结果

虚拟地址的换算结果就是虚拟地址对应的物理地址。

如果页在磁盘页文件，则需要将页加载到物理内存，再根据上述算法将虚拟地址转换成物理地址。

因为物理内存空间有限，所以将页从磁盘页文件载入物理内存的同时，也会将页从物理内存移除，载入磁盘页文件。

所以就存在一个 “命中算法”，优先载入哪些页，优先载出哪些页，使得效率更高。

当然常用的留下，不常用的载出，这大概是大原则。

命中算法其实随便怎么玩都可以，不是大问题。

现在的虚拟内存的地址转换是在 CPU 的存储管理部件中完成的，也就是硬件完成的，操作系统只要设置好页表就好。

我想，早期的虚拟内存应该是由操作系统提供一个地址转换的原语，

编译器在编译的时候，对每次寻址操作，都编译成先调用地址转换原语，将虚拟地址转换成物理地址，再用物理地址执行具体操作。

这是软件方式实现的虚拟地址转换，当然比起硬件实现的方式，效率比较低。

这种方式可能主要存在于早期的实验室里。

文件系统是线性表 + 链表的经典案例。

文件是连续的顺序的，所以，在磁盘上，我们也会连续的顺序的来存储文件。

但如果 1M 的文件，磁盘上有 500K 和 600K 这样 2 个不连续的空闲空间，那要怎么存储？

当然是把文件分为 2 部分，每部分 500K，部分 1 存 500K 的空闲空间，部分 2 存 600K 的空闲空间。

在部分 1 的末尾，会保存一个指针，指向部分 2 的起始地址。

以此类推，文件在磁盘上的物理拓扑是，一个用链表方式连接起来的多个线性表。

这也是磁盘使用一段时间后 “磁盘碎片增多，读写效率变低” 的原因。

这一点在机械硬盘上尤为明显。

这是文件的存储。

文件系统还包含文件和目录表，用于（根据名字）检索文件和目录。

文件目录表通常会在磁盘的开头划定一块固定区域来保存。

文件目录表的格式和这块固定区域的大小决定了文件目录表最多能管理多少个文件。

这也是通常我们会看到 “xx 文件系统最多支持 yy 个文件， zz 个目录” 的原因吧！

索引的特点是检索的时间花费与文件（目录）数量无关，只与文件（目录）名字长度有关。

这也是 Dos 只支持 8个英文字符的文件（目录）名，而 Windows 支持很长的文件（目录）名的原因吧。

有关索引，我在《我发起了一个 .Net 开源数据库项目 SqlNet》 https://www.cnblogs.com/KSongKing/p/9501739.html 一文中有论述。

网络通信的基础是网卡驱动，网卡驱动也是设备驱动，设备驱动的部分在上文简单的说了。

网卡驱动解决了，网络通信就简单了，

只要按照协议格式分析数据，拆包，将数据转发给应用程序就可以了。

操作系统应该提供至少一个编译器，比如 C 语言编译器，这样开发者可以在操作系统上编写程序。

有关编译器，请参考我写的另一篇文章《漫谈编译原理》 https://www.cnblogs.com/KSongKing/p/9683831.html

计算机技术发展到现在，也是卷帙浩繁，是个大工程。

不过从工程学的角度来看，也不复杂，

我们可以盖一座大楼，就能盖两座大楼，能盖两座大楼，就能盖三座大楼，能盖三座大楼，就能盖四座大楼， ……

盖十座大楼也是可以的嘛。

浅谈 操作系统原理

浅谈操作系统原理