Operating System：操作系统启动总结

现代操作系统的启动引导过程会有所差异，本文仅针对Intel x86系列作讲解，了解原理即可。

系统引导过程总体介绍

系统引导过程主要由以下几个步骤组成（以硬盘启动为例）
1、开机；
2、BIOS加电自检（POST——Power On Self Test），包括检查RAM，keyboard，显示器，软硬磁盘等等。Intel系列的CPU首先进入的是实模式，并开始执行位于地址0xFFFF0处的代码，也就是ROM-BIOS起始位置的代码（386 之前与386之后，这个地址是不同的，但都在系统内存的高地址段。在386下为 FFFFFFF0H）；
3、搜索启动的操作系统，根据BIOS设置，可能会依次访问每个软盘的第一个扇区、硬盘、CD-ROW等；一旦找到有效的启动设备，将第一个扇区（0头0道1扇区，也就是Boot Sector）的内容读入内存地址0x7c00处；
4、检查（WORD）0000：7dfe是否等于0xaa55.若不等于则转去尝试其他介质；如果没有其他启动介质，则显示 “No ROM BASIC” ，然后死机；
5、跳转到0000：7c00处执行MBR中的程序bootsect.S；
6、MBR先将自己复制到0x90000处，然后将紧接其后的setup部分（第二扇区）拷贝到0x90200，将真正的内核代码拷贝到0x100000。以上这些拷贝动作都是以bootsect.S、setup.S以及vmlinux在磁盘上连续存放为前提的；
7、bootsect.S完成加载动作后，就直接跳转到0x90200，这里正是setup.S的程序入口。 setup.S的主要功能就是将系统参数（包括内存、磁盘等，由BIOS返回）拷贝到 0x90000-0x901FF内存中，这个地方正是bootsect.S存放的地方，这时它将被系统参数覆盖。以后这些参数将由保护模式下的代码来读取。
8、setup.S还将video.S中的代码包含进来，检测和设置显示器和显示模式。最后，setup.S将系统转换到保护模式，并跳转到0x100000（对于bzImage格式的大内核是 0x100000，对于zImage格式的是0x10000）的内核引导代码，Bootloader过程结束；
9、Bootloader跳转到0x100000, 此处为"arch/I386/init/head.S"中的startup_32， startup_32的代码只需要设置一下全局变量，然后就跳转到start_kernel去了；start_kernel()是"init/main.c"中的asmlinkage函数，至此，启动过程转入体系结构无关的通用C代码中；
10、start_kernel()中设置与体系结构相关的环境、页表结构初始化、Trap/IRQ初始化、核心进程调度器初始化、时间/定时器初始化、控制台初始化、核心Cache初始化、内存初始化、内部及通用等各种Cache初始化、信号量初始化、其他部分初始化(Init()及smp_init())；
11、启动Init()过程，创建第一个进程；Init()中，取得 run-level 信息, 执行 /etc/rc.d/rc.sysinit 脚本, 激活核心的外挂式模块 (/etc/modules.conf), 然后init 执行 run-level 的各个脚本, 接着执行 /etc/rc.d/rc.local脚本, 最后执行 /bin/login 程序, 登入之后开始以 Shell 控管主机；
12、启动完成。

细节部分：
bootsect.S，系统引导程序，一般不超过512字节。
在PC系统结构中，线性地址0xA0000以上，即640K以上用于图形接口卡和BIOS自身，640K以下为系统的基本内存。如果配置更多的内存，则0x100000，即1MB处开始称为高内存。当BIOS引导一个系统时，总是把引导扇区读入到基本内存地址为0x7c00的地方，然后跳转到此执行引导扇区的代码。这段代码将自身搬运到0x90000处，并跳转到那继续执行，然后通过BIOS提供的读磁盘调用“int 0x13”从磁盘上读入setup和内核映像。其中setup的映像读入到0x90200处，然后跳转到setup的代码中。
从0x90000到0xA0000一共64K，bootsect仅占512字节，所以setup大小理论上可到63.5KB。
在Linux2.4版本以前，在最前面的512字节里保护了一个mini “boot loader”，只要拷贝启动代码运行就可从软盘启动；但在2.6版本中不再保护这样的”boot loader”，所以必须在第一个磁盘分区上存储一个合适的boot loader才能从软盘启动，软盘、硬盘和光驱启动都是一样的过程。
setup进行映像的解压缩，从BIOS收集一些数据，在控制台显示一些信息。
基本内存中开头一部分空间是保留给BIOS自己用的，另一方面对于Linux内核的引导也需要保留一些运行空间，一共保存了64K。基本内存中用于内核映像的就是8*64K=512K，其中顶端留4K用于引导命令行及从BIOS获取需要传递给内核的数据。内核映像一般都经过压缩，压缩后的映像和引导扇区及辅助引导程序的映像拼接在一起，成为内核的引导映像。大小不超过508K的映像称为小映像zImage，早期版本放在0x10000位置处，否则称为大内核bzImage，放在0x100000位置处。
CPU在bootsect时处于16位实地址模式，然后在setup的执行过程中转入32位保护模式。
Setup从BIOS中读取系统数据（内存大小、显卡模式、磁盘等参数），将数据保存在0x90000-0x901FF，覆盖了bootsect的内容。设置32位运行方式：加载中断描述表寄存器IDTR、全局描述表寄存器GDTR；临时设置IDT表和GDT表，并在GDT表中设置内核代码段和数据段的描述符，在Head.S中会根据内核的需要重新设置这些描述符表；开启A20地址线；重新设置两个中断控制器8259A，将硬件中断号重新设置为0x20和0x2f；最后设置CPU的控制寄存器CR0（机器状态字）的保护模式比特（PE）位，从而进入32位保护模式运行；然后跳转到head.S中的startup_32执行。
对于小内核映像放在0x10000处，Setup会把system从0x10000移到0x0000开始处。对于大内核映像，vmlinux中普通内核代码被编译成以PAGE_OFFSET+1MB为起始地址，在Head.S中初始化代码把虚拟地址减去PAGE_OFFSET就能得到以1MB为起始位置的物理地址，这也正是内核映像在物理内存中的存放位置。
Head.S中的startup_32主要用于开启页面单元。初始化工作在编译过程中开始进行，它先定义一个称为swapper_pg_dir的数组，使用链接器指示在地址0x00101000。然后分别为两个页面pg0和pg1创建页表项。第一组指向pg0和pg1的指针放在能覆盖1～9MB内存的位置，第二组指针放在PAGE_OFFSET+1MB的位置。一旦开始页机制，在上述页表和页表项指针建立后可以保证，在内核映像中不论是采用物理地址还是虚拟地址，都可以进行正确的页面映射。内核其他部分的页表初始化在paging_init()中完成。映射建立后，通过设置cr0寄存器中的某位开启页面映射，然后通过一个跳转指令保证指令指针的正确性。

问题一：

刚上电内存是空的，如何执行？
0xFFFF0这个地址是硬件编程确定的，在桥片中烧好的，你当然可以把这个地址段初始化到内存中，那么刚上电时内存是空的，就什么也执行不了，你做的这个板子也就没人买了。所以在桥片中必须把这个地址段映射到一个XXROM中去。
如何有内容,是谁是什么时候Copy到内存上的？
0xFFFF0这个地方通常都是一个跳转指令，跳转到的地方通常也是在ROM里（因为这时其它地方什么也没有），跳转过去的地方是一段初始化程序，这段程序在初始化最基本的（最最基本的）硬件后，就把ROM里的一段程序拷贝（可能有解压过程）到RAM里，然后跳到RAM里去执行刚拷过去的程序（因为ROM比RAM慢得多小得多）。BIOS的代码是在ROM里的，但BIOS的执行是在RAM里的，其实就是它自己把自己从ROM里拷到了RAM里。（涉及到BIOS Shadow技术）

问题二：

bootsect.s为什么放置在0x7c00：
1981年8月，IBM公司最早的个人电脑IBM PC 5150上市，就用了8088这个芯片。
当时，搭配的操作系统是86-DOS。这个操作系统需要的内存最少是32KB。我们知道，内存地址从0x0000开始编号，32KB的内存就是0x0000～0x7FFF。
8088芯片本身需要占用0x0000～0x03FF，用来保存各种中断处理程序的储存位置。（主引导记录本身就是中断信号INT 19h的处理程序。）所以，内存只剩下0x0400～0x7FFF可以使用。
为了把尽量多的连续内存留给操作系统，主引导记录就被放到了内存地址的尾部。由于一个扇区是512字节，主引导记录本身也会产生数据，需要另外留出512字节保存。所以，它的预留位置就变成了：
0x7FFF – 512 – 512 = 0x7C00
0x7C00就是这样来的。
计算机启动后，32KB内存的使用情况如下。
+——————— 0x0
| Interrupts vectors
+——————— 0x400
| BIOS data area
+——————— 0x5??
| OS load area
+——————— 0x7C00
| Boot sector
+——————— 0x7E00
| Boot data/stack
+——————— 0x7FFF
| (not used)
+——————— (…)

问题三：

bootsect.s为什么要把自己拷贝到0x90000：
这是THE LINUX/I386 BOOT PROTOCOL规定的
| |
0A0000 +------------------------+ | Reserved for BIOS | Do not use. Reserved for BIOS EBDA.
09A000 +------------------------+ | Stack/heap/cmdline | For use by the kernel real-mode code.
098000 +------------------------+ | Kernel setup | The kernel real-mode code.
090200 +------------------------+ | Kernel boot sector | The kernel legacy boot sector.
090000 +------------------------+ | Protected-mode kernel | The bulk of the kernel image.
010000 +------------------------+ | Boot loader | <- Boot sector entry point 0000:7C00
001000 +------------------------+ | Reserved for MBR/BIOS |
000800 +------------------------+ | Typically used by MBR |
000600 +------------------------+ | BIOS use only |
000000 +------------------------+
可以看见7c00是boot sector的入口，而这之后从10000到90000将来会被保护模式的内核代码占据。协议规定了kernel boot setctor应该被放在90000-92000之间，所以BootSect.s会将自己移动到那去。

1．Bootsect启动过程：
假设用LILO启动，启动时用户可以选择启动哪个操作系统。LILO将boot loader分为两部分，一部分放到启动分区的第一个扇区；
1)BIOS将MBR或启动分区的第一个扇区的启动部分加载到地址0x00007c00处；
2)该程序将自身移到0x00096a00，建立实模式栈(从0x00098000到0x000969ff)，将LILO的第二部分加载到0x00096c00处，然后跳转到此执行；
3)然后第二部分程序从磁盘读取一个可启动的操作系统列表让用户选择，最后用户选择每个OS后，boot loader可以拷贝不启动分区或者之间拷贝内核映像到RAM中去；
4)加载Linux内核映像时，LILO boot loader首先调用BIOS例程显示”Loading …”信息；
5)调用BIOS例程加载内核映像的初始化部分到RAM上，内核映像的前512字节放在0x00090000位置，setup()函数代码放在0x00090200位置；
6)接着调用BIOS例程装载内核映像的其余部分，映像可能放在低地址0x00010000(使用make zImage编译的小内核映像)或者高地址0x00100000（使用make bzImage编译的大内核映像）。
7)然后跳至刚刚setup部分。

2．Setup.S分析
setup()汇编函数被连接器放在内核映像文件中的0x200偏移处。Setup函数必须初始化计算机中的硬件设备并为内核程序的执行建立环境。
1)在ACPI兼容的系统中，调用BIOS例程建立描述系统物理内存布局的表。在早期系统中，它调用BIOS例程返回系统可以的RAM大小；
2)设置键盘的重复延迟和速率；
3)初始化显卡；
4)检测IBM MCA总线、PS/2鼠标设备、APM BIOS支持等；
5)如果BIOS支持Enhanced Disk Drive Services (EDD)，将调用正确的BIOS例程建立描述系统可用硬盘的表；
6)如果内核加载在低RAM地址0x00010000，则把它移动到0x00001000处；如果映像加载在高内存1M位置，则不动；
7)启动位于8042键盘控制器的A20 pin。
8)建立一个中断描述表IDT和全局描述表GDT表；
9)如果有的话，重启FPU单元；
10)对可编程中断控制器进行重新编程，屏蔽所以中断，级连PIC的IRQ2不需要；
11)设置CR0状态寄存器的PE位使CPU从实模式切换到保护模式，PG位清0，禁止分页功能；
12)跳转到startup_32()汇编函数, jmpi 0x100000, __BOOT_CS，终于进入内核Head.S；

3．Head.S分析
有两个不同的startup_32()函数，一个在arch/i386/boot/compressed/head.S文件中，setup结束后，该函数被放在0x00001000或者0x00100000位置，该函数主要操作：
1)首先初始化段寄存器和临时堆栈；
2)清除eflags寄存器的所有位；
3)将_edata和_end区间的所有内核未初始化区填充0；
4)调用decompress_kernel( )函数解压内核映像。首先显示"Uncompressing Linux..."信息，解压完成后显示 "OK, booting the kernel."。内核解压后，如果时低地址载入，则放在0x00100000位置；否则解压后的映像先放在压缩映像后的临时缓存里，最后解压后的映像被放置到物理位置0x00100000处；
5)跳转到0x00100000物理内存处执行；

解压后的映像开始于arch/i386/kernel/head.S 文件中的startup_32()函数，因为通过物理地址的跳转执行该函数的，所以相同的函数名并没有什么问题。该函数未Linux第一个进程建立执行环境，操作如下：
1)初始化ds,es,fs,gs段寄存器的最终值；
2)用0填充内核bss段；
3)初始化swapper_pg_dir数组和pg0包含的临时内核页表：
将swapper_pg_dir（0x1000)和pg0(0x2000)清空，swapper_pg_dir作为整个系统的页目录；
将pg0作为第一个页表，将其地址赋到swapper_pg_dir的第一个32位字中。
同时将该页表项也赋给swapper_pg_dir的第3072个入口，表示虚拟地址0xc0000000也指向pg0。
将pg0这个页表填满指向内存前4M。
在cr3寄存器中存放PGD的地址，并设置cr0寄存器中的PG位，启用分页支持。
4)建立进程0idle进程的内核模式的堆栈；
5)再次清除eflags寄存器的所有位；
6)调用setup_idt()用非空的中断处理函数填充IDT表；
7)将从BIOS获取的系统参数传递到操作系统的第一个页面帧；
8)识别处理器的模式；
9)将GDT和IDT表的地址加载到gdtr和idtr寄存器中；
10)跳转到start_kernel函数，这个函数是第一个C编制的函数，内核又有了一个新的开始。

4．start_kernel()分析：
1)调度器初始化，调用sched_init();
2)调用build_all_zonelists函数初始化内存区；
3)调用page_alloc_init()和mem_init()初始化伙伴系统分配器；
4)调用trap_init()和init_IRQ()对中断控制表IDT进行最后的初始化；
5)调用softirq_init() 初始化TASKLET_SOFTIRQ和HI_SOFTIRQ；
6)Time_init()对系统日期和时间进行初始化；
7)调用kmem_cache_init()初始化slab分配器；
8)调用calibrate_delay()计算CPU时钟频率；
通过调用kernel_thread()启动进程1init进程的内核线程，然后该线程再创建其他的内核线程执行/sbin/init程序。

参考资料：
《linux0.11内核完全注释》
《intel-及IA32架构软件开发者手册》
《操作系统概论》