Linker Scripts3--链接脚本概述

1.前言

本文主要翻译了The Link Script英文文献。

（1）每个链接都是由链接脚本控制，链接脚本是用链接命令语言写的；

（2）链接脚本的主要目的是描述输入文件的sections如何映射到输出文件的sections,并控制输出文件的内存分布；

（3）必要时，链接脚本会指导连接器执行很多其它操作；

（4）链接器总是使用一个链接脚本，如果不能自行提供链接脚本，则使用默认的链接脚本；

（5）可以使用ld --verbose命令行选项来查看默认的链接脚本，选项-r和-N可以影响默认的连接脚本；

（6）-T选项用以指定自己的链接脚本, 它将代替默认的连接脚本

2.基本的链接脚本概念

链接器

把一个或多个输入文件合成一个输出文件.

输入文件

目标文件或链接脚本文件.

输出文件

目标文件或可执行文件

目标文件(包括可执行文件)

具有固定的格式, 在UNIX或GNU/Linux平台下, 一般为ELF格式. 若想了解更多, 可参考 UNIX/Linux平台可执行文件格式分析

输入section和输出section

有时把输入文件内的section称为输入section(input section), 把输出文件内的section称为输出section(output sectin)

section

目标文件的每个section至少包含两个信息: 名字和大小，大部分section还包含与它相关联的一块数据, 称为section contents(section内容)

loadable section

一个section可被标记为“loadable(可加载的)，意思是输出文件运行时可以将section的内容加载到memory

allocatable

内容为空的section可被标记为alocatable“可分配的”. 在输出文件运行时, 在进程地址空间中空出大小同section指定大小的部分.

某些情况下, 这块内存必须被置零.
注：如果一个section不是“可加载的”或“可分配的”, 那么该section通常包含了调试信息. 可用objdump -h命令查看相关信息.

VMA和LMA

每个loadable或allocatable的输出section有两个地址。VMA和LMA

（1）VMA(virtual memory address）： VMA是执行输出文件时section所在的地址

（2）LMA(Load Memory Address)：LMA是加载输出文件时section所在的地址

（3）通常VMA和LMA是相同的

（4）两者不同的情况

比如将输出文件加载到开发板的flash中(由LMA指定), 而在运行时将位于flash中的输出文件复制到SDRAM中(由VMA指定).

（5）可以使用objdump -h选项来查看VMA和LMA

（6）VMA和LMA举例1

.data section对应的VMA地址是0×08050000, 该section内包含了3个32位全局变量, i、j和k, 分别为1,2,3.
.text section内包含由”printf( “j=%d “, j );”程序片段产生的代码.
连接时指定.data section的VMA为0×08050000, 产生的printf指令是将地址为0×08050004处的4字节内容作为一个整数打印出来。
如果.data section的LMA为0×08050000，显然结果是j=2
如果.data section的LMA为0×08050004，显然结果是j=1

（7）VMA和LMA举例2

.text section内容的开始处包含如下两条指令(intel i386指令是10字节，每行对应5字节):
jmp 0×08048285
movl $0×1,%eax
如果.text section的LMA为0×08048280, 那么在进程地址空间内0×08048280处为“jmp 0×08048285”指令, 0×08048285处为movl $0×1,%eax指令.

假设某指令跳转到地址0×08048280, 显然它的执行将导致%eax寄存器被赋值为1.
如果.text section的LMA为0×08048285, 那么在进程地址空间内0×08048285处为“jmp 0×08048285”指令, 0×0804828a处为movl $0×1,%eax指令.

假设某指令跳转到地址0×08048285, 显然它的执行又跳转到进程地址空间内0×08048285处, 造成死循环.

符号表

每个目标文件都有一系列符号，被称作符号表。一个符号可以被定义也可以没有定义

每个符号都有一个名字，被定义的符号都有一个地址，还包含一些其它信息

每个目标文件都有符号表(SYMBOL TABLE), 包含已定义的符号(对应全局变量和static变量和定义的函数的名字)和未定义符号(未定义的函数的名字和引用但没定义的符号)信息.

每个符号对应一个地址, 即符号值(这与c程序内变量的值不一样, 某种情况下可以把它看成变量的地址).可以使用nm命令或objdump -t来查看符号表

3. 链接脚本格式

（1）链接脚本是文本文件。

（2）链接脚本由一系列命令组成, 每个命令由一个关键字(一般在其后紧跟相关参数)或对符号的赋值语句组成.

（3）命令由分号‘;’分隔开.空格被忽略

（4）文件名或格式名可以直接输入，如果文件名内包含分号’,'或其他分隔符, 则要用引号‘”’将名字全称引用起来.

（5）不能在文件名里使用双引号

（5）/* */之间的是注释。

4. 简单的链接脚本举例

（1）很多链接脚本是很简单的。最简单的链接脚本只有一个命令：SECTIONS，使用SECTIONS命令来描述输出文件的内存布局。

（2）SECTIONS命令是一个很强大的命令，这里我们将描述它的一个简单应用。

（3）假设程序只包含了code，initialized data和uninitialized data，这些将分别放在.text .data .bss三个 sections，进一步假设你的程序中就包含如上这个几个sections

假定code加载地址为0x10000，数据的开始地址为0x8000000，如下是一个链接脚本：

SECTIONS
{
. = 0x10000;
.text : { *(.text) }
. = 0x8000000;
.data : { *(.data) }
.bss : { *(.bss) }
}

对如上例子的解释：

（1）SECTIONS命令采用 'SECTIONS' 关键字，后跟一串符号定义和输出section描述，用"{}"包起来；

（2）上例SECTIONS命令的第一行，设置了特殊符号“.”的值，“.”称为定位符。

注：[1]如果没有采用其它方式为输出section指定地址，则输出section的地址就是定位符的当前值

　　[2]定位符随后会增加输出section的大小

　　[3]在SECTIONS命令的开始定位符的值为0

（3）上例SECTIONS命令的第二行，定义了输出section .text，":"是必需的

输出section名后的"{}"里列出了输入section,这些输入section会放到输出section,"*"表示所有输入文件名，‘*(.text)’ 表示所有输入文件的'.text'输入section

　 ‘.text’输出section被定义时，定位符是0x10000，链接器将在输出文件中将'.text'输出section的地址设为0x10000

（4）上例剩下的行定义了输出文件的.data section和.bss section

　　链接器将把.data 输出section放在输出文件的0x8000000位置，之后定位符将被设置为 0x8000000+.data section的大小

链接器将把.bss输出section放在输出文件的 0x8000000+.data section的大小的位置

（5）链接器要保证每个输出section符合地址对齐，如果需要的话会增加定位符的值

本例中.text section和.data section符合对齐要求，.bss section 可能为了对齐会增加定位符的值，因此.data section和.bss section之间会有一个gap

5. 参考文献

[1] The GNU LInker.pdf