Linker Scripts3--链接脚本概述

1.前言

本文主要翻译了The Link Script英文文献。

(1)每个链接都是由链接脚本控制,链接脚本是用链接命令语言写的;

(2)链接脚本的主要目的是描述输入文件的sections如何映射到输出文件的sections,并控制输出文件的内存分布;

(3)必要时,链接脚本会指导连接器执行很多其它操作;

(4)链接器总是使用一个链接脚本,如果不能自行提供链接脚本,则使用默认的链接脚本;

(5)可以使用ld --verbose命令行选项来查看默认的链接脚本,选项-r和-N可以影响默认的连接脚本;

(6)-T选项用以指定自己的链接脚本, 它将代替默认的连接脚本

2.基本的链接脚本概念

  • 链接器

把一个或多个输入文件合成一个输出文件.

  • 输入文件

目标文件或链接脚本文件.

  • 输出文件

目标文件或可执行文件

  • 目标文件(包括可执行文件)

具有固定的格式, 在UNIX或GNU/Linux平台下, 一般为ELF格式. 若想了解更多, 可参考 UNIX/Linux平台可执行文件格式分析

  • 输入section和输出section

有时把输入文件内的section称为输入section(input section), 把输出文件内的section称为输出section(output sectin)

  • section

目标文件的每个section至少包含两个信息: 名字和大小,大部分section还包含与它相关联的一块数据, 称为section contents(section内容)

  • loadable section

一个section可被标记为“loadable(可加载的),意思是输出文件运行时可以将section的内容加载到memory

  • allocatable

内容为空的section可被标记为alocatable“可分配的”. 在输出文件运行时, 在进程地址空间中空出大小同section指定大小的部分.

某些情况下, 这块内存必须被置零.
注:如果一个section不是“可加载的”或“可分配的”, 那么该section通常包含了调试信息. 可用objdump -h命令查看相关信息.

  • VMA和LMA

每个loadable或allocatable的输出section有两个地址。VMA和LMA

(1)VMA(virtual memory address): VMA是执行输出文件时section所在的地址

(2)LMA(Load Memory Address):LMA是加载输出文件时section所在的地址

(3)通常VMA和LMA是相同的

(4)两者不同的情况

 比如将输出文件加载到开发板的flash中(由LMA指定), 而在运行时将位于flash中的输出文件复制到SDRAM中(由VMA指定).

(5)可以使用objdump -h选项来查看VMA和LMA

(6)VMA和LMA举例1

 .data section对应的VMA地址是0×08050000, 该section内包含了3个32位全局变量, i、j和k, 分别为1,2,3.
 .text section内包含由”printf( “j=%d “, j );”程序片段产生的代码.
连接时指定.data section的VMA为0×08050000, 产生的printf指令是将地址为0×08050004处的4字节内容作为一个整数打印出来。
如果.data section的LMA为0×08050000,显然结果是j=2
如果.data section的LMA为0×08050004,显然结果是j=1

(7)VMA和LMA举例2

.text section内容的开始处包含如下两条指令(intel i386指令是10字节,每行对应5字节):
jmp 0×08048285
movl $0×1,%eax
如果.text section的LMA为0×08048280, 那么在进程地址空间内0×08048280处为“jmp 0×08048285”指令, 0×08048285处为movl $0×1,%eax指令.

假设某指令跳转到地址0×08048280, 显然它的执行将导致%eax寄存器被赋值为1.
如果.text section的LMA为0×08048285, 那么在进程地址空间内0×08048285处为“jmp 0×08048285”指令, 0×0804828a处为movl $0×1,%eax指令.

假设某指令跳转到地址0×08048285, 显然它的执行又跳转到进程地址空间内0×08048285处, 造成死循环.

  • 符号表

每个目标文件都有一系列符号,被称作符号表。一个符号可以被定义也可以没有定义

每个符号都有一个名字,被定义的符号都有一个地址,还包含一些其它信息

每个目标文件都有符号表(SYMBOL TABLE), 包含已定义的符号(对应全局变量和static变量和定义的函数的名字)和未定义符号(未定义的函数的名字和引用但没定义的符号)信息.

每个符号对应一个地址, 即符号值(这与c程序内变量的值不一样, 某种情况下可以把它看成变量的地址).可以使用nm命令或objdump -t来查看符号表

3. 链接脚本格式

(1)链接脚本是文本文件。

(2)链接脚本由一系列命令组成, 每个命令由一个关键字(一般在其后紧跟相关参数)或对符号的赋值语句组成.

(3)命令由分号‘;’分隔开.空格被忽略

(4)文件名或格式名可以直接输入,如果文件名内包含分号’,'或其他分隔符, 则要用引号‘”’将名字全称引用起来.

(5)不能在文件名里使用双引号

(5)/* */之间的是注释。

4. 简单的链接脚本举例

(1)很多链接脚本是很简单的。最简单的链接脚本只有一个命令:SECTIONS,使用SECTIONS命令来描述输出文件的内存布局。

(2)SECTIONS命令是一个很强大的命令,这里我们将描述它的一个简单应用。

(3)假设程序只包含了code,initialized data和uninitialized data,这些将分别放在.text   .data   .bss三个 sections,进一步假设你的程序中就包含如上这个几个sections

假定code加载地址为0x10000,数据的开始地址为0x8000000,如下是一个链接脚本:

SECTIONS
{
. = 0x10000;
.text : { *(.text) }
. = 0x8000000;
.data : { *(.data) }
.bss : { *(.bss) }
}

 对如上例子的解释:

(1)SECTIONS命令采用 'SECTIONS' 关键字,后跟一串符号定义和输出section描述,用"{}"包起来;

(2)上例SECTIONS命令的第一行,设置了特殊符号“.”的值,“.”称为定位符。

        注:[1]如果没有采用其它方式为输出section指定地址,则输出section的地址就是定位符的当前值

          [2]定位符随后会增加输出section的大小

          [3]在SECTIONS命令的开始定位符的值为0

(3)上例SECTIONS命令的第二行,定义了输出section .text,":"是必需的

      输出section名后的"{}"里列出了输入section,这些输入section会放到输出section,"*"表示所有输入文件名,*(.text)’ 表示所有输入文件的'.text'输入section

   .text’输出section被定义时,定位符是0x10000,链接器将在输出文件中将'.text'输出section的地址设为0x10000

(4)上例剩下的行定义了输出文件的.data section和.bss section

  链接器将把.data 输出section放在输出文件的0x8000000位置,之后定位符将被设置为 0x8000000+.data section的大小

       链接器将把.bss输出section放在输出文件的 0x8000000+.data section的大小 的位置

(5)链接器要保证每个输出section符合地址对齐,如果需要的话会增加定位符的值

       本例中.text section和.data section符合对齐要求,.bss section 可能为了对齐会增加定位符的值,因此.data section和.bss section之间会有一个gap

  5. 参考文献

[1] The GNU LInker.pdf

原文地址:https://www.cnblogs.com/smartjourneys/p/8195600.html