2020-2021-1 20209309闫兆森《Linux内核原理与分析》第二周作业

正向生成

对应的C文件很简单，带上主函数只有三个函数：

int g(int x){
	return x+3;
} 

int f(int x){
	return g(x);
}

int main(void){
	return f(8)+1;
}

这个文件中并未用到其他函数只是单纯的函数调用，没有输入输出，所以不需要引入头文件。

生成汇编文件

在这里插入图片描述
得到一个.s结尾的汇编文件：

	.file	"main.c"
	.text
	.globl	g
	.type	g, @function
g:
.LFB0:
	.cfi_startproc
	pushl	%ebp
	.cfi_def_cfa_offset 8
	.cfi_offset 5, -8
	movl	%esp, %ebp
	.cfi_def_cfa_register 5
	movl	8(%ebp), %eax
	addl	$3, %eax
	popl	%ebp
	.cfi_restore 5
	.cfi_def_cfa 4, 4
	ret
	.cfi_endproc
.LFE0:
	.size	g, .-g
	.globl	f
	.type	f, @function
f:
.LFB1:
	.cfi_startproc
	pushl	%ebp
	.cfi_def_cfa_offset 8
	.cfi_offset 5, -8
	movl	%esp, %ebp
	.cfi_def_cfa_register 5
	pushl	8(%ebp)
	call	g
	addl	$4, %esp
	leave
	.cfi_restore 5
	.cfi_def_cfa 4, 4
	ret
	.cfi_endproc
.LFE1:
	.size	f, .-f
	.globl	main
	.type	main, @function
main:
.LFB2:
	.cfi_startproc
	pushl	%ebp
	.cfi_def_cfa_offset 8
	.cfi_offset 5, -8
	movl	%esp, %ebp
	.cfi_def_cfa_register 5
	pushl	$8
	call	f
	addl	$4, %esp
	addl	$1, %eax
	leave
	.cfi_restore 5
	.cfi_def_cfa 4, 4
	ret
	.cfi_endproc
.LFE2:
	.size	main, .-main
	.ident	"GCC: (Ubuntu 4.9.3-13ubuntu2) 4.9.3"
	.section	.note.GNU-stack,"",@progbits

按函数区分一下main函数：

int main(void){
	return f(8)+1;
}

对应为：

main:
	pushl	%ebp
	movl	%esp, %ebp
	pushl	$8
	call	f
	addl	$4, %esp
	addl	$1, %eax
	leave
	ret

f函数：

int f(int x){
	return g(x);
}

对应为：

f:
	pushl	%ebp
	movl	%esp, %ebp
	pushl	8(%ebp)
	call	g
	addl	$4, %esp
	leave
	ret

g函数：

int g(int x){
	return x+3;
}

对应为：

g:
	pushl	%ebp
	movl	%esp, %ebp
	movl	8(%ebp), %eax
	addl	$3, %eax
	popl	%ebp
	ret

这里删除了cfi指令，最后讨论；先看看共性所有的函数在前两步都做了ebp压栈，并将esp赋给ebp的操作，对应两个寄存器的用途ebp表明栈低(但是却在高位，栈是由高地址向下生长)，对应的esp指向栈顶(在地址低位)；于是可以得到这两个命令是为函数建立栈空间，而这个栈的形式是建立在调用该函数的函数的栈的顶部(地址的低位)。

再看传参的操作，从main函数开始，由于参数的形式是int，所以使用了pushl，也就是intel中的双字，对应为4个字节，之后main函数调用了f函数，对应又压栈了一个返回地址(4个字节对应，eip寄存器的长度)，到了f函数这里，其意图调用g函数，于是其需要将参数取出压入自己的栈中，对应之前的返回地址加参数的4字节一共是8字节，而自身栈底所对应的位置正是之前函数的栈顶，也就是返回地址的顶部，所以通过8(%ebp)对应intel中的[ebp+ 8]，即可获得对应的参数，之后其又将该参数压栈即完成传参，到函数g直接通过相似的方式movl 8(%ebp), %eax即intel的mov eax [ebp+ 8]，便可将参数取到eax中。

再之后就是各个函数的具体操作了，g函数就是直接加3，对应main函数得到返回值(eax)直接加1也很简单。

最后再看看函数的返回时的处理，这里的返回参数都很简单由eax直接返回即可，重点在于对函数栈的销毁，从栈顶往下先是g函数，实际过程中该函数的栈仅存储了一个先前函数的栈底，在重置ebp的值后，相当于栈是空的(栈顶指针等于栈底指针)，所以只要恢复(popl %ebp)即可进行返回。再到f函数的栈，其在过程中使用了一次传参，所以其栈还有一个参数，对应的将该参数抹去(addl $4, %esp)，之后进行leave即可，有趣的来了：
在这里插入图片描述
在实验楼平台中并没有这一步，而在我自己的虚拟机中就包含了这一步：

也许是gcc的版本问题吧，其实leave操作就包含了恢复原有函数的栈顶与栈底的操作，所以这里(addl $4, %esp)实际是多余的，除此之外，实验楼平台的栈似乎是栈底在低位，栈顶在高位，都差不多.......剩下一个main函数的回调实际也是差不多的，不再赘述。

cfi指令

.cfi_startproc
pushl	%ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl	%esp, %ebp
.cfi_def_cfa_register 5
movl	8(%ebp), %eax
addl	$3, %eax
popl	%ebp
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc

先不论其作用，仅看其在代码中的意义，.cfi_startproc与.cfi_endproc分别标注了函数的起始，显而易见。剩下的几个部分都在描述栈顶指针信息和一些偏置量。

这里涉及到了一个调用框架或者说是栈帧的概念，其描述的就是函数在调用时为于内存中的数据区域，该区域中包含了该函数运行所需的全部信息，而CFI的作用就是提供调用框架信息，来方便进行异常处理或者堆栈回绕。其实际的意义更像是一种注解。

先从.cfi_def_cfa_offset 8与.cfi_offset 5, -8看起，其在pushl %ebp指令之后，对应的函数栈中栈顶为旧的ebp，再往下为上次函数调用时压入的返回地址，其定义了一个名为CFA的位置(上一个函数栈的栈顶位置)其位于返回地址之下即.cfi_def_cfa_offset 8，而.cfi_offset 5, -8中的5对应为x86的8个通用寄存器(依次分别是: eax, ebx, ecx, edx, esp, ebp, esi, edi)中的第六个ebp，即说明原有的ebp存储在CFA-8的位置，也就是与pushl %ebp对应。

.cfi_def_cfa_register 5命令在movl %esp, %ebp之后，之前函数使用的是esp来描述栈顶，而在函数调用之后其使用的是ebp来用该函数的栈低描述上个函数的栈顶。

最后是.cfi_restore 5与.cfi_def_cfa 4, 4命令，其在popl %ebp之后，对应的ebp恢复为了原先旧值，对应的.cfi_restore 5就是指ebp，而在popl完成后，栈顶就是一个返回地址，所以使用栈顶esp加上4，也就是向下一个单位来描述旧函数的栈顶位置，即新的CFA位置。这里第一个4是指esp寄存器，第二个4是偏置值。

逆向分析

计算机真实处理的数据为二级制指令，即二进制文件，使用radare2这个软件可以实现简单的逆向分析。
首先是生成相应的二进制文件：
在这里插入图片描述
直接打开对应的二进制文件：

图中第二列的机器码就对应二进制文件中的内容，通过该软件可以得到其对应汇编指令，可以看出程序的运行还是需要在一定的系统环境中进行，在运行main函数之前系统还进行了许多其他的操作。比如下面那个sym.imp.__libc_start_main的函数。

进一步的进入main函数的入口：
在这里插入图片描述
其与汇编所产生的代码一致，只不过实际的二进制文件中使用的是第二列的机器码进行记录。(这里的汇编使用的是intel的格式，而不是AT&T的格式)。

再进一步进入f函数：
在这里插入图片描述
对应的也是与汇编一致，从指令的格式来看，其属于复杂指令集(CISC)，而非精简指令集(RISC)。相应的函数g：