2020-2021-1 20209309闫兆森 《Linux内核原理与分析》第二周作业

正向生成

对应的C文件很简单,带上主函数只有三个函数:

int g(int x){
	return x+3;
} 

int f(int x){
	return g(x);
}

int main(void){
	return f(8)+1;
}

这个文件中并未用到其他函数只是单纯的函数调用,没有输入输出,所以不需要引入头文件。

生成汇编文件

在这里插入图片描述
得到一个.s结尾的汇编文件:

	.file	"main.c"
	.text
	.globl	g
	.type	g, @function
g:
.LFB0:
	.cfi_startproc
	pushl	%ebp
	.cfi_def_cfa_offset 8
	.cfi_offset 5, -8
	movl	%esp, %ebp
	.cfi_def_cfa_register 5
	movl	8(%ebp), %eax
	addl	$3, %eax
	popl	%ebp
	.cfi_restore 5
	.cfi_def_cfa 4, 4
	ret
	.cfi_endproc
.LFE0:
	.size	g, .-g
	.globl	f
	.type	f, @function
f:
.LFB1:
	.cfi_startproc
	pushl	%ebp
	.cfi_def_cfa_offset 8
	.cfi_offset 5, -8
	movl	%esp, %ebp
	.cfi_def_cfa_register 5
	pushl	8(%ebp)
	call	g
	addl	$4, %esp
	leave
	.cfi_restore 5
	.cfi_def_cfa 4, 4
	ret
	.cfi_endproc
.LFE1:
	.size	f, .-f
	.globl	main
	.type	main, @function
main:
.LFB2:
	.cfi_startproc
	pushl	%ebp
	.cfi_def_cfa_offset 8
	.cfi_offset 5, -8
	movl	%esp, %ebp
	.cfi_def_cfa_register 5
	pushl	$8
	call	f
	addl	$4, %esp
	addl	$1, %eax
	leave
	.cfi_restore 5
	.cfi_def_cfa 4, 4
	ret
	.cfi_endproc
.LFE2:
	.size	main, .-main
	.ident	"GCC: (Ubuntu 4.9.3-13ubuntu2) 4.9.3"
	.section	.note.GNU-stack,"",@progbits

按函数区分一下main函数:

int main(void){
	return f(8)+1;
}

对应为:

main:
	pushl	%ebp
	movl	%esp, %ebp
	pushl	$8
	call	f
	addl	$4, %esp
	addl	$1, %eax
	leave
	ret

f函数:

int f(int x){
	return g(x);
}

对应为:

f:
	pushl	%ebp
	movl	%esp, %ebp
	pushl	8(%ebp)
	call	g
	addl	$4, %esp
	leave
	ret

g函数:

int g(int x){
	return x+3;
} 

对应为:

g:
	pushl	%ebp
	movl	%esp, %ebp
	movl	8(%ebp), %eax
	addl	$3, %eax
	popl	%ebp
	ret

这里删除了cfi指令,最后讨论;先看看共性所有的函数在前两步都做了ebp压栈,并将esp赋给ebp的操作,对应两个寄存器的用途ebp表明栈低(但是却在高位,栈是由高地址向下生长),对应的esp指向栈顶(在地址低位);于是可以得到这两个命令是为函数建立栈空间,而这个栈的形式是建立在调用该函数的函数的栈的顶部(地址的低位)。

再看传参的操作,从main函数开始,由于参数的形式是int,所以使用了pushl,也就是intel中的双字,对应为4个字节,之后main函数调用了f函数,对应又压栈了一个返回地址(4个字节对应,eip寄存器的长度),到了f函数这里,其意图调用g函数,于是其需要将参数取出压入自己的栈中,对应之前的返回地址加参数的4字节一共是8字节,而自身栈底所对应的位置正是之前函数的栈顶,也就是返回地址的顶部,所以通过8(%ebp)对应intel中的[ebp+ 8],即可获得对应的参数,之后其又将该参数压栈即完成传参,到函数g直接通过相似的方式movl 8(%ebp), %eax即intel的mov eax [ebp+ 8],便可将参数取到eax中。

再之后就是各个函数的具体操作了,g函数就是直接加3,对应main函数得到返回值(eax)直接加1也很简单。

最后再看看函数的返回时的处理,这里的返回参数都很简单由eax直接返回即可,重点在于对函数栈的销毁,从栈顶往下先是g函数,实际过程中该函数的栈仅存储了一个先前函数的栈底,在重置ebp的值后,相当于栈是空的(栈顶指针等于栈底指针),所以只要恢复(popl %ebp)即可进行返回。再到f函数的栈,其在过程中使用了一次传参,所以其栈还有一个参数,对应的将该参数抹去(addl $4, %esp),之后进行leave即可,有趣的来了:
在这里插入图片描述
在实验楼平台中并没有这一步,而在我自己的虚拟机中就包含了这一步:
在这里插入图片描述
也许是gcc的版本问题吧,其实leave操作就包含了恢复原有函数的栈顶与栈底的操作,所以这里(addl $4, %esp)实际是多余的,除此之外,实验楼平台的栈似乎是栈底在低位,栈顶在高位,都差不多.......剩下一个main函数的回调实际也是差不多的,不再赘述。

cfi指令

.cfi_startproc
pushl	%ebp
.cfi_def_cfa_offset 8
.cfi_offset 5, -8
movl	%esp, %ebp
.cfi_def_cfa_register 5
movl	8(%ebp), %eax
addl	$3, %eax
popl	%ebp
.cfi_restore 5
.cfi_def_cfa 4, 4
ret
.cfi_endproc

先不论其作用,仅看其在代码中的意义,.cfi_startproc与.cfi_endproc分别标注了函数的起始,显而易见。剩下的几个部分都在描述栈顶指针信息和一些偏置量。

这里涉及到了一个调用框架或者说是栈帧的概念,其描述的就是函数在调用时为于内存中的数据区域,该区域中包含了该函数运行所需的全部信息,而CFI的作用就是提供调用框架信息,来方便进行异常处理或者堆栈回绕。其实际的意义更像是一种注解。

先从.cfi_def_cfa_offset 8与.cfi_offset 5, -8看起,其在pushl %ebp指令之后,对应的函数栈中栈顶为旧的ebp,再往下为上次函数调用时压入的返回地址,其定义了一个名为CFA的位置(上一个函数栈的栈顶位置)其位于返回地址之下即.cfi_def_cfa_offset 8,而.cfi_offset 5, -8中的5对应为x86的8个通用寄存器(依次分别是: eax, ebx, ecx, edx, esp, ebp, esi, edi)中的第六个ebp,即说明原有的ebp存储在CFA-8的位置,也就是与pushl %ebp对应。

.cfi_def_cfa_register 5命令在movl %esp, %ebp之后,之前函数使用的是esp来描述栈顶,而在函数调用之后其使用的是ebp来用该函数的栈低描述上个函数的栈顶。

最后是.cfi_restore 5与.cfi_def_cfa 4, 4命令,其在popl %ebp之后,对应的ebp恢复为了原先旧值,对应的.cfi_restore 5就是指ebp,而在popl完成后,栈顶就是一个返回地址,所以使用栈顶esp加上4,也就是向下一个单位来描述旧函数的栈顶位置,即新的CFA位置。这里第一个4是指esp寄存器,第二个4是偏置值。

逆向分析

计算机真实处理的数据为二级制指令,即二进制文件,使用radare2这个软件可以实现简单的逆向分析。
首先是生成相应的二进制文件:
在这里插入图片描述
直接打开对应的二进制文件:
在这里插入图片描述
图中第二列的机器码就对应二进制文件中的内容,通过该软件可以得到其对应汇编指令,可以看出程序的运行还是需要在一定的系统环境中进行,在运行main函数之前系统还进行了许多其他的操作。比如下面那个sym.imp.__libc_start_main的函数。

进一步的进入main函数的入口:
在这里插入图片描述
其与汇编所产生的代码一致,只不过实际的二进制文件中使用的是第二列的机器码进行记录。(这里的汇编使用的是intel的格式,而不是AT&T的格式)。

再进一步进入f函数:
在这里插入图片描述
对应的也是与汇编一致,从指令的格式来看,其属于复杂指令集(CISC),而非精简指令集(RISC)。相应的函数g:
在这里插入图片描述

原文地址:https://www.cnblogs.com/yanzs/p/13836140.html