idapython让生活变得更美好：第五部分

原文链接：

http://researchcenter.paloaltonetworks.com/2016/01/using-idapython-to-make-your-life-easier-part-5/

我们继续IDAPython让生活更美好序列，这一部分我们解决逆向工程师日常遇到的问题：提取执行的内嵌代码。恶意软件会用各种方式存储内嵌可执行代码。有些恶意软件将内嵌代码加到文件附加段，包括PE资源区段，或者存放在恶意软件的缓冲区中。

当遇到这个情况，恶意软件分析者可以有几个选择。可以动态运行样本在写入和提取的后面下断点。或者，如果文件存储在资源段，可以使用一些工具比如CFFExplorer 提取资源数据。在IDA中可以高亮选取可疑的二进制数据，然后右键保存想要的提取的数据。

虽然这几个方法都可以行，但是都有一些限制。自动化提取内嵌代码可以节省分析者大量的时间。为了实现这个目的，我们会用到IDAPython的第三方链接库组件'pefile'。这个特殊的添加会带来一些挑战：

我们必须在IDA环境中用PIP安装第三方python链接库
已经标识出了内嵌代码
需要计算要提取的可执行代码的大小

让我们一次性的解决这些问题吧。

在IDA PRO中加入第三方PYTHON链接库

在IDA中用PIP安装第三方python链接库之后，如何让其生效是一个有趣的挑战。如果不修改的话是没有办法加载第三方链接库的，比如pefile中IDAPython解释中会出现如下错误。

为了修正这个错误，我们必须将PIP的'site-packages'目录加到PYTHON的环境变量中。可以使用如下代码实现：

为了包含PIP安装链接库，我们可以简单的将'site-packages'目录加到pefile包含声明数组中。但是这个方案不太好，因为这需要分析者人工识别'site-packages'目录，但是我没要找到跨平台的解决方案（如果你找到了，请在我的推特下评论 tweet@jgrunzweig）。加入相关代码之后，我们就能够加载pefile链接库了。

需要内嵌代码

为了找到恶意软件包含的所有内嵌代码，我们基于MZ头的已知字符串对二进制进行搜索。分析者请确认已经勾选了'Load resources'选项这样才能够读取到作为资源存储的所有数据。另外的，如果内嵌文件包含在附加段中，为了在IDA中能够看到数据一定要勾选'Manual load'选项。

现在我们已经有了IDA中加载的必要信息了，现在我们可以开始在PE32文件中搜索数据了。我们有好几种方法可以实现，但我选择搜索所有MZ头中都会包含的静态信息，如下所示：

为了找到IDA中所有的字符串事件，我们可以使用循环调用FindBinary()函数来寻找二进制字符串的每一次实例。代码如下：

当在PE32文件中寻找MZ头字符串标识时，我们需要验证'MZ'字符存在于MZ头的开始处。由于我们之前找的字符串在静态偏移是固定的，我们只需要简单的确定'MZ'的已知偏移。

将上面的代码组合到一起，来找到IDA中所有的内嵌代码。

确定可执行代码的大小

为了确定找到的内嵌代码的大小，我们将使用前面提到的python第三方pefile链接库。这个链接库可以解析各种可执行文件头，这样我们就能够计算PE文件的大小了。为了实现这个目的，我们会在可选头中加入'SizeOfHeaders'参数，连同每个段的'SizeOfRawData'字段。下面的代码会读出标识出的内嵌代码的前1024字节，用pefile解析这些数据，计算各个段的大小。

最后，我们可以使用这些大小值来提取可执行代码数据然后写入我们选择的文件中。

结论

将这些组合到一起，我们将会得到下面的脚本。

https://github.com/pan-unit42/public_tools/blob/master/ida_scripts/idapython_pt5.py

在恶意样本中运行这个例子，将会得到下面的结果：

正如我们看到的，我们能够在IDA中自动提取PE文件了。通过一些小修改，这个实现能够应用到其他类型的文件中。我希望这个教程能够让逆向工程师知道IDAPython能够实现很多难以置信的功能。