Proj THUDBFuzz Paper Reading: Order Matters: Semantic Aware Neural Networks for Binary Code Similarity Detection

Abstract

Task: Binary code similarity detection
传统: graph matching algo
- 缺点： slow & inaccurate
新法（本文所属）: control-flow graph + （人工）筛选的特征 + GNN-> graph embedding
本文:
1. semantic-aware neural network
2. BERT预训练: 1个token-level, 1个block-level，2个graph level
3. 认为CFG节点的顺序信息很重要，因此在邻接矩阵上使用CNN学习以获取order特征
实验:
- 数据: 2tasks + 4 datasets
- outperforms

现有NN方法

在两个用来比较的输入上使用相同的权重一起计算从而得到相似性度量的方法。
一般先算其中一个输出向量，得到baseline，然后再获取另一个输出向量并得到相似度度量
有点类似局部敏感hash
常用于object tracking这一类需要在大量候选中寻找相似结果的task

局限:

每个基本块都被表达是low-dimensional embedding，会导致语义信息损失？
没能考虑到节点顺序信息
- 认为相同功能的cfg其实block顺序改变是比较小的
- "当在不同平台上编译相同功能时，节点顺序通常不会发生太大变化。大多数节点顺序更改是添加节点，删除节点或交换多个节点"

本文工作：

获取graph semantic & structual embedding (g_{ss}) 和 order embedding (g_o), 接到一起用MLP层获取最终graph embedding

实际上：((Xu et al. 2018) has proved that sum function is the best choice for readout function R)

两个任务:

模型参数，训练参数，Evaluation metrics：Task1(Rank1, MRR(ean reciprocal rank) Task2(accuracy)

居然只与Gemini比？

Q: 不知道这个dataset statistics到底指什么，basic blocks？但是程序数目过少不就很快过拟合？