Enhancing State-of-the-art Classifiers with API Semantics to Detect Evolved Android Malware论文阅读笔记

于这一周阅读了ccs2020最新论文Enhancing State-of-the-art Classifiers with API Semantics to Detect Evolved Android Malware，做了一些笔记。

Enhancing State-of-the-art Classifiers with API Semantics to Detect Evolved Android Malware (用 API 语义加强现有的分类器以检测不断改进的安卓恶意软件)

performance degrades 当 malware evolution

使用 online learning, retraining, active learning 等技术需要大量新的恶意软件标记并消耗大量人力资源

提出 APIGraph (a framwork)

使用 API 语义的相似性，即为（similarity information among evolved Android Malware）来减缓 performance degrades

similarity information: 语义上等价或类似的API使用

找到不同实现上的语义的相似性 (semantic similarity despite the different implementation)

建立一个 relation graph:

随后从图中提取出 API 语义 (将每个 API entity 转变为一个 embedding)，并将类似语义的进行分组为 API clusters (APIGraph 的 result)

使用指标 AUT (area under time) (在 TESSERACT 中提出：TESSERACT 使用 active learning 选择一小部分具有代表性的改进的安卓恶意软件)

作用： 1. 减少了人工标记所需要的劳动量

2.减缓了模型老化，即 performance degrades

将 APIGraph 应用于四个安卓恶意软件检测器上并进行测试，分别为 MAMADROID, DROIDEVOLVER (通过 online learning 持续引入新的恶意软件样本), BREBIN, DREBIN-DL

分为两部分：

建立 API Relation Graph: collecting Android API Documents related to a certain API level 并提取 entities 和 relations
使用 API Relation Graph 去加强现有的恶意软件检测技术
- 将所有 entities 转换为 vector (使用 graph embedding algorithm),
- 两个 entities 之间的 vector difference in the embedding space 即为两个 entities 之间的语义
- 使用优化使两个有相同关系的 entities 的 vector 变为类似的 (similar)
- 聚类语义类似的 APIs 生成 clusters

G = < E, R> (entities, relations)

entity types: method, class, package, permission

relation types: ten types

使用 API reference document (有明显的分层结构)

从 API 文件中提取 entity，API 文件以 class 为分类 (organized in class)

1.从每个 per-class document file 提取 class entity

2.从完整 class name 中拆分出 package name (i.e. package entity)

3.phase per-class document files 为 Document Object Model (DOM) 并从中抽取属于某一个 class 的 method entity

4.phase the manifest file 中的所有 permissions 并从中抽取 permission entity

将图中的 API 转换为 embedding representation (即 vector), 并将这些 embeddings 分类为 clusters

使用 TransE 进行转换

首先提取出 permission entity, 并且添加基于 permission 的新的 relation
将图中分实体 e 和关联 r 分别用向量 Le和 Lr表示
使用 TransE 算法对每个三元组 (h,r,t)最小化 ({||Lh + Lr - Lt||}^2_{2}) (h,t 为 entities, r 为 relation)

使用 K-Means 算法将 embeddings 分组，使用每个 cluster 中心的 embedding 来表示这个 cluster，并用 Elbow 算法决定 cluster 的数目

对于这四种 classifier, 将其中的 API feature format 替换为 cluster 进行改进