当前位置:
X-MOL 学术
›
J. Netw. Comput. Appl.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
FCG-MFD: Benchmark function call graph-based dataset for malware family detection
Journal of Network and Computer Applications ( IF 7.7 ) Pub Date : 2024-11-07 , DOI: 10.1016/j.jnca.2024.104050 Hassan Jalil Hadi, Yue Cao, Sifan Li, Naveed Ahmad, Mohammed Ali Alshara
Journal of Network and Computer Applications ( IF 7.7 ) Pub Date : 2024-11-07 , DOI: 10.1016/j.jnca.2024.104050 Hassan Jalil Hadi, Yue Cao, Sifan Li, Naveed Ahmad, Mohammed Ali Alshara
Cyber crimes related to malware families are on the rise. This growth persists despite the prevalence of various antivirus software and approaches for malware detection and classification. Security experts have implemented Machine Learning (ML) techniques to identify these cyber-crimes. However, these approaches demand updated malware datasets for continuous improvements amid the evolving sophistication of malware strains. Thus, we present the FCG-MFD, a benchmark dataset with extensive Function Call Graphs (FCG) for malware family detection. This dataset guarantees resistance against emerging malware families by enabling security systems. Our dataset has two sub-datasets (FCG & Metadata) (1,00,000 samples) from VirusSamples, Virusshare, VirusSign, theZoo, Vx-underground, and MalwareBazaar curated using FCGs and metadata to optimize the efficacy of ML algorithms. We suggest a new malware analysis technique using FCGs and graph embedding networks, offering a solution to the complexity of feature engineering in ML-based malware analysis. Our approach to extracting semantic features via the Natural Language Processing (NLP) method is inspired by tasks involving sentences and words, respectively, for functions and instructions. We leverage a node2vec mechanism-based graph embedding network to generate malware embedding vectors. These vectors enable automated and efficient malware analysis by combining structural and semantic features. We use two datasets (FCG & Metadata) to assess FCG-MFD performance. F1-Scores of 99.14% and 99.28% are competitive with State-of-the-art (SOTA) methods.
中文翻译:
FCG-MFD:用于恶意软件系列检测的基于图形的基准函数调用数据集
与恶意软件系列相关的网络犯罪呈上升趋势。尽管各种防病毒软件以及用于恶意软件检测和分类的方法普遍存在,但这种增长仍然存在。安全专家已经实施了机器学习 (ML) 技术来识别这些网络犯罪。但是,这些方法需要更新的恶意软件数据集,以便在恶意软件菌株不断复杂的情况下不断改进。因此,我们提出了 FCG-MFD,这是一个基准数据集,具有用于恶意软件系列检测的广泛函数调用图 (FCG)。此数据集通过启用安全系统来保证对新出现的恶意软件家族的抵抗力。我们的数据集有两个子数据集(FCG和元数据)(1,00,000个样本)来自VirusSamples、Virusshare、VirusSign、theZoo、Vx-underground和MalwareBazaar,使用FCG和元数据进行策划,以优化ML算法的效果。我们建议使用 FCG 和图形嵌入网络的新恶意软件分析技术,为基于 ML 的恶意软件分析中特征工程的复杂性提供解决方案。我们通过自然语言处理 (NLP) 方法提取语义特征的方法受到分别涉及函数和指令的句子和单词的任务的启发。我们利用基于 node2vec 机制的图形嵌入网络来生成恶意软件嵌入向量。这些向量通过结合结构和语义特征来实现自动化和高效的恶意软件分析。我们使用两个数据集(FCG和元数据)来评估FCG-MFD的性能。99.14% 和 99.28% 的 F1 分数与最先进的 (SOTA) 方法相比具有竞争力。
更新日期:2024-11-07
中文翻译:
FCG-MFD:用于恶意软件系列检测的基于图形的基准函数调用数据集
与恶意软件系列相关的网络犯罪呈上升趋势。尽管各种防病毒软件以及用于恶意软件检测和分类的方法普遍存在,但这种增长仍然存在。安全专家已经实施了机器学习 (ML) 技术来识别这些网络犯罪。但是,这些方法需要更新的恶意软件数据集,以便在恶意软件菌株不断复杂的情况下不断改进。因此,我们提出了 FCG-MFD,这是一个基准数据集,具有用于恶意软件系列检测的广泛函数调用图 (FCG)。此数据集通过启用安全系统来保证对新出现的恶意软件家族的抵抗力。我们的数据集有两个子数据集(FCG和元数据)(1,00,000个样本)来自VirusSamples、Virusshare、VirusSign、theZoo、Vx-underground和MalwareBazaar,使用FCG和元数据进行策划,以优化ML算法的效果。我们建议使用 FCG 和图形嵌入网络的新恶意软件分析技术,为基于 ML 的恶意软件分析中特征工程的复杂性提供解决方案。我们通过自然语言处理 (NLP) 方法提取语义特征的方法受到分别涉及函数和指令的句子和单词的任务的启发。我们利用基于 node2vec 机制的图形嵌入网络来生成恶意软件嵌入向量。这些向量通过结合结构和语义特征来实现自动化和高效的恶意软件分析。我们使用两个数据集(FCG和元数据)来评估FCG-MFD的性能。99.14% 和 99.28% 的 F1 分数与最先进的 (SOTA) 方法相比具有竞争力。