信息网络安全 ›› 2019, Vol. 19 ›› Issue (12): 72-78.doi: 10.3969/j.issn.1671-1122.2019.12.009

• 技术研究 • 上一篇    下一篇

基于特征提取的恶意软件行为及能力分析方法研究

冯胥睿瑞, 刘嘉勇(), 程芃森   

  1. 四川大学网络空间安全学院,四川成都 610065
  • 收稿日期:2019-08-10 出版日期:2019-12-10 发布日期:2020-05-11
  • 作者简介:

    作者简介:冯胥睿瑞(1996—),女,四川,硕士研究生,主要研究方向为网络数据分析与信息安全;刘嘉勇(1962—),男,四川,教授,博士,主要研究方向为网络信息安全、网络信息处理、大数据分析;程芃森(1988—),男,四川,博士研究生,主要研究方向为信息内容安全。

  • 基金资助:
    国家自然科学基金[61872254]

Analyzing Malware Behavior and Capability Related Text Based on Feature Extraction

Xuruirui FENG, Jiayong LIU(), Pengsen CHENG   

  1. College of Cybersecurity, Sichuan University, Chengdu Sichuan 610065, China
  • Received:2019-08-10 Online:2019-12-10 Published:2020-05-11

摘要:

为应对恶意软件对网络空间安全的威胁,安全厂商发布了大量恶意软件报告,其中蕴含着许多网络安全相关信息,如恶意软件的特征能力及其所采取的具体行为模式。通过对这些恶意软件报告进行分析获取相关信息,有助于研究人员全面了解恶意软件功能,实现有效防御。自动从报告中抽取与恶意软件能力及行为相关的文本的任务,存在报告数量庞大、文本结构松散、一词多义的问题。为此,文章提出基于Bert预训练模型获取特征向量的方法,以实现对多义词的消歧,通过BiLSTM和注意力机制进一步提取特征,训练分类器。利用MalwareTextDB数据集进行实验,召回率和F1值分别可达到85.56%和66.67%。与其他模型进行比较,该模型能够更高效地自动从恶意软件报告中提取与恶意软件行为特征及能力相关文本。

关键词: 恶意软件, 文本分类, BERT, BiLSTM, 注意力机制

Abstract:

In response to the threat of malware to cyberspace security, cybersecurity agencies have released a large number of malware reports, which contain many cybersecurity related information,such as the malware’s capabilities and the specific actions taken. By analyzing the malware reports and obtaining information, researchers can fully understand its functions and mount an effective defense. The task of automatically extract texts related to malware capabilities and behaviors from reports, facing the problems of a large number of reports, loose text structure, and polysemy. Based on the Bert pre-training model to disambiguate polysemy, input it into BiLSTM and attention mechanism network to further extract features and train the classifier. Experimented on the MalwareTextDB dataset, the recall rate and F1 value can be 85.56% and 66.67%. Compared to other methods, the model is able to extract texts related to malware behavior and capabilities from malware reports more automatically and efficiently.

Key words: malware, text classification, BERT, BiLSTM, attention mechanism

中图分类号: