信息网络安全 ›› 2024, Vol. 24 ›› Issue (7): 1076-1087.doi: 10.3969/j.issn.1671-1122.2024.07.009

• 理论研究 • 上一篇    下一篇

基于预训练模型和中英文威胁情报的TTP识别方法研究

任昌禹1, 张玲2, 姬航远1, 杨立群3()   

  1. 1.北京航空航天大学复杂关键软件环境全国重点实验室,北京 100083
    2.郑州大学电气与信息工程学院,郑州 450001
    3.北京航空航天大学网络空间安全学院,北京 100083
  • 收稿日期:2024-04-03 出版日期:2024-07-10 发布日期:2024-08-02
  • 通讯作者: 杨立群 lqyang@buaa.edu.cn
  • 作者简介:任昌禹(2000—),男,山西,硕士研究生,主要研究方向为信息抽取、大语言模型|张玲(1976—),女,安徽,副教授,博士,主要研究方向为数据挖掘|姬航远(1996—),男,河南,硕士研究生,主要研究方向为大语言模型、网络信息安全|杨立群(1990—),男,河北,讲师,博士,主要研究方向为网络信息安全、工业互联网、数字孪生和人工智能。
  • 基金资助:
    国家自然科学基金(U2333205);国家自然科学基金(62302025);国家自然科学基金(62276017);2022年度CCF-绿盟科技鲲鹏科研基金及上海可信工控平台开放项目(CCF-NSFOCUS202210)

Research on TTP Extraction Method Based on Pre-Trained Language Model and Chinese-English Threat Intelligence

REN Changyu1, ZHANG Ling2, JI Hangyuan1, YANG Liqun3()   

  1. 1. State Key Laboratory of Complex & Critical Software Environment, Beihang University, Beijing 100083, China
    2. School of Electrical Engineering, Zhengzhou University, Zhengzhou 450001, China
    3. School of Cyber Science and Technology, Beihang University, Beijing 100083, China
  • Received:2024-04-03 Online:2024-07-10 Published:2024-08-02

摘要:

TTP情报主要存在于非结构化的威胁报告中,是一种具有重要价值的网络威胁情报。然而,目前开源的TTP分类标签数据集主要集中在英文领域,涵盖的语料来源与TTP种类较为有限,特别是缺乏中文领域的相关数据。针对该情况,文章构建了一个中英文TTP情报数据集BTICD,该数据集包含17700条样本数据与236种对应的TTP。BTICD首次利用了公开的中文威胁报告语料进行TTP标注,且标注了一部分无法映射到任何一种TTP的白样本数据。文章基于预训练模型构建,并在该双语数据集上微调得到双语TTP识别模型SecBiBERT。实验结果表明,SecBiBERT在50种常见TTP分类任务上的Micro F1分数达到86.49%,在全量236类TTP分类任务上Micro F1分数达到73.09%,识别性能表现良好。

关键词: TTP, 威胁情报, 预训练模型

Abstract:

The tactics, techniques, and procedures (TTP) intelligence primarily resides in unstructured threat reports and serves as a valuable source of cyber threat intelligence. However, the existing open-source TTP classification label datasets are predominantly focused on the English domain, with limited coverage of source materials and TTP types, particularly lacking relevant data in the Chinese domain. To address this issue, this paper constructed a bilingual TTP intelligence dataset, bilingual threat intelligence classifying dataset (BTICD), which included 17700 samples and 236 corresponding TTPs. BTICD was the first to utilize publicly available Chinese threat report as corpora for TTP annotation and also annotated a portion of white-box samples that cannot be mapped to any TTP. This paper introduced and fine-tuned pre-trained models on the bilingual dataset to obtain a bilingual TTP identification model SecBiBERT. Experimental results show that SecBiBERT achieves a Micro F1 score of 86.49% on the 50 common TTP classification tasks and a Micro F1 score of 73.09% on the full set of 236 TTP classification tasks, which outperforms existing similar models.

Key words: TTP, threat intelligence, pre-trained language model

中图分类号: