信息网络安全 ›› 2020, Vol. 20 ›› Issue (2): 66-74.doi: 10.3969/j.issn.1671-1122.2020.02.009
收稿日期:
2019-10-10
出版日期:
2020-02-10
发布日期:
2020-05-11
作者简介:
作者简介:张浩(1981—),男,安徽,副教授,博士,主要研究方向为信息安全、数据分析、计算智能算法和启发式算法等;陈龙(1997—),男,湖北,硕士研究生,主要研究方向为网络安全、大数据分析;魏志强(1994—),男,福建,硕士研究生,主要研究方向为网络安全、机器学习。
基金资助:
ZHANG Hao1,2(), CHEN Long1,2, WEI Zhiqiang1,2
Received:
2019-10-10
Online:
2020-02-10
Published:
2020-05-11
摘要:
网络攻击手段层出不穷,使得数据样本不断变化,导致异常检测精度低。传统网络异常流量检测方法通过规则匹配进行检测,该方法检测手段较简单,很难适应复杂灵活的大规模网络环境。为此,文章提出一种基于数据增强和模型更新的异常流量检测技术。为解决数据不平衡问题,文章引入SMOTE算法进行少数类样本的过采样,并结合ENN算法剔除噪音数据。通过随机森林算法提取样本特征的重要性,并在改进的KNN算法中以特征重要性作为距离度量实现模型更新。最后,采用带有分类特性的CatBoost分类算法对网络流量数据进行分类。该模型在模型迭代更新过程中,对异常流量的检测效果较好,与HCPTC-IDS等方法比较,检测精度和误报率都有所提升。利用KDD 99数据集进行实验的结果表明,该模型的多分类检测精度高达96.52%,并且误报率仅为0.92%。
中图分类号:
张浩, 陈龙, 魏志强. 基于数据增强和模型更新的异常流量检测技术[J]. 信息网络安全, 2020, 20(2): 66-74.
ZHANG Hao, CHEN Long, WEI Zhiqiang. Abnormal Traffic Detection Technology Based on Data Augmentation and Model Update[J]. Netinfo Security, 2020, 20(2): 66-74.
表3
特征重要性前20的大小
特征 | 重要性 | 特征 | 重要性 |
---|---|---|---|
dst_host_srv_count | 0.1026 | diff_srv_rate | 0.0349 |
dst_bytes | 0.0905 | dst_host_same_srv_rate | 0.0321 |
service | 0.0828 | dst_host_count | 0.0303 |
logged_in | 0.0750 | flag | 0.0284 |
dst_host_diff_srv_rate | 0.0555 | protocol_type | 0.0271 |
count | 0.0526 | num_compromised | 0.0269 |
srv_count | 0.0483 | num_file_creations | 0.0265 |
serror_rate | 0.0475 | dst_host_srv_diff_host_rate | 0.0238 |
dst_host_same_src_port_rate | 0.0399 | hot | 0.0220 |
same_srv_rate | 0.0361 | duration | 0.0181 |
表6
Cat-SE-KNN与其他模型分类比较(%)
模型 | TNR_Normal | DR_DoS | DR_Probe | DR_R2L | DR_U2R |
---|---|---|---|---|---|
SVM | 98.95 | 97.10 | 74.84 | 9.69 | 8.77 |
RIPPER[ | 98.13 | 97.42 | 80.17 | 7.00 | 10.53 |
DT | 99.10 | 97.42 | 85.50 | 10.77 | 4.82 |
MLP[ | 98.13 | 97.42 | 80.17 | 7.00 | 10.53 |
HCPTC-IDS[ | 98.87 | 99.83 | 95.27 | 36.50 | 81.14 |
CatBoost | 99.26 | 95.27 | 66.90 | 27.60 | 14.42 |
Cat-SmoteEnn | 99.46 | 95.73 | 79.65 | 34.52 | 14.86 |
Cat-SE-KNN | 99.62 | 98.87 | 95.42 | 55.76 | 78.93 |
[1] | Network Security Law of the People’s Republic of China[EB/OL]. , 2016-11-7. |
中华人民共和国网络安全法[EB/OL]. , 2016- 11-7. | |
[2] | BELOUCH M, EL S, IDHAMMAD M.A Two-Stage Classifier Approach Using RepTree Algorithm for Network Intrusion Detection[J]. International Journal of Advanced Computer Science and Applications, 2017, 8(6): 137-142. |
[3] | JIA Fan, YAN Yan, ZHANG Jiaqi.k-means Based Feature Reduction for Network Anomaly Detection[J]. Journal of Tsinghua University(Science and Technology), 2018, 58(2): 137-142. |
贾凡,严妍,张家琪.基于k-means聚类特征消减的网络异常检测[J]. 清华大学学报(自然科学版),2018,58(2):137-142. | |
[4] | ASHFAQ R A R, WANG Xizhao, HUANG Zhexue, et al. Fuzziness Based Semi-Supervised Learning Approach for Intrusion Detection System[J]. Information Sciences, 2016, 378(C): 484-497. |
[5] | AHMIM A, DERDOUR M, FERRAG M A.An Intrusion Detection System Based on Combining Probability Predictions of a Tree of Classifiers[J]. International Journal of Communication Systems, 2018, 31(9): e3547. |
[6] | YANG Xudong, GAO Ling, WANG Hai, et al.A Cooperative Deep Belief Network for Intrusion Detection[C]//IEEE. 2018 Sixth International Conference on Advanced Cloud and Big Data, August 12-15, Lanzhou, China. New York: IEEE, 2018: 230-236. |
[7] | GREGGIO N.Anomaly Detection in IDSs by Means of Unsupervised Greedy Learning of Finite Mixture Models[J]. Soft Computing, 2018, 22(10): 3357-3372. |
[8] | CHAWLA N V, BOWYER K W, HALL L O, et al.SMOTE: Synthetic Minority Over-Sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357. |
[9] | WILSON D L. Asymptotic Properties of Nearest Neighbor Rules Using Edited Data[J]. IEEE Transactions on Systems, Man and Cybernetics, 1972, SMC-2(3): 408-421. |
[10] | BREIMAN L.Random Forests[J]. Machine Learning, 2001, 45(1): 5-32. |
[11] | SYLVESTER E V A, BENTZEN P, BRADBURY I R, et al. Applications of Random Forest Feature Selection for Fine-Scale Genetic Population Assignment[J]. Evolutionary Applications, 2018, 11(2): 153-165. |
[12] | PROKHORENKOVA L, GUSEV G, VOROBEV A, et al.CatBoost: Unbiased Boosting with Categorical Features[J]. Advances in Neural Information Processing Systems, 2018, 31(3): 6638-6648. |
[13] | HART P E.The Condensed Nearest Neighbor Rule[J]. IEEE Transactions on Information Theory, 1968, 14(3): 515-516. |
[14] | COHEN W W.Fast Effective Rule Induction[C]//ACM. Proceedings of the Twelfth International Conference on Machine Learning Machine Learning, July 9-12, 1995, Tahoe City, California. New York: ELSEVISER, 1995: 115-123. |
[15] | JORDAN M I, BISHOP C.Neural Networks[J]. ACM Computing Surveys, 1996, 28(1): 73-75. |
[1] | 周枝凝, 王斌君, 翟一鸣, 仝鑫. 基于ALBERT动态词向量的垃圾邮件过滤模型[J]. 信息网络安全, 2020, 20(9): 107-111. |
[2] | 沈金伟, 赵一, 梁春林, 张萍. 基于循环分组的RFID群组标签所有权转移协议[J]. 信息网络安全, 2020, 20(9): 102-106. |
[3] | 夏天雨, 顾益军. 一种基于改进DynamicTriad模型的动态链路预测方法[J]. 信息网络安全, 2020, 20(9): 97-101. |
[4] | 王湘懿, 张健. 基于图像和机器学习的虚拟化平台异常检测[J]. 信息网络安全, 2020, 20(9): 92-96. |
[5] | 李世斌, 李婧, 唐刚, 李艺. 基于HMM的工业控制系统网络安全状态预测与风险评估方法[J]. 信息网络安全, 2020, 20(9): 57-61. |
[6] | 徐瑜, 周游, 林璐, 张聪. 无监督机器学习在游戏反欺诈领域的应用研究[J]. 信息网络安全, 2020, 20(9): 32-36. |
[7] | 毋泽南, 田立勤, 陈楠. 基于随机Petri网的系统安全性量化分析研究[J]. 信息网络安全, 2020, 20(9): 27-31. |
[8] | 仝鑫, 王罗娜, 王润正, 王靖亚. 面向中文文本分类的词级对抗样本生成方法[J]. 信息网络安全, 2020, 20(9): 12-16. |
[9] | 吴警, 芦天亮, 杜彦辉. 基于Char-RNN改进模型的恶意域名训练数据生成技术[J]. 信息网络安全, 2020, 20(9): 6-11. |
[10] | 余小军, 吴亚飚, 张玉清. 云安全体系结构设计研究[J]. 信息网络安全, 2020, 20(9): 62-66. |
[11] | 刘文懋, 尤扬. 5G新型基础设施的安全防护思路和技术转换[J]. 信息网络安全, 2020, 20(9): 67-71. |
[12] | 毕亲波, 赵呈东. 基于STRIDE-LM的5G网络安全威胁建模研究与应用[J]. 信息网络安全, 2020, 20(9): 72-76. |
[13] | 余果, 王冲华, 陈雪鸿, 李俊. 认证视角下的工业互联网标识解析安全[J]. 信息网络安全, 2020, 20(9): 77-81. |
[14] | 刘红, 谢永恒, 王国威, 蒋帅. 基于跨领域本体的信息安全分析[J]. 信息网络安全, 2020, 20(9): 82-86. |
[15] | 王文华, 郝新, 刘焱, 王洋. AI系统的安全测评和防御加固方案[J]. 信息网络安全, 2020, 20(9): 87-91. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||