信息网络安全 ›› 2022, Vol. 22 ›› Issue (10): 121-128.doi: 10.3969/j.issn.1671-1122.2022.10.017
收稿日期:
2022-07-21
出版日期:
2022-10-10
发布日期:
2022-11-15
通讯作者:
李欣
E-mail:lixin@ppsuc.edu.cn
作者简介:
胡勉宁(2000—),男,四川,硕士研究生,主要研究方向为自然语言处理、开源情报|李欣(1977—),男,江西,副教授,博士,主要研究方向为云计算、网络安全|李明锋(2003—),男,四川,本科,主要研究方向为自然语言处理|孙海春(1985—),女,山东,副教授,博士,主要研究方向为自然语言处理、知识图谱
基金资助:
HU Mianning1, LI Xin1,2(), LI Mingfeng1, SUN Haichun1
Received:
2022-07-21
Online:
2022-10-10
Published:
2022-11-15
Contact:
LI Xin
E-mail:lixin@ppsuc.edu.cn
摘要:
针对诈骗短信息识别模型对新型诈骗短信息识别率低的模型鲁棒性问题,文章提出了一种文本生成和深度合成的数据融合增强技术的模型训练方法。借助统计分析发现新型诈骗短信息异于普通诈骗短信息的内容和结构特点,文章分别使用文本生成、深度合成和两者融合技术等数据增强方式来增强原生诈骗短信息训练集,同时在CNN、LSTM、GRU等多个模型中对新型诈骗短信息和原生诈骗短信息进行对比实验,进一步验证模型性能的优化程度。实验结果表明,使用数据融合增强技术后,模型对新型诈骗短信息的识别率由73.4%提升到98.4%,F1值由0.64提升到0.98,诈骗短信息识别模型的整体性能得到了提升。
中图分类号:
胡勉宁, 李欣, 李明锋, 孙海春. 面向诈骗短信息识别的融合多策略数据增强技术研究[J]. 信息网络安全, 2022, 22(10): 121-128.
HU Mianning, LI Xin, LI Mingfeng, SUN Haichun. Research on Multi-Strategy Data Enhancement Technology for Fraud Short Message Identification[J]. Netinfo Security, 2022, 22(10): 121-128.
表2
基于CwordAttacker算法的诈骗短信息生成对抗样本示例
攻击策略 | 样本类型 | 样本内容 |
---|---|---|
繁体字替换 | 原始样本 | 尊敬的客户您好,您刚刚申请的贷款初步审核已经通过,请您添加微信客服办理手续 |
对抗样本 | 尊敬的客戶您好,您刚刚申请的貸款初步审核已经通过,请您添加微信客服办理手续 | |
拼音改写 | 原始样本 | 尊敬的客户您好,您刚刚申请的贷款初步审核已经通过,请您添加微信客服办理手续 |
对抗样本 | 尊敬的KeHu您好,您刚刚申请的DaiKuan初步审核已经通过,请您添加微信客服办理手续 | |
词组拆解 | 原始样本 | 尊敬的客户您好,您刚刚申请的贷款初步审核已经通过,请您添加微信客服办理手续 |
对抗样本 | 尊敬的客。户您好,您刚刚申请的贷#款初步审核已经通过,请您添加微信客服办理手续 | |
词序扰动 | 原始样本 | 尊敬的客户您好,您刚刚申请的贷款初步审核已经通过,请您添加微信客服办理手续 |
对抗样本 | 尊敬的户客您好,您刚刚申请的款贷初步审核已经通过,请您添加微信客服办理手续 |
[1] | MA Zhonghong. Research on the Difficulties and Countermeasures of New Network Crime Investigation Represented by Telecommunication Fraud Based on the Investigation of W Province[J]. Journal of People's Public Security University of China (Social Sciences Edition), 2018, 34(3): 78-86. |
马忠红. 以电信诈骗为代表的新型网络犯罪侦查难点及对策研究——基于W省的调研情况[J]. 中国人民公安大学学报(社会科学版), 2018, 34(3): 78-86. | |
[2] | JOO J W, MOON S Y, SINGH S, et al. S-Detector: An Enhanced Security Model for Detecting Smishing Attack for Mobile Computing[J]. Telecommunication Systems, 2017, 66(1): 29-38. |
[3] | FARVARESH H, SEPEHRI M. A Data Mining Framework for Detecting Subscription Fraud in Telecommunication[J]. Engineering Applications of Artificial Intelligence, 2011, 24(1): 182-194. |
[4] | YANG Jiechao, XU Jiangchun, YUE Qiuyan, et al. Research on SMS Fraud User Identification Based on SPARK and Random Forest[J]. Computer Engineering and Science, 2019, 41 (6): 1136-1144. |
杨杰超, 许江淳, 岳秋燕, 等. 基于SPARK与随机森林的短信诈骗用户识别研究[J]. 计算机工程与科学, 2019, 41(6): 1136-1144. | |
[5] | WANG Shihao, CAI Yanguang. A Fraud Identification Method for Telecom Customers Based on Improved GA-SVM[J]. Journal of Dongguan Institute of Technology, 2019, 26 (5): 14-20 |
王世豪, 蔡延光. 基于改进GA-SVM的电信客户欺诈识别方法[J]. 东莞理工学院学报, 2019, 26(5):14-20 | |
[6] | JIANG Nan. Securing Large Cellular Networks via a Data Oriented Approach: Applications to SMS Spam and Voice Fraud Defenses[D]. Minnesota: University of Minnesota, 2013. |
[7] | BOUKERCHE A, Notare M. Behavior-Based Intrusion Detection in Mobile Phone Systems[J]. Journal of Parallel and Distributed Computing. 2002, 62, (9): 1476-1490. |
[8] | DONG Lin, HUANG Liqing, YE Feng, et al. Overview of Generalized Methods for Face Forgery Detection[J]. Computer Science, 2022, 49 (2): 12-30. |
董琳, 黄丽清, 叶锋, 等. 人脸伪造检测泛化性方法综述[J]. 计算机科学, 2022, 49(2): 12-30. | |
[9] | LAN Tian, PENG Chuan, LI Sen, et al. Overview of Mono Speech Noise Reduction and Reverberation[J]. Computer Research and Development, 2020, 57 (5): 928-953. |
蓝天, 彭川, 李森, 等. 单声道语音降噪与去混响研究综述[J]. 计算机研究与发展, 2020, 57(5): 928-953. | |
[10] | CHENG Haoyi, LI Peifeng, ZHU Qiaoming. A Method of Event Anaphora Resolution Based on Cross Language Data Enhancement[J]. Journal of Chinese Information Science, 2022, 36 (3): 19-26 |
程昊熠, 李培峰, 朱巧明. 基于跨语言数据增强的事件同指消解方法[J]. 中文信息学报, 2022, 36(3): 19-26. | |
[11] | XU Huiyan, WU Keli, SUN Qingying, et al. Template-Based SMS Platform[J]. Computer System Application, 2015, 24 (5): 79-83. |
徐会艳, 吴克力, 孙庆英, 等. 基于模板的短信平台[J]. 计算机系统应用, 2015, 24(5): 79-83. | |
[12] | LI Ping. Research on Several Issues of Criminal Cases Related to COVID-19[J]. Criminal Law, 2020, 64 (4): 22-38. |
李萍. 涉新冠疫情犯罪案件若干问题研究[J]. 刑法论丛, 2020, 64(4): 22-38. | |
[13] | TONG Xin, WANG Luona, WANG Runzheng, et al. A Method for Generating Word Level Confrontation Samples for Chinese Text Classification[J]. Netinfo Security, 2020, 20 (9): 12-16. |
仝鑫, 王罗娜, 王润正, 等. 面向中文文本分类的词级对抗样本生成方法[J]. 信息网络安全, 2020, 20(9): 12-16. | |
[14] | QIAN Lingfei, CUI Xiaolei. Research on the Construction Method of Domain Knowledge Map Based on Data Enhancement[J]. Modern Intelligence, 2022, 42 (3): 31-39. |
钱玲飞, 崔晓蕾. 基于数据增强的领域知识图谱构建方法研究[J]. 现代情报, 2022, 42(3): 31-39. | |
[15] | XIAN Yantuan, GAO Fanya, XIANG Yan, et al. A Low Resource Dependency Syntax Analysis Method with Multi Strategy Data Enhancement[J]. Computer Science, 2022, 49 (1): 73-79. |
线岩团, 高凡雅, 相艳, 等. 融合多策略数据增强的低资源依存句法分析方法[J]. 计算机科学, 2022, 49(1): 73-79. |
[1] | 马瑞, 蔡满春, 彭舒凡. 一种基于改进的Xception网络的深度伪造视频检测模型[J]. 信息网络安全, 2021, 21(12): 109-117. |
[2] | 吴警, 芦天亮, 杜彦辉. 基于Char-RNN改进模型的恶意域名训练数据生成技术[J]. 信息网络安全, 2020, 20(9): 6-11. |
阅读次数 | ||||||||||||||||||||||||||||||||||||||||||||||||||
全文 301
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||
摘要 440
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||