信息网络安全 ›› 2020, Vol. 20 ›› Issue (9): 107-111.doi: 10.3969/j.issn.1671-1122.2020.09.022

• 入选论文 • 上一篇    下一篇

基于ALBERT动态词向量的垃圾邮件过滤模型

周枝凝, 王斌君(), 翟一鸣, 仝鑫   

  1. 中国人民公安大学信息网络安全学院,北京 100038
  • 收稿日期:2020-07-16 出版日期:2020-09-10 发布日期:2020-10-15
  • 通讯作者: 王斌君 E-mail:wangbinjun@ppsuc.edu.cn
  • 作者简介:周枝凝(1995—),女,四川,硕士研究生,主要研究方向为自然语言处理|王斌君(1962—),男,陕西,教授,博士,主要研究方向为自然语言处理、信息安全|翟一鸣(1996—),男,山东,硕士研究生,主要研究方向为自然语言处理|仝鑫(1995—),男,河南,硕士研究生,主要研究方向为对抗样本和自然语言处理
  • 基金资助:
    公安部技术研究计划竞争性遴选项目(2019JZX009);公安部科技强警技术专项(2018GABJC03);河南省高等学校重点科研项目计划(20B520008)

Spam Filtering Model Based on ALBERT Dynamic Word Vector

ZHOU Zhining, WANG Binjun(), ZHAI Yiming, TONG Xin   

  1. College of Information and Cyber Security, People’s Public Security University of China, Beijing 100038, China
  • Received:2020-07-16 Online:2020-09-10 Published:2020-10-15
  • Contact: WANG Binjun E-mail:wangbinjun@ppsuc.edu.cn

摘要:

针对垃圾邮件分类问题中词向量学习不充分的问题,文章引入ALBERT动态词向量生成模型,并提出一种将ALBERT动态词向量与循环神经网络相结合的ALBERT-RNN模型。利用公开的垃圾邮件数据集(TEC06C),对传统统计学模型与4种不同RNN结构的ALBERT-RNN模型进行了对比实验,并用Focal Loss方法对交叉熵损失函数进行了优化。实验结果表明,使用Focal Loss优化的ALBERT-LSTM模型在TEC06C数据集上达到了较高的准确率(99.13%)。

关键词: 中文垃圾邮件, 循环神经网络, ALBERT模型, 动态词向量

Abstract:

In order to solve the problem of insufficient word vector learning in spam classification, this paper introduces a model with ALBERT dynamic word vector, and proposes an ALBERT-RNN model which combines the ALBERT dynamic word vector with the recurrent neural network. In the open spam dataset (TEC06C), two traditional statistical models and four ALBERT-RNN models with different RNN structure are compared, and the cross entropy loss function of ALBERT-RNN is optimized by Focal Loss method. The experimental results show that the ALBERT-LSTM model with Focal Loss achieves the highest accuracy (99.13%) on the TEC06C dataset.

Key words: Chinese spam, recurrent neural network, ALBERT model, dynamic word vector

中图分类号: