信息网络安全 ›› 2025, Vol. 25 ›› Issue (4): 564-577.doi: 10.3969/j.issn.1671-1122.2025.04.005
收稿日期:2024-11-28
出版日期:2025-04-10
发布日期:2025-04-25
通讯作者:
王方圆 作者简介:王方圆(1985—),男,江苏,博士研究生,主要研究方向为黑灰产溯源与网络反欺诈对抗|练智超(1983—),男,安徽,教授,博士,主要研究方向为图像处理与模式识别|李千目(1979—),男,安徽,教授,博士,CCF高级会员,主要研究方向为信息技术与网络安全|顾欢欢(1989—),女,江苏,高级工程师,博士研究生,CCF会员,主要研究方向为网络安全技术、大模型安全技术|赵谦(1985—),男,江苏,正高级工程师,博士研究生,CCF会员,主要研究方向为电力系统自动化与工业互联网安全
基金资助:
WANG Fangyuan1(
), LIAN Zhichao1, LI Qianmu1, GU Huanhuan1, ZHAO Qian2
Received:2024-11-28
Online:2025-04-10
Published:2025-04-25
摘要:
随着互联网技术的快速发展,网络安全威胁日益严峻,恶意网址作为网络攻击的主要载体,通过钓鱼诈骗、恶意软件传播等手段严重威胁用户信息安全与数字资产安全。文章以提升恶意网址识别的准确性为研究目的,以恶意网址为研究对象,研究范围涵盖多维度特征分析与PageRank算法优化,运用域名特征分析、备案信息查询、域名收录搜索、流量行为分析、内容质量评估、用户行为数据和时间衰减因子等研究方法与理论。文章结合自然语言处理技术、机器学习和时间衰减机制,提出一个综合的恶意网址研判体系,并验证了其在提高恶意网址识别准确率方面的有效性。实验结果表明,该方法在综合准确率上达到了99.99%,相比传统方法有显著提升。文章的研究成果为网络安全防护提供了有力支持,对于构建更加安全、可信的网络环境具有重要意义。
中图分类号:
王方圆, 练智超, 李千目, 顾欢欢, 赵谦. 基于多维度特征与PageRank优化的恶意网址研判方法研究[J]. 信息网络安全, 2025, 25(4): 564-577.
WANG Fangyuan, LIAN Zhichao, LI Qianmu, GU Huanhuan, ZHAO Qian. Research on Malicious Websites Assessment Method Based on Multidimensional Features and PageRank Optimization[J]. Netinfo Security, 2025, 25(4): 564-577.
表4
实验数据集内容信息
| 类别 | 特征/信息 | 描述 |
|---|---|---|
| 网址样本 | 正常网址 | 知名网站、政府机构、教育机构、企业官网等合法且安全的网址 |
| 恶意网址 | 钓鱼网站、恶意软件下载链接、诈骗网站、色情网站、赌博网站等被证实为恶意的网址 | |
| 域名特征 | 域名长度 | 域名的字符数量 |
| 字符组成 | 是否包含乱码、特殊字符等 | |
| 官方名称/缩写 | 是否使用官方名称或缩写 | |
| 备案信息 | 备案状态 | 是否备案、备案信息是否真实 |
| 备案主体一致性 | 备案主体与网站内容的一致性 | |
| 搜索引擎收录情况 | 收录数量 | 搜索引擎收录的网页数量 |
| 收录时间 | 搜索引擎收录网页的时间 | |
| 内容质量评估 | 文本内容分析 | 网页文本内容的不良信息、垃圾广告含量等 |
| 原创性评分 | 网页内容的查重分析 | |
| 信息丰富度评分 | 网页层级、内容类型等丰富度分析 | |
| 语言流畅性评分 | 文字内容的流畅性评分 | |
| 公信力分析 | 是否包含公司、工商备案等信息 | |
| 用户行为数据 | 访问数分析 | 单位时间内访问用户数(UV) |
| 访问量分析 | 单位时间内访问次数(PV) | |
| 历史标签 | 近1、3、7天的访问用户数分析 | |
| 夜间行为 | 夜间访问分析 | |
| 关联分析 | 同源地址紧邻访问行为分析 | |
| 用户评价 | 用户在公开网络对该网址的评价 | |
| 时间衰减因子 | 上线时间 | 网址的上线时间 |
| 最近更新时间 | 网址的最近更新时间 | |
| 响应时间 | 网址的响应效率分析 | |
| 用户访问时间分布 | 用户访问网址的时间分布 | |
| 注册时间 | 域名的注册时间 | |
| TTL | 域名的生存时间 |
表5
多维度特征信息
| 维度 | 具体特征 |
|---|---|
| 域名特征 | 域名长度;字符组成(如字母、数字、特殊字符比例);注册时间;注册商;是否过期或即将过期;顶级域名(TLD);子域名数量;域名年龄(注册至今的年数) |
| 备案信息 | 是否备案;备案号;备案主体名称;备案时间;备案有效期;备案主体类型(个人/企业) |
| 搜索引擎收录 | 收录页面数;最近收录时间;平均搜索排名;反向链接数;站点权重或信任度评分;搜索引擎索引更新频率 |
| 用户行为数据 | 日均访问量;跳出率;平均停留时间;转化率; 用户来源分析(地区、设备、浏览器);访问深度(页面浏览量/访问次数);重访率 |
| 内容质量评估 | 内容原创性比例;可读性评分;内容相关性评分;更新频率; 多媒体内容比例(图片、视频等);外部引用数量和质量; 内容错误率或准确性评估 |
| 时间信息 | 数据采集时间;内容发布时间;内容最后更新时间; 季节性特征标识(如节假日、特定事件);时间段分析(如工作日/周末、白天/夜晚) |
表7
6种研判方法结果对比
| 技术方法 | 检测准确率 | 说明 |
|---|---|---|
| 多交互关系与情感倾向的用户可信度评估技术 | 85%~90% | 主要用于社交媒体用户可信度评估,但可借鉴其多交互关系分析,对恶意网址的关联分析有一定帮助 |
| 基于云模型和PR算法的社会网络群决策技术 | 80%~85% | 适用于社会网络群决策,通过云模型处理不确定性,对恶意网址研判中的不确定性处理有参考意义 |
| 基于时空主成分分析的检测技术 | 90%~95% | 主要用于时空数据分析,通过分析恶意网址的时空分布特征,提高检测效率 |
| 基于引用网络和文本信息的分析技术 | 75%~80% | 主要用于文献计量学和文本挖掘,对恶意网址研判的文本内容分析有一定辅助作用 |
| 本文设计的基础研判技术 | 90%~95% | 包括域名特征分析、备案信息查询、域名收录搜索、基于黑名单的过滤方法、基于特征匹配与机器学习的方法、基于数据挖掘和深度学习的方法、启发式分析等手段 |
| 多维度特征与PR优化的恶意网址研判技术 | 99.99% | 专为恶意网址研判设计,结合多维度特征和PR优化,具有高准确率 |
| [1] | SALLINEN S, LUO Jie, RIPEANU M. Real-Time PageRank on Dynamic Graphs[C]// IEEE. The 32nd International Symposium on High-Performance Parallel and Distributed Computing. New York: IEEE, 2023: 239-251. |
| [2] | LI Jun, AN Shang. PageRank Algorithm-Based Recommendation System for Construction Safety Guidelines[EB/OL]. (2024-09-24) [2024-10-28]. https://doi.org/10.3390/buildings14103041. |
| 李俊, 安尚. 基于PageRank算法的建筑施工安全指南推荐系统[EB/OL]. (2024-10-01) [2024-10-28]. https://doi.org/10.3390/buildings14103041. | |
| [3] | LYU Lei, ZHANG Tao, HU Peng, et al. An Improved Gravity Centrality for Finding Important Nodes in Multi-Layer Networks Based on Multi-PageRank[EB/OL]. (2023-10-21) [2024-10-28]. https://doi.org/10.1016/j.eswa.2024.122171. |
| 吕磊, 张涛, 胡鹏, 等. 基于多重PageRank的多层网络节点重要性评估改进方法[EB/OL]. (2024-01-01) [2024-10-28]. https://doi.org/10.1016/j.eswa.2024.122171. | |
| [4] | SUN Chengcheng. Research on Cybersecurity Governance Strategies[J]. Netinfo Security, 2023, 23(6): 104-110. |
| 孙珵珵. 网络安全治理对策研究[J]. 信息网络安全, 2023, 23(6):104-110. | |
| [5] | CHEN Zijun, MA Delong, WANG Yishu, et al. GPPR: Personalized PageRank Algorithm in Cross-Domain Environments[J]. Journal of Software, 2023, 35(3): 1-15. |
| 陈子俊, 马德龙, 王一舒, 等. GPPR:跨域环境下的个性化PageRank算法[J]. 软件学报, 2023, 35(3):1-15. | |
| [6] | SHI Lixin. Improved PageRank Algorithm for Mining Key Users in Social Networks[J]. Modern Electronics Technique, 2022, 45(12): 95-99. |
| 石立新. 改进PageRank算法挖掘社交网络关键用户[J]. 现代电子技术, 2022, 45(12):95-99. | |
| [7] | JIANG Peng, XIAO Jie, LI Dong, et al. Detecting Malicious Websites from the Perspective of System Provenance Analysis[J]. IEEE Transactions on Dependable and Secure Computing, 2023, 21(3): 1406-1423. |
| [8] | MU Zhiying, XU Jiaquan, LI Xiaoyu. Community-Detection-Based Influence Blocking Maximization Algorithm in Social Network[J]. Netinfo Security, 2023, 23(1): 44-56. |
| 慕志颖, 许加全, 李晓宇. 基于社区发现的社交网络影响力阻断最大化算法[J]. 信息网络安全, 2023, 23(1):44-56. | |
| [9] | DR U S, PATIL A. Malicious URL Detection and Classification Analysis Using Machine Learning Models[C]// IEEE. 2023 International Conference on Intelligent Data Communication Technologies and Internet of Things (IDCIoT). New York: IEEE, 2023: 470-476. |
| [10] | ZHAO Likun, WANG Yuke. AI-Based Periodic Recommendation Algorithm for Social Network User Behavior Data[J]. Science Technology and Engineering, 2020, 20(28): 11647-11652. |
| 赵丽坤, 王于可. 基于人工智能的社交网络用户行为数据周期推荐算法[J]. 科学技术与工程, 2020, 20(28):11647-11652. | |
| [11] | CAO Yukun, FANG Yixin, MIAO Zeyu, et al. Knowledge Graph Enhanced Recommendation System Based on Attenuation Propagation[J]. Journal of Computer Engineering and Applications, 2023, 59(10): 1-10. |
| 曹渝昆, 方一新, 苗泽宇, 等. 基于衰减传播的知识图谱增强推荐系统[J]. 计算机工程与应用, 2023, 59(10):1-10. | |
| [12] | LIU Huazhen, WANG Wei, GU Renqian, et al. Survey on Personalized Recommendation Based on User Browsing Behavior[J]. Application Research of Computers, 2021, 38(8): 1-12. |
| 刘华真, 王巍, 谷壬倩, 等. 基于用户浏览行为的个性化推荐研究综述[J]. 计算机应用研究, 2021, 38(8):1-12. | |
| [13] | HU Fuzeng, WANG Yongjun. Analysis and Recognition of Computer User Behavior Based on Data Mining[J]. Automation Technology & Application, 2020, 39(6): 42-47. |
| 胡富增, 王勇军. 基于数据挖掘的计算机用户行为分析与识别[J]. 自动化技术与应用, 2020, 39(6):42-47. | |
| [14] | ZHANG Linbing, GUO Qiang, WU Xingbin, et al. User Clustering Method Based on Multidimensional Behavior Analysis[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(2): 1-8. |
| 张林兵, 郭强, 吴行斌, 等. 基于多维行为分析的用户聚类方法研究[J]. 电子科技大学学报, 2020, 49(2):1-8. | |
| [15] | WU Dingyu, ZHOU Cong, HUA Dan, et al. A Deep Recommendation Model Based on Dual Attention Mechanism and Time Factor[J]. Computer & Digital Engineering, 2023, 51(3): 679-685. |
| 吴定谕, 周从, 华单, 等. 基于双重注意力机制和时间因子的深度推荐模型[J]. 计算机与数字工程, 2023, 51(3):679-685. | |
| [16] | LI Zhi, TANG Jie, ZHAO Chao, et al. Improved Centrality Measure Based on the Adapted PageRank Algorithm for Urban Transportation Multiplex Networks[EB/OL]. (2022-12-24) [2024-10-28]. https://doi.org/10.1016/j.chaos.2022.112998. |
| [17] | WU Yubin, QI Yunsong. User Preference Network Integrating Knowledge Awareness and Temporal Perception[J]. Application Research of Computers, 2023, 40(3): 1-10. |
| 吴宇斌, 祁云嵩. 融合知识感知和时间感知的用户偏好网络[J]. 计算机应用研究, 2023, 40(3):1-10. | |
| [18] | TU Xiaohan, ZHANG Chuanhao, LIU Mengran. Malicious Traffic Detection Model Design and Implementation[J]. Netinfo Security, 2024, 24(4): 520-533. |
| 屠晓涵, 张传浩, 刘孟然. 恶意流量检测模型设计与实现[J]. 信息网络安全, 2024, 24(4):520-533. | |
| [19] | TRAN K, SOVILJ D. Advancing Malicious Website Identification: A Machine Learning Approach Using Granular Feature Analysis[EB/OL]. (2024-09-11) [2024-10-28]. https://doi.org/10.48550/arXiv.2409.07608. |
| [20] | ZHAO Yunze, JIANG Muqiu, DONG Wei, et al. Malicious URL Detection Based on Dual-Layer Attention Mechanism[J]. Cyber Security and Data Governance, 2023, 42(2): 1-12. |
| 赵云泽, 蒋牧秋, 董伟, 等. 基于双层注意力机制的恶意URL检测[J]. 网络安全与数据治理, 2023, 42(2):1-12. | |
| [21] | HAN Jing, ZHANG Tianpeng, LYU Xueqiang. Fine-Grained Image Classification Based on Multi-Modal Features and Enhanced Alignment[J]. Journal of Beijing University of Posts and Telecommunications, 2024, 47(4): 130-140. |
| 韩晶, 张天鹏, 吕学强. 基于多模态特征与增强对齐的细粒度图像分类[J]. 北京邮电大学学报, 2024, 47(4):130-140. | |
| [22] | YU Luna, LIU Guoqi, CUI Wenchao. User Behavior Prediction Method Based on CNN and BiLSTM Fusion[J]. Computer Science and Application, 2024, 14(1): 121-130. |
| 于璐娜, 刘国奇, 崔文超. 基于CNN与BiLSTM融合的用户行为预测方法[J]. 计算机科学与应用, 2024, 14(1):121-130. | |
| [23] | SHI Wei. Research on User Behavior Analysis in the Context of Big Data[J]. Mechanical and Electronic Control Engineering, 2024, 6(15): 52-54. |
| 师伟. 大数据背景下的用户行为分析研究[J]. 机械与电子控制工程, 2024, 6(15):52-54. | |
| [24] | WANG Jiangli, DUAN Wei, HUANG Yifei, et al. User Behavior Anomaly Detection Method Based on XGBoost[J]. Computer and Digital Engineering, 2024, 52(3): 757-760. |
| 王江立, 段蔚, 黄逸飞, 等. 一种基于XGBoost的用户行为异常检测方法[J]. 计算机与数字工程, 2024, 52(3):757-760. | |
| [25] | ZHANG Chen, DU Hao, ZHANG Lin. Communication Network Traffic Prediction Model Based on Deep Learning[J]. Electronic Communication and Computer Science, 2024, 6(8): 28-30. |
| 张晨, 堵颢, 张琳. 基于深度学习的通信网络流量预测模型[J]. 电子通信与计算机科学, 2024, 6(8):28-30. | |
| [26] | JIANG Zhongyuan, TAO Meiyue, ZHAO Xiaoqing, et al. Streaming Online Log Parsing Method Based on Heuristic Rules[J]. Journal on Communications, 2024, 45(4): 95-113. |
|
蒋忠元, 陶梅悦, 赵晓庆, 等. 基于启发式规则的流式在线日志解析方法[J]. 通信学报, 2024, 45(4):95-113.
doi: 10.11959/j.issn.1000-436x.2024071 |
|
| [27] |
ZHAO Yanlin, TIAN Yunna. Hyper-Heuristic Cross-Cell Scheduling Method Based on K-Means Clustering[J]. Journal of System Simulation, 2024, 36(4): 941-950.
doi: 10.16182/j.issn1004731x.joss.22-1541 |
|
赵彦霖, 田云娜. 基于K-means聚类的超启发式跨单元调度方法[J]. 系统仿真学报, 2024, 36(4):941-950.
doi: 10.16182/j.issn1004731x.joss.22-1541 |
|
| [28] | WANG Fangfang. Application of Data Mining Technology in Computer Software Engineering[J]. Electronic Communication and Computer Science, 2024, 6(4): 70-72. |
| 王芳芳. 计算机软件工程中数据挖掘技术的应用研究[J]. 电子通信与计算机科学, 2024, 6(4):70-72. | |
| [29] | JIANG Ying, QI Yunsong. Knowledge Graph Completion Techniques and Applications for AI Deep Learning: A Survey[J]. Computer Measurement & Control, 2024, 32(5): 1-10. |
| 姜颖, 祁云嵩. 面向人工智能深度学习的知识图谱补全技术与应用综述[J]. 计算机测量与控制, 2024, 32(5):1-10. | |
| [30] | YUAN Yongwang, FANG Xianwen, LU Ke. Multi-View Behavior Analysis Based on Deep Learning for Business Process Monitoring[J]. Application Research of Computers, 2024, 41(6): 1-12. |
| 袁永旺, 方贤文, 卢可. 基于深度学习的融合流程多视角行为分析:预测业务流程监控[J]. 计算机应用研究, 2024, 41(6):1-12. | |
| [31] | WU Senyan, LUO Xi, WANG Weiping, et al. Malicious URL Detection Method Fusing Multiple Features[J]. Journal of Software, 2021, 32(9): 2916-2934. |
| 吴森焱, 罗熹, 王伟平, 等. 融合多种特征的恶意URL检测方法[J]. 软件学报, 2021, 32(9):2916-2934. | |
| [32] |
WANG Shuo, WANG Jian, WANG Yanan, et al. A Fast Malware Detection Method Based on Feature Fusion[J]. Acta Electronica Sinica, 2023, 51(1): 57-66.
doi: 10.12263/DZXB.20211701 |
|
王硕, 王坚, 王亚男, 等. 一种基于特征融合的恶意代码快速检测方法[J]. 电子学报, 2023, 51(1):57-66.
doi: 10.12263/DZXB.20211701 |
|
| [33] | WU Jiahong, YANG Zhenguo, LIU Wenyin. Malicious HTTP Request Detection Method Based on Multi-Scale Feature Fusion[J]. Application Research of Computers, 2021, 38(3): 1-10. |
| 巫家宏, 杨振国, 刘文印. 基于多尺度特征融合的恶意HTTP请求检测方法[J]. 计算机应用研究, 2021, 38(3):1-10. |
| [1] | 薛丽敏, 吴琦, 李骏. 面向专用信息获取的用户定制主题网络爬虫技术研究[J]. 信息网络安全, 2017, 17(2): 12-21. |
| [2] | 周红福, 贾璐, 张婷婷, 李剑. 微博舆情分析中信息转发路径提取方法研究[J]. 信息网络安全, 2016, 16(4): 61-68. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||