人工智能在训练推理等过程中的隐私泄露、推理失真等安全问题,引起了人们的高度关注,甚至涉及意识形态乃至国家战略安全。在此背景下,联邦学习作为一种新兴的机器学习架构,通过保持数据本地性的同时实现模型的联合训练,为多方参与数据分析、处理和共享的应用领域提供了有效的隐私保护能力。从联邦学习的研究动机、技术方法等方面来看,如何利用该技术有效解决典型应用场景下的实际问题是其核心和关键,因此相关应用研究现状的全面综述,对联邦学习的进一步研究与实践都具有参考价值。为此,文章对联邦学习在异常检测、推荐系统以及自然语言处理等典型技术应用中的研究现状进行综合性调研。首先,文章对相关文献按照应用场景角度进行全面的分类梳理,从多领域视角分析了联邦学习架构的研究现状。其次,文章从技术实现的角度,对比分析了各技术领域中不同方案的数据集合、性能特点、评价指标等方面。在此基础上,文章分析总结了联邦学习研究尤其是系统应用面临的关键挑战和发展方向。
随着互联网的普及和网络安全威胁的日益增加,网络流量特征的异常分析与检测已成为网络安全领域的重要研究课题。文章主要对近年来网络流量特征的异常分析与检测方法进行研究,首先,介绍了网络流量异常分析的基本概念和类型;其次,详细讨论了当前主要的异常检测技术,包括基于统计学、信息论、图论、机器学习以及深度学习的方法;然后,对常见的网络流量异常检测方法进行对比分析;最后,探讨当前研究面临的挑战和未来的发展方向。
联邦学习作为一种新兴的隐私保护分布式机器学习框架,利用密码原语有效地解决了隐私泄露问题,如何在分布式环境中防止投毒攻击已成为联邦学习的研究热点。目前的研究工作大部分依赖于数据独立同分布情况,并使用明文进行恶意梯度识别,无法处理数据异构带来的挑战。为了解决上述问题,文章提出一个基于分层聚类的个性化联邦学习隐私保护框架。该框架基于坐标感知的中位数算法对梯度进行加密,并采用安全余弦相似度方案识别恶意梯度,通过层次聚合方法增强模型在独立同分布和非独立同分布场景下的鲁棒性。在MNIST、CIFAR-10和Fashion-MNIST三个公开数据集上的实验结果表明,该模型具有较强的隐私保护能力。与FedAVG、PPeFL、中位数、裁剪均值和聚类等算法相比,该模型准确率分别提升了14.90%、9.59%、29.50%、26.57%和23.19%。
时序数据异常检测是数据挖掘及网络安全领域的重要研究课题。文章以时序数据异常检测技术为研究对象,运用文献调研与比较分析方法,深入探讨了深度学习模型在该领域的应用及其研究进展。文章首先介绍了深度时序数据异常检测的定义与应用;其次,提出了深度时序数据异常检测面临的9个问题与挑战,并将时序数据异常分为10类,枚举了16种典型的时序数据异常检测数据集,其中包括5种社交网络舆情安全领域相关数据集;再次,文章将深度时序数据异常检测模型进行分类研究,分析总结了近50个相关模型,其中包括基于半监督增量学习的社交网络不良信息发布者异常检测,进一步地,文章依据深度学习模型的学习模式将模型划分为基于重构、基于预测、基于重构与预测融合3种类型,并对这些模型的优缺点及应用场景进行综合分析;最后,文章从8个方面展望了深度时序异常检测技术的未来研究方向,分析了每个方向的潜在研究价值及技术瓶颈。
在联邦学习中,由于需要大量的参数交换,可能会引发来自不可信参与设备的安全威胁。为了保护训练数据和模型参数,必须采用有效的隐私保护措施。鉴于异构数据的不均衡特性,文章提出一种自适应性差分隐私方法来保护基于异构数据的联邦学习的安全性。首先为不同的客户端设置不同的初始隐私预算,对局部模型的梯度参数添加高斯噪声;其次在训练过程中根据每一轮迭代的损失函数值,动态调整各个客户端的隐私预算,加快收敛速度;接着设定一个可信的中央节点,对不同客户端的局部模型的每一层参数进行随机交换,然后将混淆过后的局部模型参数上传到中央服务器进行聚合;最后中央服务器聚合可信中央节点上传的混淆参数,根据预先设定的全局隐私预算阈值,对全局模型添加合适的噪声,进行隐私修正,实现服务器层面的隐私保护。实验结果表明,在相同的异构数据条件下,相对于普通的差分隐私方法,该方法具有更快的收敛速度以及更好的模型性能。
关系抽取技术可用于威胁情报挖掘与分析,为网络安全防御提供关键信息支持,但网络安全领域的关系抽取任务面临数据集匮乏的问题。近年来,大语言模型展现了优秀的文本生成能力,为数据增强任务提供了强大的技术支撑。为了弥补传统数据增强方式在准确性和多样性方面的不足,文章提出一种面向网络安全关系抽取的大语言模型数据增强方法MGDA,该方法从单词、短语、语法和语义4个粒度使用大语言模型增强原始数据,从而在确保准确性的同时提升多样性。实验结果表明,文章所提数据增强方法有效改善了网络安全关系抽取任务上的有效性以及生成数据的多样性。
基于区块链的联邦学习作为一种新兴的去中心化的分布式机器学习新范式,其在克服传统联邦学习所面临的数据孤岛、隐私泄露以及安全威胁等不足的同时,也面临着区块链技术在成本、效率以及有效性等方面带来的新挑战。为此,文章首先结合基本原理、技术分类、优势以及待解决问题对联邦学习和区块链进行阐述。在此基础上,文章围绕联邦学习与区块链所涉及的架构、性能、隐私性、安全性、激励机制、共识机制等对基于区块链的联邦学习研究进行了系统的总结分析。最后,文章从基于区块链的联邦学习原理、平衡性以及应用三个维度,探讨未来的研究趋势和亟待解决的主要问题。
组织性复杂、计划性高效和指向性明确的高级持续性威胁(APT)攻击是我国面临的主要威胁之一,APT组织的行动隐匿化、攻击常态化趋势愈加明显。近年来,我国掌握主要的APT活动越来越困难,与APT组织将攻击行为匿迹于正常信息服务和网络活动中,以及将攻击流量藏匿于正常通信流量中不无关系。这种高隐蔽攻击行为隐匿后所处的状态,称之为密态。如何检测发现密态行为并实施体系对抗,是当前网络空间防御要解决的瓶颈性难题之一。文章从澄清网络空间高级攻击活动的流量传输隐匿技术机理角度出发,围绕匿名通信链路构建和流量特征行为检测两个维度,提出流量密态匿迹对抗的研究框架和对抗能力评估指标体系,全面阐述近年来相关研究工作进展、研究方法及解决方案,以期探索网络空间密态对抗能力新的发展方向。
联邦学习由于其分布式特性,容易遭受模型投毒攻击,即恶意客户端通过发送篡改的模型更新来破坏全局模型的准确性。在众多的联邦学习分支方法中,半异步联邦学习由于其对实时性要求较低,使得它在面对投毒攻击时显得尤为脆弱。目前,检测恶意客户端的主要手段是通过分析客户端更新的统计特征来进行区分。然而,这一方法并不适用于半异步联邦学习。由于陈旧更新中包含由延迟产生的噪声,导致现有的检测算法难以区分良性客户端的陈旧更新与攻击者的恶意更新。为了解决半异步联邦学习中的恶意客户端检测问题,文章提出了一种基于预测模型更新的检测方法SAFLD。该方法根据模型的历史更新来预测客户端的过时更新并评估恶意分数,在检测中分数较高的客户端将被标记为恶意更新客户端并移除。文章在两个基准数据集上进行了实验,结果表明,相比于现有的检测算法,SAFLD能够在半异步联邦学习场景中更加准确地检测出多种最先进的模型投毒攻击。
联邦学习算法通常面临着客户端之间差异巨大的问题,这些异质性会降低全局模型性能,文章使用知识蒸馏方法缓解这个问题。为了进一步解放公共数据,完善模型性能,文章所提的DFP-KD算法使用无数据方法合成训练数据,利用无数据知识蒸馏方法训练鲁棒的联邦学习全局模型;使用ReACGAN作为生成器部分,并且采用分步EMA快速更新策略,在避免全局模型灾难性遗忘的同时加快模型的更新速率。对比实验、消融实验和参数取值影响实验表明,DFP-KD算法比经典的无数据知识蒸馏算法在准确率、稳定性、更新速度方面都更具优势。
随着智能医疗系统的快速发展,标注数据的匮乏已成为制约研究进展的关键因素之一,知识蒸馏作为一种有效的数据利用策略能够缓解这一问题。然而,在智能医疗领域,模型通常用于替代人工进行影像、数据的诊断,这不仅对医疗信息隐私保护提出了更高要求,还强调了模型精度对诊断结果准确性的决定性影响。因此,文章提出一种结合差分隐私的知识蒸馏方案,并将其应用于图神经网络模型,在知识蒸馏过程中保护用户敏感信息的同时,确保较高的医疗诊断准确率。为验证所提方法的有效性,文章构建了图注意力网络(GAT)模型和卷积神经网络(CNN)模型作为对照组,并采用3种实际医疗图像数据集进行实验。结果表明,文章所提方法在GAT模型的准确率较在CNN模型的准确率有所提升,对应在3个数据集上分别由61%提升至68%、83%提升至93%、67%提升至80%。鉴于GAT模型的高资源开销,文章进一步设计了一种轻量化GAT模型架构。该轻量化模型在显著降低资源消耗的同时,仍保持优于CNN模型的分类性能,从而在差分隐私保护的前提下,有效提升医疗诊断效果。
针对物联网DDoS攻击检测最优解问题,文章采用多种算法对物联网DDoS攻击进行检测和建模分类,运用核密度估计筛选出有影响的流量特征字段,建立基于机器学习和深度学习算法的DDoS攻击检测模型,分析了通过可逆残差神经网络和大语言模型处理数据集并进行攻击检测的可行性。实验结果表明,ResNet50算法在综合指标上表现最好;在区分DDoS攻击流量和其他流量问题上,梯度提升类算法表现更优秀;在细分DDoS攻击类型方面,经过优化的ResNet50-GRU算法表现更好。
软件漏洞给软件安全带来了巨大的威胁,全球每年因软件漏洞导致的安全事件层出不穷。然而,在实际的开发过程中,因开发人员的安全意识不够、代码和业务逻辑越来越复杂等原因,软件代码中难以避免地存在着安全漏洞。文章针对现有方法面临错误代码定位不准确、分析效率不高等难题,突破指令运行时信息获取和反向分析、错误代码准确定位等挑战,提出一种基于追踪日志和反向执行的程序错误原因定位方法,能够跟踪程序的代码执行流,记录指令在运行状态下的寄存器状态信息以及存储访问状态信息,分析引发执行错误的指针相关联的指针值生成、使用、计算的指令集合,实现高效、准确的漏洞成因分析和定位。
电子数据取证作为计算机科学和法学的交叉学科,正逐渐被人们所重视。文章介绍了电子数据取证相关概念,详细阐述了取证技术的研究进展,并对取证工具的类型、功能特点以及相关的行业测试标准和规范进行了分析研究。文章还展望了电子数据取证研究的发展趋势。
随着深度学习技术在多个领域的广泛应用,其框架的安全性和稳定性也变得尤为重要。文章从用户角度出发,分析了不同用户群体可能遇到的漏洞类型及相应的模糊测试方法。首先介绍了深度学习框架的发展背景及其重要性;然后详细讨论了针对模型库、深度学习框架及编译器的模糊测试研究现状,梳理了如模型变异、权重生成、样例构造和模型测试等关键技术,并以PyTorch和MLIR的漏洞为例分析了漏洞形成的原因;最后展望了未来的研究方向,包括错误定位与自动修复技术、大语言模型增强的模糊测试。
近年来,以深度神经网络为代表的机器学习技术在自动驾驶、智能家居和语音助手等领域获得了广泛应用。在上述高实时要求场景下,多数服务商将模型部署在边缘设备以规避通信带来的网络时延与通信开销。然而,边缘设备不受服务商控制,所部署模型易遭受模型窃取、错误注入和成员推理等攻击,进而导致高价值模型失窃、推理结果操纵及私密数据泄露等严重后果,使服务商市场竞争力受到致命打击。为解决上述问题,众多学者致力于研究基于可信执行环境(TEE)的安全推理,在保证模型可用性条件下保护模型的参数机密性与推理完整性。文章首先介绍相关背景知识,给出安全推理的定义,并归纳其安全模型;然后对现有TEE安全推理的模型机密性保护方案与推理完整性保护方案进行了分类介绍和比较分析;最后展望了TEE安全推理的未来研究方向。
随着工业4.0和智能制造的快速发展,工业控制系统的安全性成为关键问题。工业控制协议作为工业控制系统的核心通信机制,其安全性直接关系到系统的稳定性和数据保护。然而,许多工业控制协议在设计时缺乏充分的网络安全考虑,导致系统容易受到恶意软件、拒绝服务等攻击,可能危及企业利益甚至国家安全。当前,研究者们正积极探索工业控制协议的安全问题,并提出了多种解决方案。文章综述了工业控制协议的安全现状、主要挑战和发展趋势。首先,介绍了工业控制协议的基本概念和分类,分析了其安全特性及脆弱性。然后,重点讨论了符号执行、逆向分析和模糊测试在漏洞挖掘中的应用,这些技术在应对复杂工业协议时尤为有效。而且还探讨了加密认证、入侵检测及深度防御等安全防护措施。最后,文章探索了生成式大语言模型在工业控制系统安全中的应用,涉及代码生成、网络防护及自动化控制等领域,助力工业控制系统从被动防御向主动防护转变。通过本研究,期望能够提升对工业控制协议安全性的认识,为工业控制系统的可靠性和安全性提供坚实的基础和实用的解决方案,以有效保护关键信息基础设施免受潜在威胁和攻击。
随着反序列化技术在Java Web应用开发中的广泛应用,针对Java反序列化机制的攻击也日益增多,已严重威胁Java Web应用的安全性。当前主流的黑名单防范机制无法有效防御未知的反序列化漏洞利用,而现有的Java反序列化漏洞挖掘工具大多依赖静态分析方法,检测精确度较低。文章提出一种基于模糊测试的Java反序列化漏洞挖掘工具DSM-Fuzz,该工具首先通过对字节码进行双向追踪污点分析,提取所有可能与反序列化相关的函数调用链。然后,利用基于TrustRank算法的函数权值分配策略,评估函数与反序列化调用链的关联性,并根据相关性权值对模糊测试种子分配能量。为进一步优化测试用例的语法结构和语义特征,文章设计并实现了一种基于反序列化特征的种子变异算法。该算法利用反序列化的Java对象内部特征优化种子变异过程,并引导模糊测试策略对反序列化漏洞调用链进行路径突破。实验结果表明,DSM-Fuzz在漏洞相关代码覆盖量方面较其他工具提高了约90%。此外,该工具还在多个主流Java库中成功检测出50%的已知反序列化漏洞,检测精确度显著优于其他漏洞检测工具。因此,DSM-Fuzz可有效辅助Java反序列化漏洞的检测和防护。
目前大语言模型LLM在文本生成、机器翻译和情感分析等领域取得了显著的成果。为了保护模型数据集与参数版权,防止未经授权的复制和使用,并验证消息的真实性,需要通过水印技术确保LLM的安全性和可信度。根据LLM运行的不同时间点,文章将当前水印技术分为嵌入模型训练的水印、推理阶段插入的水印和文本生成后的追加水印3类。针对水印的鲁棒性、保密性和有效性需求,文章对水印技术的评价指标进行了整理,并对现存的抗水印攻击进行综述,旨在进一步推动大语言模型水印技术的发展和应用。
挖矿流量检测属于变长数据分类任务,现有的检测方案如关键字匹配、N-gram特征签名等基于局部特征的分类方法未能充分利用流量的全局特征。使用深度学习模型对挖矿流量进行建模,可以提取挖矿流量的全局特征,提高挖矿流量检测的准确率。文章提出的流量分类模型,使用Transformer编码器提取流量全局特征,然后使用序列总结器处理编码结果,获得用于分类的定长表示。由于挖矿样本在数据集中占比低于3%,使用准确率衡量模型的分类效果偏差较大,因此,文章综合考虑了模型的精确率和召回率,使用F1分数对模型的分类效果进行评估。在模型的编码器中使用正余弦位置编码可使模型在测试集上取得99.84%的F1分数,精确率达到100%。