信息网络安全 ›› 2019, Vol. 19 ›› Issue (4): 73-81.doi: 10.3969/j.issn.1671-1122.2019.04.009

• 技术研究 • 上一篇    下一篇

面向隐私保护的频繁项集挖掘算法

蒋辰1,2(), 杨庚1,2, 白云璐1,3, 马君梅4   

  1. 1. 南京邮电大学计算机学院,江苏南京 210023
    2. 江苏省大数据安全与智能处理重点实验室,江苏南京 210023
    3. 南京中医药大学信息技术学院,江苏南京 210023
    4. 31436部队,辽宁沈阳 110805
  • 收稿日期:2018-12-05 出版日期:2019-04-10 发布日期:2020-05-11
  • 作者简介:

    作者简介:蒋辰(1995—),男,江苏,硕士研究生,主要研究方向为网络与信息安全、隐私保护;杨庚(1961—),男,江苏,教授,博士,主要研究方向为物联网安全、隐私保护、云计算与安全;白云璐(1988—),女,内蒙古,讲师,博士,主要研究方向为网络与信息安全、隐私保护;马君梅(1978—),女,辽宁,硕士,主要研究方向为通信网络管理、计算机通信、计算机网络管理。

  • 基金资助:
    国家自然科学基金[61572263, 61502251];江苏省自然科学基金面上项目[BK20161516]

Frequent Itemsets Mining Algorithm for Privacy Protection

Chen JIANG1,2(), Geng YANG1,2, Yunlu BAI1,3, Junmei MA4   

  1. 1. College of Computer Science and Software, Nanjing University of Posts and Telecommunications, Nanjing Jiangsu 210023, China
    2. Jiangsu Key Laboratory of Bigdata Security Intelligent Processing, Nanjing Jiangsu 210023, China
    3. College of Information Engineering, Nanjing University of Chinese Medicine, Nanjing Jiangsu 210023, China
    4. Unit 31436 of PLA, Shenyang Liaoning 110805, China
  • Received:2018-12-05 Online:2019-04-10 Published:2020-05-11

摘要:

目前已有多种满足ε-差分隐私的频繁项集挖掘算法,但这些算法在处理高维数据集时难以兼顾安全性和效用性。针对该问题,文章提出一种面向隐私保护的频繁项集挖掘算法——TrunSuper。该算法先对事务数据集进行截断以降维,将事务中的项按支持度从大到小进行排序,剔除支持度较小的项,从而降低发布的频繁项集的支持度误差。文章证明了该算法在满足ε-差分隐私的同时具有较好的可用性,且在真实数据集上验证了算法的优越性。

关键词: 频繁项集挖掘, 差分隐私, 事务截断, 拉普拉斯机制

Abstract:

A variety of differentially private FIM algorithms have been proposed. However, current solutions for this problem cannot well balance privacy and data utility over large-scale data. This paper proposes a new differentially private FIM algorithm(TrunSuper). This algorithm truncates the transaction datasets to reduce the dimension, and sorts the items in decreasing order, then eliminates the items with less support. In this way, it can reduce the information loss of the frequent itemsets. This paper also theoretically proves that TrunSuper can produce reasonably accurate results while satisfying differential privacy. Experiments on several real datasets shows that TrunSuper performs better than other previous solutions.

Key words: frequent itemsets mining, differential privacy, transaction truncating, Laplace mechanism

中图分类号: