信息网络安全 ›› 2019, Vol. 19 ›› Issue (2): 43-52.doi: 10.3969/j.issn.1671-1122.2019.02.006
收稿日期:
2018-12-20
出版日期:
2019-02-10
发布日期:
2020-05-11
作者简介:
作者简介:傅彦铭(1976—),男,广西,副教授,博士,主要研究方向为人工智能与信息安全;李振铎(1990—),男,河南,硕士研究生,主要研究方向为人工智能与信息安全。
基金资助:
Received:
2018-12-20
Online:
2019-02-10
Published:
2020-05-11
摘要:
k-means++聚类算法是为了解决k-means聚类算法的准确度受其初始中心点选取的影响较大的问题而提出的,在聚类过程中,需要对相关的隐私数据提供保护。差分隐私模型定义了一种具有最大背景知识假设的攻击模型,并且能对隐私保护强度进行量化分析。文章提出一种基于拉普拉斯机制的差分隐私保护k-means++聚类算法(DPk-means++聚类算法),在初始化选取中心点和迭代求均值中心点的过程中,分别根据拉普拉斯机制添加噪声,解决了k-means++聚类算法随机选取初始化中心点隐私泄露的问题和迭代求簇心隐私泄露问题。通过实验分别对隐私预算动态变化对比及聚类准确性结果进行分析,DPk-means++聚类算法能够在隐私预算参数范围内且保证聚类准确性的前提下,实现对数据隐私提供不同级别的保护。
中图分类号:
傅彦铭, 李振铎. 基于拉普拉斯机制的差分隐私保护k-means++聚类算法研究[J]. 信息网络安全, 2019, 19(2): 43-52.
Yanming FU, Zhenduo LI. Research on k-means++ Clustering Algorithm Based on Laplace Mechanism for Differential Privacy Protection[J]. Netinfo Security, 2019, 19(2): 43-52.
[1] | LU Tianliang, WANG Qiao, LIU Yingqing.Problems of User’s Privacy Leakage During Insecure Communication[J]. Netinfo Security, 2015, 15(9): 119-123. |
芦天亮,王侨, 刘颖卿. 不安全通信中的用户隐私泄露问题[J]. 信息网络安全,2015,15(9):119-123. | |
[2] | FANG Yuejian, ZHU Jinzhong, ZHOU Wen, et al.A Survey on Data Mining Privacy Protection Algorithms[J]. Netinfo Security, 2017, 17(2): 6-11. |
方跃坚,朱锦钟,周文,等. 数据挖掘隐私保护算法研究综述[J]. 信息网络安全,2017,17(2):6-11. | |
[3] | LIU Yahui, ZHANG Tieying, JIN Xiaolong, et al.Personal Privacy Protection in the Era of Big Data[J]. Journal of Computer Research and Development, 2015, 52(1): 1-19. |
刘雅辉,张铁赢,靳小龙,等. 大数据时代个人隐私保护[J]. 计算机研究与发展,2015,52(1):1-19. | |
[4] | HU Haibo, XU Jianliang, XU Xizhong, et al.Private Search on Key-value Stores with Hierarchical Indexes[C]//IEEE. IEEE 30th International Conference on Data Engineering, March 31-April 4, 2014, Chicago, IL, USA. New Jersey: IEEE, 2014: 628-639. |
[5] | DWORK C.Differential Privacy[C]//Springer. 33rd International Conference on Automata, Languages and Programming, July 10-14, 2006, Venice, Italy. Heidelberg: Springer, 2006: 1-12. |
[6] | WU Weimin, HUANG Huankun.A DP-DBScan Clustering Algorithm Based on Differential Privacy Preserving[J]. Computer Engineering and Science, 2015, 37(4): 830-834. |
吴伟民,黄焕坤. 基于差分隐私保护的DP—DBScan聚类算法研究[J]. 计算机工程与科学,2015,37(4):830-834. | |
[7] | MA Yinfang, ZHANG Lin.KDCK-medoids Dynamic Clustering Algorithm Based on Differential Privacy[J]. Computer Science, 2016, 43(z2): 368-372. |
马银方,张琳. 基于差分隐私保护的KDCK-medoids动态聚类算法[J]. 计算机科学,2016,43(z2):368-372. | |
[8] | ZHANG Yao, LI Shuyu, LI Zekun, et al.Differential Privacy Protection BIRCH Algorithm[J]. Journal of Southeast University(Natural Science Edition), 2017(s1): 140-144. |
张瑶,李蜀瑜,李泽堃,等. 差分隐私保护BIRCH算法[J]. 东南大学学报:自然科学版,2017(s1):140-144. | |
[9] | WANG Hao, XU Zhengquan.Differential privacy protection method for trajectory clustering[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2018, 46(1): 32-36. |
王豪,徐正全. 面向轨迹聚类的差分隐私保护方法[J]. 华中科技大学学报:自然科学版,2018,46(1):32-36. | |
[10] | LI Hongcheng, WU Xiaoping, CHEN Yan. k-means Clustering Method Preserving Differential Privacy in MapReduce Framework[J]. Journal on Communications, 2016, 37(2): 124-130. |
李洪成,吴晓平,陈燕. MapReduce框架下支持差分隐私保护的k-means聚类方法[J]. 通信学报,2016,37(2):124-130. | |
[11] | DWORK C, MCSHERRY F, NISSIM K, et al.Calibrating Noise to Sensitivity in Private Data Analysis[C]//Springer. 2006 Theory of Cryptography Conference, March 4-7, 2006, New York, NY, USA. Heidelberg: Springer, 2006: 265-284. |
[12] | DANDEKAR P, FAWAZ N, IOANNIDIS S.Privacy Auctions for Recommender Systems[C]//Springer. 2012 International Workshop on Internet and Network Economics, December 10-12, 2012, Liverpool, United Kingdom. Heidelberg: Springer, 2012: 309-322. |
[13] | GAO Zhiqiang, SUN Yixiao, CUI Xiaolong, et al.Privacy-Preserving Hybrid K-Means[J]. International Journal of Data Warehousing and Mining, 2018, 14(2): 1-17. |
[14] | LI Yang, HAO Zhifeng, WEN Wen, et al.Research on Differential Privacy Preserving k-means Clustering[J]. Computer Science, 2013, 40(3): 287-290. |
李杨,郝志峰,温雯,等. 差分隐私保护k-means聚类方法研究[J]. 计算机科学,2013,40(3):287-290. | |
[15] | VISWANATH P.Histogranm-based Estimation Techniques in Databases[D]. Madison: University of Wisconsirr-Madison, 1997. |
[1] | 蒋辰, 杨庚, 白云璐, 马君梅. 面向隐私保护的频繁项集挖掘算法[J]. 信息网络安全, 2019, 19(4): 73-81. |
[2] | 冯新扬, 沈建京. 一种基于Yarn云计算平台与NMF的大数据聚类算法[J]. 信息网络安全, 2018, 18(8): 43-49. |
[3] | 陆勰, 罗守山, 张玉梅. 基于Hadoop的海量安全日志聚类算法研究[J]. 信息网络安全, 2018, 18(8): 56-63. |
[4] | 赵薇, 赵娜, 张怡兴. 基于颜色不变特征的谱聚类双分图分割方法[J]. 信息网络安全, 2018, 18(12): 8-14. |
[5] | 何利, 姚元辉. 基于上下文聚类的云虚拟机异常检测与识别策略[J]. 信息网络安全, 2018, 18(12): 54-65. |
[6] | 王毅, 唐勇, 卢泽新, 俞昕. 恶意代码聚类中的特征选取研究[J]. 信息网络安全, 2016, 16(9): 64-68. |
[7] | 蔡霖翔. 网络诈骗案件涉案人群智能分析[J]. 信息网络安全, 2016, 16(9): 246-250. |
[8] | 张士豪, 顾益军, 张俊豪. 微博自动分类系统设计[J]. 信息网络安全, 2016, 16(1): 81-87. |
[9] | 张越今, 丁丁. 敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全, 2015, 15(9): 170-174. |
[10] | 张付霞, 蒋朝惠. 一种基于网格聚类的查询隐私匿名算法研究[J]. 信息网络安全, 2015, 15(8): 53-58. |
[11] | 张士豪, 顾益军, 张俊豪. 基于用户聚类的热门微博分类研究[J]. 信息网络安全, 2015, 15(7): 84-89. |
[12] | 陈晓, 赵晶玲. 大数据处理中混合型聚类算法的研究与实现[J]. 信息网络安全, 2015, 15(4): 45-49. |
[13] | 高悦,王文贤,杨淑贤. 一种基于狄利克雷过程混合模型的文本聚类算法[J]. 信息网络安全, 2015, 15(11): 60-65. |
[14] | 郑飞, 张蕾. 基于分类的中文微博热点话题发现方法研究[J]. 信息网络安全, 2014, 14(9): 127-131. |
[15] | . 基于模糊测试的网络协议自动化漏洞挖掘工具设计与实现[J]. , 2014, 14(6): 23-. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||