信息网络安全 ›› 2017, Vol. 17 ›› Issue (1): 57-62.doi: 10.3969/j.issn.1671-1122.2017.01.009
收稿日期:
2016-10-01
出版日期:
2017-01-20
发布日期:
2020-05-12
作者简介:
作者简介: 张谦(1987—),男,贵州,博士研究生,主要研究方向为网络信息安全、数据挖掘;高章敏(1991—),男,湖北,硕士研究生,主要研究方向为数据挖掘与机器学习;刘嘉勇(1962—),男,四川,教授,博士,主要研究方向为网络数据分析与信息安全。
基金资助:
Qian ZHANG(), Zhangmin GAO, Jiayong LIU
Received:
2016-10-01
Online:
2017-01-20
Published:
2020-05-12
摘要:
随着微博等社会化媒体的信息量急剧膨胀,人们迫切需要实现这些信息的自动分类处理,以帮助用户快速查找所需信息和过滤垃圾信息。针对传统文本分类模型存在的特征维数灾难、无语义特征等问题,文章基于Word2vec模型对微博短文本进行了分类研究。鉴于Word2vec模型无法区分文本中词汇的重要程度,进一步引入TFIDF对Word2vec词向量进行加权,实现加权的Word2vec分类模型。最后合并加权Word2vec和TFIDF两种模型,实验结果表明合并后模型分类准确率高于加权Word2vec模型和使用TFIDF的传统文本分类模型。
中图分类号:
张谦, 高章敏, 刘嘉勇. 基于Word2vec的微博短文本分类研究[J]. 信息网络安全, 2017, 17(1): 57-62.
Qian ZHANG, Zhangmin GAO, Jiayong LIU. Research of Weibo Short Text Classification Based on Word2vec[J]. Netinfo Security, 2017, 17(1): 57-62.
[1] | 刘丽清. 微博虽“微” 足值道尔——微博特性之浅析[J]. 东南传播, 2009 (11): 153-154. |
[2] | 崔争艳, CUIZheng-yan. 基于语义的微博短信息分类[J]. 现代计算机:专业版, 2010(8):18-20. |
[3] | 代六玲, 黄河燕, 陈肇雄. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报, 2004, 18(1): 26-32. |
[4] | JOACHIMS T.Text Categorization with Support Vector Machines: Learning with many Relevant Features[M]. Berlin Heidelberg: Springer, 1998. |
[5] | SALTON G, WONG A, YANG C S.A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620. |
[6] | BERRY M W.Survey of Text Mining[J]. Computing Reviews, 2004, 45(9): 548. |
[7] | BANERJEE S, RAMANATHAN K, GUPTA A.Clustering Short Texts Using Wikipedia[C] // ACM. SIGIR 2007: Proceedings of the, International ACM SIGIR Conference on Research and Development in Information Retrieval, July 23 -27, 2007, Amsterdam, the Netherlands. New York: ACM, 2007:787-788. |
[8] | HU X, SUN N, ZHANG C, et al.Exploiting Internal and External Semantics For the Clustering Of Short Texts Using World Knowledge[C] // ACM. ACM Conference on Information and Knowledge Management, CIKM 2009, November 2-6, 2009, Hong Kong, China. New York: ACM, November. 2009: 919-928. |
[9] | LIU Z, YU W, CHEN W, et al.Short Text Feature Selection for Micro-Blog Mining[C] // IEEE. International Conference on Computational Intelligence and Software Engineering, December 10-12, 2010, New York. New York: IEEE, 2010: 1-4. |
[10] | 王盛,樊兴华,陈现麟. 利用上下位关系的中文短文本分类[J]. 计算机应用,2010,30(3): 603-606. |
[11] | 范云杰,刘怀亮. 基于维基百科的中文短文本分类研究[J]. 现代图书情报技术,2012(3): 47-52. |
[12] | 赵辉. 一种基于维基百科的中文短文本分类算法[J]. 图书情报工作,2013,57(11):120-124. |
[13] | 翟延冬,王康平,张东娜,等. 一种基于WordNet 的短文本语义相似性算法[J]. 电子学报,2012,40(3):617-620. |
[14] | 宁亚辉,樊兴华,吴渝. 基于领域词语本体的短文本分类[J]. 计算机科学,2009,36(3):142-145. |
[15] | BOLLEGALA D, MATSUO Y, ISHIZUKA M. Measuring Semantic Similarity between Words Using Web Search Engines[EB/OL]. , 2016-12-2. |
[16] | SAHAMI M, HEILMAN T D.A Web-based Kernel Function for Measuring the Similarity of Short Text Snippets[C] //IEEE. International Conference on World Wide Web, WWW 2006, May 23-26, 2006, Edinburgh, Scotland, UK. NewYork: IEEE, 2006: 377-386. |
[17] | 王鹏, 樊兴华. 中文文本分类中利用依存关系的实验研究[J]. 计算机工程与应用, 2010, 46(3): 131-133. |
[18] | ZELIKOVITZ S, HIRSHi H.Improving Short Text Classification Using Unlabeled Background Knowledge to Assess Document Similarity[C] // IEEE. Proceedings of the seventeenth international conference on machine learning, June 29 - July 2, 2000, San Francisco, USA. San Francisco: Morgan Kaufmann Publishers Inc, 2000: 1183-1190. |
[19] | BLEI D M, NG A Y, JORDAN M I.Latent Dirichlet Allocation[J]. the Journal of Machine Learning Research, 2003( 3): 993-1022. |
[20] | PHAN X H, NGUYEN L M, HORIGUCHI S.Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections[C] //北京航空航天大学,国际万维网会议委员会. The 17th International Conference on World Wide Web,April 21-25, 2008, Beijing, China. Beijing:国际万维网会议委员会,2008:91-100. |
[21] | CHEN M, JIN X, SHEN D. Short Text Classification Improved by Learning Multi-granularity Topics[C] // International Joint Conference on Artificial Intelligence, July 16-22, 2011, Barcelona, Catalonia,Spain. |
New York: AAAI Press, 2011:1776-1781. | |
[22] | 方东昊. 基于LDA 的微博短文本分类技术的研究与实现[D].沈阳:东北大学, 2011. |
[23] | 吕超镇,姬东鸿,吴飞飞. 基于LDA 特征扩展的短文本分类[J]. Computer Engineering and Applications, 2015, 51(4): 6-7. |
[24] | MIKOLOV T, CHEN K, CORRADO G, et al.Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013(1):28-36. |
[25] | LILLEBERG J, ZHU Y, ZHANG Y.Support Vector Machines and Word2vec for Text Classification with Semantic Features[C]// IEEE, International Conference on Cognitive Informatics & Cognitive Computing, July 6-8, 2015, Beijing, China. New York: IEEE, 2015:136-140. |
[26] | 李静梅, 孙丽华. 一种文本处理中的朴素贝叶斯分类器[J]. 哈尔滨工程大学学报, 2003, 24(1): 71-74. |
[27] | 张士豪,顾益军,张俊豪. 基于用户聚类的热门微博分类研究[J]. 信息网络安全,2015(7):84-89. |
[28] | 施聪莺, 徐朝军, 杨晓江. TFIDF 算法研究综述[J]. 计算机应用, 2009, 29(B06): 167-170. |
[29] | 张玉芳, 彭时名, 吕佳. 基于文本分类 TFIDF 方法的改进与应用[J]. 计算机工程, 2006, 32(19): 76-78. |
[30] | 张越今,丁丁. 敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全,2015(9):170-174. |
[31] | PATEL B, SHAH D.Significance of Stop Word Elimination in Meta Search Engine[C]//IEEE. International Conference on Intelligent Systems and Signal Processing, March 1-2, 2013, G H Patel College of Engineering and Technology, Vallabh Vidyanagar, Gujarat, India. New York: IEEE, 2013:52-55. |
[32] | BRAZDIL P B, SOARES C, DA COSTA J P. Ranking Learning Algorithms: Using IBL and Meta-learning on Accuracy and Time Results[J]. Machine Learning, 2003, 50(3): 251-277. |
[33] | WOLF L, HANANI Y, BAR K, et al.Joint word2vec Networks for Bilingual Semantic Representations[J]. International Journal of Computational Linguistics and Applications, 2014, 5(1): 27-44. |
[1] | 乔延臣, 姜青山, 古亮, 吴晓明. 基于汇编指令词向量与卷积神经网络的恶意代码分类方法研究[J]. 信息网络安全, 2019, 19(4): 20-28. |
[2] | 胡建伟, 赵伟, 闫峥, 章芮. 基于机器学习的SQL注入漏洞挖掘技术的分析与实现[J]. 信息网络安全, 2019, 19(11): 36-42. |
[3] | 和湘, 刘晟, 姜吉国. 基于机器学习的入侵检测方法对比研究[J]. 信息网络安全, 2018, 18(5): 1-11. |
[4] | 宋金伟, 杨进, 李涛. 基于加权支持向量机的Domain Flux僵尸网络域名检测方法研究[J]. 信息网络安全, 2018, 18(12): 66-71. |
[5] | 苏静, 路文玲, 赵毅强, 史艳翠. 基于支持向量机的硬件木马检测建模与优化[J]. 信息网络安全, 2017, 17(8): 33-38. |
[6] | 宋伟, 杨培, 于京, 姜薇. 基于视觉语义概念的暴恐视频检测[J]. 信息网络安全, 2016, 16(9): 12-17. |
[7] | 张晓惠, 林柏钢. 基于平衡二叉决策树SVM算法的物联网安全研究[J]. 信息网络安全, 2015, 15(8): 20-25. |
[8] | 戚名钰, 刘铭, 傅彦铭. 基于PCA的SVM网络入侵检测研究[J]. 信息网络安全, 2015, 15(2): 15-18. |
[9] | . 基于区域性构建支持向量机模型的空域水印算法[J]. , 2014, 14(2): 32-. |
[10] | 晁沛;周亚建. 基于区域性构建支持向量机模型的空域水印算法[J]. , 2014, 14(2): 0-0. |
[11] | 宋健豪;赵刚;宋君易. 基于离线检测的SVMNIDS模式研究[J]. , 2012, 12(9): 0-0. |
[12] | 黄华军;钱亮;王耀钧. 基于异常特征的钓鱼网站URL检测技术[J]. , 2012, 12(1): 0-0. |
[13] | 李虎;邹鹏;贾焰;周斌. 一种基于MapReduce的分布式文本数据过滤模型研究[J]. , 2011, 11(9): 0-0. |
[14] | 郑辉. 基于KPCA组合核函数SVM的网络危险因素识别[J]. , 2010, (2): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||