信息网络安全 ›› 2014, Vol. 14 ›› Issue (11): 30-35.doi: 10.3969/j.issn.1671-1122.2014.11.005
收稿日期:
2014-09-28
出版日期:
2014-11-01
发布日期:
2020-05-18
作者简介:
作者简介: 曾凡锋(1966-),男,江西,副研究员,硕士,主要研究方向:面向对象技术、信息安全、图像处理、智能控制、系统辨识等;朱万山(1988-),男,吉林,硕士研究生,主要研究方向:信息安全;王景中(1962-),男,内蒙古,教授,硕士,主要研究方向:计算机通信网络与信息安全技术。
基金资助:
ZENG Fan-feng, ZHU Wan-shan(), WANG Jing-zhong
Received:
2014-09-28
Online:
2014-11-01
Published:
2020-05-18
摘要:
在当前的大数据时代,互联网上的博客、论坛产生了海量的主观性评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了,那么,如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题,中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法,分析了文档频率和互信息算法的不足,通过对两个算法的对比和研究,结合文本特征与文本类型的相关度和文本褒贬特征的出现概率,提出了改进的文本特征选择算法(MIDF)。实验结果表明,MIDF算法对文本褒贬倾向性分类是有效的。
中图分类号:
曾凡锋, 朱万山, 王景中. 大数据时代中文文本褒贬倾向性分类研究[J]. 信息网络安全, 2014, 14(11): 30-35.
ZENG Fan-feng, ZHU Wan-shan, WANG Jing-zhong. Research on Chinese Text Appraisive Classification in the Present Era of Big Data[J]. Netinfo Security, 2014, 14(11): 30-35.
[1] | 陶县俊.情感Ontology构建及其网络舆情文本倾向分析[D].新乡:河南师范大学,2009. |
[2] | Tumey Peter.Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002:417-424. |
[3] | Kamps J,Marx M, Mokken R J, ea al. Using WordNet to measure semantic orientation of adjectives[C]//Proceedings of LREC-04,4th International Conference on Language Resources and Evaluation,Lisbon, 2004: 1115-1118. |
[4] | Pang B, Lee L.Seeing Stars: Exploiting Class Relationships for Sentiment Categorization with Respect to Rating Scales[C]//Proceedings of the Association for Computational Linguistics(ACL), 2005:115-124. |
[5] | Yu H, Hatzivassiloglou V.Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//M. Collins and M. Steedman (eds): Proceed of EMNLP-03. 8th Conference on Empirical Methods in Natural Language Processing . Sapporo. Japan, 2003: 129-136. |
[6] | Sista S P, Srinicasan S H.Polarized lexicon for review classification[C]//Proceedings of ICAI-04,the International Conference on Artificial Intelligence. Las Vegas, USA, CSREA Press, 2004:867-872. |
[7] | Fei Zhongchao, Liu Jian, Wu Gengfeng.Sentiment Classification Using Phrase Pattens[C]//The Fourth Intemational Confereneeon Computerand Information Technology,2004:1147-1157. |
[8] | 朱嫣岚,闵锦,周雅倩,等.基于HowNet 的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. |
[9] | Turney P.Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proc. of the Meeting of the Association for Computational Linguistics (ACL'02), 2002:417-424. |
[10] | Qiang Ye, Wen Shi, Yijun Li.Sentiment Classification for Movie Reviews in Chinese by Improved Semantic Oriented Approach[C]//Proceedings of the 39th Hawaii International Conference on System Sciences, 2006. |
[11] | Hu M, Liu B, Mining and Summary Customer Reviews[C]//KDD'04, 2004. |
[12] | Bin Shi, Kuiyu Chang.Mining Chinese Reviews[C]//Sixth IEEE International Conference on Data Mining-Workshops(ICDMW'06),2006. |
[13] | 路斌,万小军,杨建武,等.基于同义词词林的词汇褒贬计算[C]//Proceedings of the 7th International Conference on Chinese Computing, wuhan,2007:17-23. |
[14] | 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J]. 中文信息学报,2007,21(1):96-100. |
[15] | Wei Wei,Liu Hongyan,He Jun,ea al.Extracting Feature and Opinion Words Effectively from Chinese Product Reviews[C]//Proceedings of the fifth International Conference on Fuzzy Systems and Konwledge Discovery FSKD,2008. |
[16] | Changli Zhang, Wanli Zuo, Tao Peng, et al.Sentiment Classification for Chinese Reviews Using Machine Learning Methods Based on String Kernel[C]//Third 2008 International Conference on Convergence and Hybrid Information Technology,2008. |
[17] | Kim S M, Hovy E.Automatic Detection of Opinion Bearing words and Sentences[C]//The Second International Joint Conference on Natral Language Processing.Jeju Island, KR, 2005:61-66. |
[18] | Salton G,Wong A,Yang C S.A Vector Space Model for Auto-matic Indexing[J].Communications of the ACM,1975,18(5):613-620. |
[19] | 朱颖东,钟勇.一种新的基于多启发的特征选择方法[J].计算机应用,2009,29(3):849-851. |
[20] | 李荣陆. 文本分类及相关技术研究[D].上海:复旦大学,2005. |
[21] | 尚文倩. 文本分类及其相关技术研究[D].北京:北京交通大学,2007. |
[22] | 吴鹏. 支持向量机文本分类算法的研究及其应用[D].大连:大连理工大学,2009. |
[1] | 黄旺旺, 周骅, 王代强, 赵麒. 基于国密SM9的物联网可重构密钥安全认证协议设计[J]. 信息网络安全, 2024, 24(7): 1006-1014. |
[2] | 张晓均, 张楠, 郝云溥, 王周阳, 薛婧婷. 工业物联网系统基于混沌映射三因素认证与密钥协商协议[J]. 信息网络安全, 2024, 24(7): 1015-1026. |
[3] | 张继威, 王文俊, 牛少彰, 郭向阔. 区块链扩展解决方案:ZK-Rollup综述[J]. 信息网络安全, 2024, 24(7): 1027-1037. |
[4] | 张立强, 路梦君, 严飞. 一种基于函数依赖的跨合约模糊测试方案[J]. 信息网络安全, 2024, 24(7): 1038-1049. |
[5] | 董云云, 朱玉玲, 姚绍文. 基于改进U-Net和混合注意力机制的高质量全尺寸图像隐写方法[J]. 信息网络安全, 2024, 24(7): 1050-1061. |
[6] | 周书丞, 李杨, 李传荣, 郭璐璐, 贾辛洪, 杨兴华. 基于上下文的异常根因算法[J]. 信息网络安全, 2024, 24(7): 1062-1075. |
[7] | 任昌禹, 张玲, 姬航远, 杨立群. 基于预训练模型和中英文威胁情报的TTP识别方法研究[J]. 信息网络安全, 2024, 24(7): 1076-1087. |
[8] | 蔡满春, 席荣康, 朱懿, 赵忠斌. 一种Tor网站多网页多标签指纹识别方法[J]. 信息网络安全, 2024, 24(7): 1088-1097. |
[9] | 项慧, 薛鋆豪, 郝玲昕. 基于语言特征集成学习的大语言模型生成文本检测[J]. 信息网络安全, 2024, 24(7): 1098-1109. |
[10] | 申秀雨, 姬伟峰. 考虑安全的边—云协同计算卸载成本优化[J]. 信息网络安全, 2024, 24(7): 1110-1121. |
[11] | 赵新强, 范博, 张东举. 基于威胁发现的APT攻击防御体系研究[J]. 信息网络安全, 2024, 24(7): 1122-1128. |
[12] | 问闻, 刘钦菊, 邝琳, 任雪静. 隐私保护体系下网络威胁情报共享的研究现状和方案设计[J]. 信息网络安全, 2024, 24(7): 1129-1137. |
[13] | 刘一丹, 马永柳, 杜宜宾, 程庆丰. 一种车联网中的无证书匿名认证密钥协商协议[J]. 信息网络安全, 2024, 24(7): 983-992. |
[14] | 罗铭, 詹骐榜, 邱敏蓉. 面向V2I通信的异构跨域条件隐私保护环签密方案[J]. 信息网络安全, 2024, 24(7): 993-1005. |
[15] | 李增鹏, 王思旸, 王梅. 隐私保护近邻检测研究[J]. 信息网络安全, 2024, 24(6): 817-830. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||