吴坚%沙晶
WU Jian%SHA Jing
摘要: 面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来完成文档所属类别的判定。在实验中,收集了大量的网络媒体语料,并设定了训练集和测试集,通过对比测试得到了常见算法(包括 kNN、SMO、SVM)与本算法 RF 的对比量化性能数据,证明了本文提出的算法具有较好的综合分类率和分类稳定性。