面向互联网在线视频评论的情感分类技术
李辉1, 倪时策2, 肖佳3, 赵天忠4
1.上海华为技术有限公司,上海 201206
2. 军委政法委侦查技术中心,北京 100120
3.北京邮电大学网络与交换技术国家重点实验室,北京 100876
4. 中国人民解放军78156部队,青海海东 810800
通信作者:肖佳 tonyalex2010@163.com

作者简介:李辉(1989—),男,河南,工程师,硕士,主要研究方向为大数据和自然语言处理;倪时策(1985—),男,浙江,工程师,博士,主要研究方向为大数据和信息安全;肖佳(1983—),男,安徽,工程师,博士研究生,主要研究方向为大数据和信息安全;赵天忠(1972—),男,甘肃,工程师,硕士,主要研究方向为软件定义网络和内容分发网络。

摘要

随着在线视频的大量增长,越来越多的人开始在视频网站上发表对视频的评论。这些评论通常会带有用户的个人情感色彩和视频中的一些关键信息,从而对网络用户的视频观看决策有重要影响。如何自动地对在线视频评论进行情感分类和关键词提取,已成为目前亟待解决的问题。文章重点研究在线视频评论的情感分类技术,分析了不同特征提取和特征选择方法以及不同分类算法对在线视频评论情感分类精度的影响。仿真实验表明,文章提出的在线视频评论情感分类模型具有较高的准确性。

关键词: 情感分类; 分类算法; 特征提取; 特征选择
中图分类号:TP309 文献标志码:A 文章编号:1671-1122(2019)05-0061-08
Emotion Classification Technology for Online Video Comments on the Internet
LI Hui1, NI Shice2, XIAO Jia3, ZHAO Tianzhong4
1. Shanghai Huawei Technology Co. Ltd. , Shanghai 201206, China
2. Investigation Technology Center, PLCMC, Beijing 100120, China
3. State Key Laboratory of Networking and Switching, Beijing University of Posts and Telecommunications, Beijing 100876, China
4. PLA 78156, Haidong Qinghai 810800, China
Abstract

With the rapid growth of online videos, more and more people begin to publish comments on videos of video websites. Users' comments usually include personal emotions and some of the key information about the videos, which makes significant impact on video viewing decisions for Web users. Emotion classification and extracting key words from online video comments automatically have become an urgent problem. This paper focuses on the emotion classification for online video comments, and analyzes the influence of different feature extraction and feature selection methods and different classification algorithms on the accuracy of online video comments emotion classification. Simulation results show that the online video comments emotion classification model proposed in this paper has high accuracy.

Key words: emotion classification; classification algorithm; feature extraction; feature selection
0 引言

近年来互联网技术高速发展, 截止到2018年6月中旬, 网民数量已经高达8亿[1]。越来越多的人开始通过互联网发表自己的态度、感觉、观点、情绪等, 如常见的电影评论、电商产品评论、新闻评论等。这些庞大的信息数据涉及各个行业和领域, 对于舆论引导方预测用户偏好、引导用户选择具有很大的社会价值和商业价值[2]。但是由于互联网网民的个体性, 这些信息通常是片段化、杂乱且没有固定格式的。为了进行舆情分析, 需要对当前互联网上的海量信息数据进行分析。

互联网自身的开放性、虚拟性和互动性使得人们可以在线视频观看时表达情绪、态度以及观点, 这些内容的表现形式大多是非结构化或半结构化的评论文本。随着评论信息的飞速增长, 如何针对特定需求获取这些信息并进行有效分析成为一个难题。在相关研究初期, 研究人员主要关注文本中的客观内容, 将文本按照不同主题, 如经济、科技、文学等, 进行分类(基于文本主题进行分类); 或者提取出文本中与研究对象相关的发生时间、人物和地点等主要信息, 并将这些信息存储到预先设定的框架中。之后是信息检索技术, 如文献[3]所述, 系统可以根据用户给出的关键词或问题进行检索, 返回用户想要的信息。然而, 这些客观的分类方法只能直观地提取文本的字面意思, 难以对文本内容进行深层次的萃取加工, 以获得用户文字背后所表达的真实情绪。文本的情感分类通常是指对评论中的立场、观点等主观信息进行分析, 判断评论中所包含的情感倾向性的类别。文本的情感倾向通常是指文本所表达的正面或反面倾向性以及情感倾向的程度[4]。目前该技术已被应用到产品质量调查、影视评论、社会舆情分析等诸多方面。例如, 对用户发表的电影评论进行情感分析, 对结果进行统计从而得到每部电影基于用户评论的评分。

目前, 文本情感分类研究通常把文本情感倾向分为正面和负面[5]。正面情感是指文本具有积极的态度, 负面情感是指文本具有消极的态度。但是, 由于互联网本身所具有的开放性和随意性等特性, 致使网络上的文本格式和内容也是五花八门, 这就使得情感分类和关键词提取比较困难, 通常需要自然语言处理(NLP)[6]、统计学、语言学等学科的交叉应用[7]。在情感分类的最初研究阶段是使用现成的情感词典对文本进行情感分类。近年来, 国内基于情感词典的情感分类研究有很大发展[8, 9, 10]。这种方法简单、直接, 但是对于一些复杂的句式, 往往会判断错误, 导致准确率很低。此外, 汉语的句式千变万化, 还会有分词问题出现, 所以使用这种方法进行中文情感分类, 效果会较差。

本文针对互联网在线视频评论进行了抓取与解析, 研究了语料库的构建和标注方法并对传统标注方法进行改造; 在对评论进行预处理即分词和去除停用词后, 利用机器学习的方法对电影评论做了正负极性的分类。

1 评论分类模型训练关键技术

为了实现情感分类模型训练, 本文首先对评论进行预处理, 主要包括中文分词和去除停用词; 接着采用综合情感词典的方法, 在对语料进行自动标注的基础上进行人工处理, 利用较少的时间构建较为丰富的语料库; 最后选取特定方法进行特征选择和特征提取, 利用分类算法进行模型训练, 根据准确率反馈不断调整优化, 产生最终的情感分类模型。

1)分词和去除停用词

分词工具通常有Ictclas、Jieba和Stanford CoreNLP等。其中, Stanford CoreNLP的分词速度很慢, 效果一般; Ictclas的分词粒度细, 导致主客观评论分类不正确, 有些客观的不包含情感的评论被分到了主观评论中, 影响了最终效果; Jieba能够避免以上问题, 因此本文选取Jieba对在线视频评论进行中文分词。对于文章包含的情感信息或与文章主题信息关系性不强的停用词, 则采用权威机构定期发布的“ 最全中文停用词表整理” [11]根据需要手动增减。

2)语料标注

在语料库标注方面, 本文综合使用了中科院计算所HowNet和台湾大学NTUSD情感词典, 对评论进行预标注, 然后人工将标注错误的评论删除, 使得最终标注为好评和差评的数目相等。该方法不仅应用了成熟的情感词典, 而且相较于纯人工标注在人力、时间上都有很大的减少[12]

3)特征选择

在情感分类中, 一般从词这个层次进行特征选择[13], 单个词、双词搭配或信息增益较小的词等都是可以作为特征。在具体使用过程中, 本文将这几种特征相结合, 并使用N元算法(N-Gram)对词进行处理。

N元算法基本思想是将文本里面的内容以字节为单位进行大小为N的滑动窗口操作, 形成长度为N的字节片段序列。每一个字节片段称为元(Gram), 对所有元的频度进行统计, 并且按照事先设定好的阈值进行过滤, 形成关键元列表, 也就是该文本的特征空间向量, 列表中的每一种元就是一个特征向量维度。该算法的一个特点是某个词的出现依赖于其他若干词, 另一个特点是获得的信息越多, 模型越准确。N元算法实际上是一种语言模型, 输入是一句话(即单个词的顺序序列), 输出是这句话的概率, 即这些单个词的联合概率。N元算法处理的是一个由N个词组成的集合, 各词具有先后顺序。常用的有2元(Bi-Gram)和3元(Tri-Gram)组合。

本文系统选用词、双词搭配、词和双词搭配的组合这3种方法作为特征, 根据系统最终的准确率、召回率和F1值, 确定系统最终采用的特征。F1值定义如下:

$F_{1}=\frac{2· precision· recall}{precision+recall}$(1)

F1值是一个能从全局角度综合考虑分类结果的评价指标。

4)特征提取

常用的特征提取方法主要有文档频率(DF)、互信息(MI)、信息增益(IG)、期望交叉熵(ECE)和卡方统计(CHI)等[14, 15]。其中, 基于DF的特征提取相对简单、易行、计算量小, 但是存在不足。例如, 包含较多分类信息但出现频率很低的特征会被DF淘汰, 进而降低特征选择的准确率。MI根据特征和类别共同出现的概率, 衡量特征和类别的相关性。MI的一个很大缺点是没有考虑单个词发生的频度, 因而造成MI评估函数经常倾向于稀有词, 显然会影响准确率。IG用于度量词在文本分类中所起的作用, 词的信息增益值越大, 表明它在文本分类中的作用越大, 所具有的类别信息越多。IG的不足之处在于考虑了单个词未出现的情况, 虽然某些词未出现对文本有帮助, 但实际上这种贡献往往小于考虑单个词未出现情况所带来的干扰。另外, 一般需要对每个词的IG排序, 通常还需要不断调整阈值, 保留大于阈值的词所组成的特征子集。本文系统中语料库中的词非常多, 计算信息增益并排序和动态调整阈值都是非常耗时的。ECE也称为KL距离, 反映了文本类别的概率分布和在某个特征条件下, 文本类别的概率分布之间的距离。该方法的优势是不再考虑特征的出现情况, 这大大降低了一些出现次数很少的稀有特征的干扰, 提高了分类效率。缺点是只考虑了特征与类别之间的相关性, 忽略了特征在类内和类间分布的均匀程度。在基于类间集中度和类内分散度的ECE中, 特征的类间集中度越高、类内分散度越高, 就越有可能被选入特征子集。

CHI源自于统计学中的CHI检验, 它能衡量特征t与类别ci之间的相关程度。CHI值越大, 表示特征t与类别ci越相关, 特征t越依赖于类别ci, 从这点来说CHI与MI很相似。但是, 它们对特征的重要性度量是基于不同计算方法和思想的。MI利用两个事件同时出现的概率与单个事件出现的概率的比值来衡量两个事件是否相关, 仅考虑了正相关对特征重要程度的影响, 没有考虑负相关对特征重要程度的影响。CHI避免了上述缺点, 且对特征权重值进行了规范化, 使特征之间可以进行有效的比较。本文系统中, 结果只有两个分类, 因此结合CHI的优点, 基于公式(1)进行训练测试后采用CHI用于本文系统的特征提取。

5)特征降维

在情感分类系统中, 一般用词表示文本特征, 此时文本特征空间包含了文本集合中的所有词, 从而使得一个情感分类问题所对应的文本特征空间高达几百万维, 甚至更高。由于单独的一条评论可能仅由几十个词组成, 而文本特征空间高达几百万维, 所以一条评论在表示成文本特征空间时, 会使得特征空间中很多维的值都为0, 这就造成特征空间的高维性和稀疏性。高维性和稀疏性对系统的分类时间和分类精度都有影响, 因此需要进行特征降维处理。常用的方法是在特征选择和特征提取之后, 对特征值进行从高到低的排序, 取特征值高的一些特征作为降维后的特征集合。特征降维能降低文本特征空间的维数, 不仅能提高分类器的速度, 还能过滤一些无关属性, 从而提高分类精度。本文选择不同的维数进行测试, 基于公式(1)确定了最终的维数值。

6)情感分类算法

基于上述过程构建出对应的文本特征向量之后, 就可以作为情感分类的训练和测试集合, 利用分类算法进行训练, 实现在线视频评论的分类。目前在情感分类方面, 主要的分类算法有逻辑回归(Logistic Regression, LR), 朴素贝叶斯(Naï ve Bayes, NB), 支持向量机(Support Vector Machine, SVM)和决策树(Decision Tree, DT)等[16, 17]

逻辑回归与多元线性回归有相同之处, 都属于广义线性模型。最终目标都是拟合一个线性函数y=θ Tx, 使得预测输出和真实输出的差异最小。对线性回归的结果做一个函数g上的转换(一般用Sigmoid函数), 可以变换为逻辑回归。朴素贝叶斯分类是一种较为简单的分类算法, 基本思想是对于给出的待分类项, 求解出该项出现条件下各个类别出现的概率, 取最大值归类。该算法分类效率较高, 实现简单, 但是在进行情感分类时, 需要先进行训练, 估计类别的先验概率和特征的后验概率后再进行分类。支持向量机是一种按监督学习方式对数据进行二分类的广义线性分类器, 在解决小样本、非线性、高维模式识别中表现出许多特有的优势, 可有效解决其他机器学习方法中的过拟合问题。其决策边界是对学习样本求解的最大超距平面, 该超平面不仅能保证分类的准确率最高, 而且能最大化超平面两侧边缘, 不仅使得分类器在训练集上有较好的分类结果, 且在整个样本集中的经验风险最小。

本文基于公式(1)进行了训练测试, 最终采用逻辑回归方法用作本文系统的分类算法。

2 评论分类模型功能模块设计

本文研究主题是对在线视频评论进行情感分类, 因此本文系统的功能模块主要可以划分为评论抓取模块、评论预处理模块、语料标注模块和情感分类模块。评论抓取模块能够及时抓取在线视频评论, 因此评论抓取模块是情感分类模块的前提。利用较短时间标注丰富的语料是情感分类模型训练的基础。在情感分类模块之前还需要进行中文分词和去除停用词等预处理工作。最后在情感分类模块中利用机器学习技术构建情感分类模型, 根据模型对评论进行情感极性判定。

2.1 评论抓取模块

在解析网页视频源数据时, 可以通过定位特殊字段对数据进行解析, 如通过“ comment” 关键字段取得评论字段的内容。由于JSOUP技术可方便地用来识别结构化网页中的元素, 本文采用该技术进行评论内容的解析[18]。评论抓取模块流程如图1所示。

图1 评论抓取模块流程

2.2 评论预处理模块

评论预处理模块的主要目标是分词和去除停用词, 核心工作是中文分词和停用词典测试设计。

首先对Ictclas和Jieba两种分词工具进行了测试, 数据集为采集的优酷在线视频评论。使用Ictclas分词工具对在线视频评论进行分词时, 能够对中文进行细粒度的分词, 分词结果很好, 但是缺乏相应的灵活性, 很大程度上影响情感分类的结果。使用Jieba分词工具进行分词时, 结果良好, 同时可以添加具体的用户词典, 以确保分词粒度。此外, Jieba分词工具有精确模式、全模式、搜索引擎模式3种不同的分词方式, 非常方便对中文文本的特征提取。通过对比, 本文采用Jieba分词工具对抓取的在线视频评论进行分词, 产生分词列表。

采用分词工具进行分词后, 需要对评论中的停用词进行处理。通常停用词是指句子中的所有虚词, 如“ 的” 、“ 得” 等, 这些词通常没有实际意义, 不能表达一定的情感, 且对这些词的处理非常浪费时间, 所以在情感分类中, 需要先去除停用词。一般去除停用词的方法是, 如果该词在停用词表中, 则从文本中删除该停用词。由于视频评论中还会出现网络用词, 因此需要对从网上下载的中文停用词典进行适度更新。

评论预处理模块流程如图2所示。

图2 评论预处理模块流程

2.3 语料标注模块

使用机器学习方法进行模型训练时, 会面临语料标注的问题。本文综合了两个具体的情感词典(HowNet和NTUSD), 将其划分为程度词词典(按照表达强度划分)和情感极性词典(按照表达的情感极性划分), 依据词典对语料(这里是评论预处理模块产生的结果)进行自动标注。初始时设置每条评论的正、负权重值均为零, 并对每条评论进行如下预处理:如果词未出现在词典中, 则认为该词属于客观评论, 作为中性词直接写入中性数据库; 否则, 认为该词属于主观评论, 留待进行情感极性判定。

预处理完成后, 进入如下情感极性判定过程:

1)判断词是积极词还是消极词, 对评论的正、负权重值进行修改。若是积极词, 正权重值加1; 若是消极词, 负权重值加1。

2)判断该词是否为程度词(考虑否定词), 根据不同的程度, 对词的权重值进行缩放, 具体缩放标准根据该词的表达情感程度确定。

3)取下一词, 如果词未取完, 返回步骤1); 否则, 进入步骤4)。

4)比较该评论正、负权重值的绝对值, 若正权重值大, 则该评论为好评; 若负权重值大, 则为差评。

图3显示了自动标注语料的流程, 在此基础上可以再进行人工二次标注, 采用这种方式不仅节省了时间和人力, 而且提高了标注准确率。

图3 语料标注模块流程

2.4 情感分类模块

情感分类模块流程如图4所示。在情感分类模块中, 情感分类模型的训练是整个模块的核心, 主要步骤包括特征提取和选择、特征降维、分类算法选取、对数据进行训练等。

图4 情感分类模块流程

本文基于自己开发的视频网站大数据采集系统, 抓取在线视频评论数据, 在预处理和语料标注后将其分为测试集和训练集, 构建情感分类模型。在特征选择方面, 分别选择词、双词搭配、词和双词搭配组合作为特征进行测试, 根据F1值确定采用的特征; 在特征提取方面, 采用互信息、卡方统计、信息增益等方法进行测试, 根据F1值确定特征提取方法; 对特征值进行从高到低排序, 根据F1值确定特征维数。在分类算法选取方面, 利用逻辑回归、朴素贝叶斯、支持向量机进行测试, 根据F1值确定分类算法。

F1值的计算主要基于分类的准确率和召回率。准确率(Precision)是指结果判断为该类的样本中, 真正属于该类的样本所占的比例, 它体现了系统判别相关文本的准确性。召回率(Recall)是指被正确判断为该类的样本数与属于该类的样本总数之比, 它体现了系统能够查询相关文本的完备性。

表1给出了评价指标准确率和召回率计算中的变量关系。

表1 评价指标变量关系表

根据表1可得

$Precision=\frac{A}{A+B}$(2)

$Pecall=\frac{A}{A+C}$(3)

3 实验测试与验证
3.1 测试数据

本文抓取的部分在线视频评论数据如图5所示。

图5 部分在线视频评论示例

本文从已抓取的评论中, 随机抽取了24万条评论进行预处理和自动标注, 标注完成后的语料分为好评、差评和中性。图6给出了部分标注后的语料, 每一行就是一条评论。图6中, 上半窗口中均是好评, 下半窗口中均是差评。

图6 部分标注后的语料

将已标注完成的语料作为情感分类模型的训练集和测试集, 按照情感分类模块的详细设计, 选取已标注完成语料的3/4作为训练集, 对情感分类模型进行训练。

3.2 模型训练

在情感分类模型训练中, 主要从特征选择、特征提取与特征降维3个方面基于逻辑回归、朴素贝叶斯、支持向量机3种分类算法进行测试, 计算如公式(1)所示的F1值, 选取该模型不同阶段的最优方法。

1)特征选择对比

在特征选择方面, 分别选择了词、双词搭配、词和双词搭配组合作为特征进行测试。从图7可以看出, 当选择词和双词搭配组合作为特征时, 3种分类算法的F1值达到最优, 因此在特征选择方面, 选取词和双词搭配组合作为特征。

图7 特征选择对比

2)特征提取对比

在特征提取方面, 分别测试了互信息、卡方统计、信息增益等特征提取方法。从图8可以看出, 当选用卡方统计作为特征提取方法时, 3种分类算法的F1值达到最优, 因此在特征提取方面, 选用卡方统计作为特征提取方法。

图8 特征提取对比

3)特征降维对比

在特征降维方面, 选择特征的不同维数进行测试。从图9可以看出, 当特征维数保持在65万时, 3种分类算法的F1值达到最优, 因此在特征降维方面, 确定特征维数为65万。

图9 特征降维对比

4)分类算法对比

由图7~图9可知, 逻辑回归分类算法在上述3个方面均能够使模型效率达到最高, 因此采用逻辑回归算法作为情感分类模型的分类算法。

基于上述实验过程, 本文定义了若干方法来构建该模型。首先, 通过create_word_bigram_scores方法选取语料中的词和双词搭配作为特征, 并计算语料的卡方统计量。然后, 根据find_best_words方法对特征进行降维。最后, 从Pos_features和Neg_features方法输出的结果构成的特征集中, 随机抽取3/4作为训练集, 其余作为测试集, 通过分类算法对训练集进行训练, 产生分类模型。

3.3 测试结果

对情感分类模型进行测试时, 以语料库的24万条评论为基础, 分3次训练情感分类模型。然后利用该分类模型, 分3次随机抽取视频评论抓取数据库中的100万条评论进行分类测试, 将分类结果写入数据库中。

1)耗费时间对比

训练情感分类模型和对100万条评论进行情感分类耗费时间如表2所示。

表2 耗费时间对比

2)情感分类结果

图10所示为部分情感分类结果, 包含“ commentID” (评论的ID)、“ content” (评论的内容)、“ postive” (评论的正权重值)和“ negtive” (评论的负权重值)。

图10 部分情感分类结果

从语义理解的角度可知, 本文提出的情感分类模型对在线视频评论的情感极性判别准确性很高。在稳定运行的基础上, 可以采用该系统抓取在线视频评论进行情感分类, 同时采集相关数据作为预测基础。

4 结束语

本文对在线视频评论的情感分类技术进行了研究, 设计了对在线视频评论有效的情感分类模型。分类结果表明本文模型具有较高的分类准确率。但是目前基于分布式的机器学习正在发展, 本文所使用的基于单机的模型训练已不能适用于当前的数据量。在后续研究中将会关注自然语言处理、机器学习和Spark Mllib等技术的融合, 进一步研究高效的特征选择算法, 构建基于人工智能的自动化分类模型。

The authors have declared that no competing interests exist.

参考文献
[1] YE Qiang, SHI Wen, LI Yijun. Sentiment Classification for Movie Reviews in Chinese by Improved Semantic Oriented Approach[C]//HICSS. The 39th Annual Hawaii International Conference on System Sciences, January 4-7, 2006, Kauia, HI, USA. NJ: IEEE, 2006: 53b. [本文引用:1]
[2] SHENG Chengcheng, ZHU Yong, LIU Tao. Public Opinion Analysis Based on Weibo Socail Network[J]. Intelligent Computer and Applications, 2019, 9(1): 57-64.
盛成成, 朱勇, 刘涛. 基于微博社交平台的舆情分析[J]. 智能计算机与应用, 2019, 9(1): 57-64. [本文引用:1]
[3] DAVE K, LAWRENCE S, PENNOCK D M. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews[C]// ACM. The 12th International Conference on World Wide Web, May 20 - 24, 2003, Budapest, Hungary. New York: ACM, 2003: 519-528. [本文引用:1]
[4] CHEN Zhi, LI Peng. Text Sentiment Classification Based on Mutual Information and Cluster Sampling[J]. Modern Computer, 2015(4): 14-20.
陈智, 李鹏. 利用互信息和聚类抽样的文本情感分类[J]. 现代计算机: 普及版, 2015(4): 14-20. [本文引用:1]
[5] WAN Houbin. Research on Feature Dimension Reduction in Text Classification[D]. Chongqing: Chongqing University, 2012.
万斌候. 文本分类中的特征降维方法研究[D]. 重庆: 重庆大学, 2012. [本文引用:1]
[6] GAO Yuan. An Overview of the Development and Application of Natural Language Processing[J]. China New Telecommunications, 2019, 21(2): 117-118.
高源. 自然语言处理发展与应用概述[J]. 中国新通信, 2019, 21(2): 117-118. [本文引用:1]
[7] LIU Zhixiang. Research and Implementation of Two Text Categorization Algorithms[D]. Changchun: Jilin University, 2008.
刘智祥. 两种文本分类算法的研究与实现[D]. 长春: 吉林大学, 2008. [本文引用:1]
[8] KIM J, CHOE D, KIM G, et al. Noise Removal Using TF-IDF Criterion for Extracting Patent Keyword[M]// Springer. Soft Computing in Big Data Processing. Cham: Springer, Cham, 2014: 1107-1127. [本文引用:1]
[9] CUI Hang, MITTAL V, DATAR M. Comparative Experiments on Sentiment Classification for Online Product Reviews[C]//AAAI. The 21st National Conference on Artificial Iintelligence, July 16-20, 2006, Boston, Massachusetts, USA. Palo Alto: AAAI Press, 2006: 61-80. [本文引用:1]
[10] YANG Liyue, WANG Yizhi. Research on Construction and Analysis of Emotion Dictionary in Emotion Analysis of Micro-blog[J]. Computer Technology and Development, 2019(2): 13-18.
杨立月, 王移芝. 微博情感分析的情感词典构造及分析方法研究[J]. 计算机技术与发展, 2019(2): 13-18. [本文引用:1]
[11] CSDN. 最全中文停用词表整理[EB/OL]. http://blog.csdn.net/shijiebei2009/article/details/39696571, 2014-9-30. [本文引用:1]
[12] PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: Sentiment Classification Using Machine Learning Techniques[C]//EMNLP. Conference on Empirical Methods in Natural Language Processing, July 6-7, 2002, Philadelphia, PA, USA. Association for Computational Linguistics, 2002: 79-86. [本文引用:1]
[13] DAI Liuling, HUANG Heyan, CHEN Zhaoxiong. A Comparative Study on Feature Selection in Chinese Text Categorization[J]. Journal of Chinese Information Processing, 2004, 18(1): 26-32.
代六玲, 黄河燕, 陈肇雄. 中文文本分类中特征抽取方法的比较研究[J]. 中文信息学报, 2004, 18(1): 26-32. [本文引用:1]
[14] LIU Zhiming, LIU Lu. Empirical Study of Sentiment Classification for Chinese Microblog Based on Machine Learning[J]. Computer Engineering and Applications, 2012, 48(1): 1-4.
刘志明, 刘鲁. 基于机器学习的中文微博情感分类实证研究[J]. 计算机工程与应用, 2012, 48(1): 1-4. [本文引用:1]
[15] ZHOU Jun, HE Li, HAN Weihong, et al. Research of Tendency Algorithm for Chinese Comments based on Machine Learning[J]. Netinfo Security, 2013, 13(10): 164-166.
周军, 何力, 韩伟红, . 基于机器学习的中文评论倾向性分类实证研究[J]. 信息网络安全, 2013, 13(10): 164-166. [本文引用:1]
[16] DAI Wei. A Solution to Text Classification with Logical Regression[J]. Telecom World, 2018(8): 266-267.
戴维. 逻辑回归解决文本分类问题[J]. 通讯世界, 2018(8): 266-267. [本文引用:1]
[17] WANG Xinyu, ZHAO Mingtao, GUI Yang. Research on Face Recgnition Based on Classification Algorithms[J]. Journal of Jiaozuo University, 2019, 33(1): 56-61.
王欣宇, 赵明涛, 桂扬. 基于分类算法的人脸识别研究[J]. 焦作大学学报, 2019, 33(1): 56-61. [本文引用:1]
[18] WAN Yueliang, ZHU Hejun, LIU Hongzhi. Research on Web Page Classification Method Based on Web Page Structural Tendency[J]. Netinfo Security, 2009, 9(9): 76-79.
万月亮, 朱贺军, 刘宏志. 基于网页结构化倾向的网页分类方法研究[J]. 信息网络安全, 2009, 9(9): 76-79. [本文引用:1]