您的当前位置:首页正文

基于模糊集的网络新闻评论的情感特征提取研究

2021-01-10 来源:钮旅网
云南民族大学学报:自然科学版,2014,23(4):273—276 doi:10.3969/j.issn.1672—8513.2014.04.011 CN 53—1192/N ISSN 1672—85l3 http://xb.ynni.edu.an 基于模糊集的网络新闻评论的情感特征提取研究 庄 丽,余玉梅,江涛,丁冬冬,王米利,刘敬凤 (云南民族大学数学与计算机科学学院,云南昆明650031) 摘要:介绍了情感分析中情感特征提取的难点,提出了利用模糊理论和语义模糊化对提取的 特征词进行扩充,建立模糊情感语料库,通过与基于句法分析的词性选取的特征词组成的情 感特征词典作对比实验,说明模糊理论适合用于网络新闻评论中情感特征词库的提取和 扩充. 关键词:模糊集;模糊语义;网络新闻评论;情感特征 中图分类号:TP393 文献标志码:A 文章编号:1672—8513(2014)04—0273—04 Research of sentimental feature selection from network news comments based on fuzzy sets ZHUANG Li,SHE Yu—mei,JIANG Tao,DING Dong—dong, WANG Mi—li,LI U Jing-feng (School of Mathematics and Computer Science,Yunnan Minzu University,Kunming 650031,China) Abstract:The paper discusses the dififculties of the sentimental feature selection in the sentiment analysis,proposes the use of the fuzzy theory and the semantic fuzziness to enlarge the bank of the selected feature words,establishes the fuzzy emotional corpus,and by the comparison of the sentimental—feature dictionaries based on syntactic analy— sis,it concludes that the fuzzy theory can better select and enlarge the emotional feature vocabulary. Key words:fuzzy sets;fuzzy sentiment;network news comments;sentimental feature 随着网络的普及,网络上用户生成的内容越 相关政策有着很大的影响,新闻评论越来越具有 来越多,如博客、论坛、新闻评论等,成为大众参与 参考和研究价值. 社会生活的一种新的平台.相关研究表明,绝大多 网络新闻评论具有社会新闻共有的及时性和网 数网民对新闻评论的内容都基于新闻正文,外加 络评论独具的开放性和多元性等特征,所以网络新 很多自己对新闻事件的看法,除一般事实外,还有 闻评论的情感特征提取相对来说更加困难,其难点 大量的主观性内容,对之后阅读新闻和评论的网 主要有: 民有着引导和交流的作用 J.研究还显示网络新 1)评论内容的随意性,出现很多与新闻内容无 闻跟帖评论所针对的话题,一般都是时事热点和 关,不具有任何价值的干扰信息; 备受大众关注的新闻事件,网民在网络上表达出 2)评述内容普遍都只有几十个字的长度,情感 来的意见,不仅反映了公众对社会重大公共事件 特征不集中; 的关注度与参与度,也反映了公众不同的价值判 3)错误噪声、别字、简字、俚语和引入的网络新 断和思想动态,对社会和国家了解民情民意,制定 词较多,用语不规范; 收稿日期:2013—12—12. 基金项目:国家自然科学基金(61363022);云南省自然科学基金(2011FZ176);云南省计算机科学与技术专业核心课程 教学团队. 作者简介:庄丽(1988一),女,硕士研究生.主要研究方向:自然语言处理. 通信作者:余玉梅(1965一),女,硕士生导师,教授.主要研究方向:人工智能. 274 云南民族大学学报(自然科学版) 第23卷 4)指代不明确,思维发散,很多评论有很强的 背景知识. .s。(Phrase) =(RDF(Phrase)/(NDF(Phrase)+1). (1) 在研究方法上,由于新闻评论的语义具有模糊 性,对具有模糊性的自然语言进行情感模糊化建模 是可行的,其中模糊理论是处理模糊问题的有效工 具之一,因此本文的目标就是找出一个有效的情感 特征提取方法,运用模糊集理论对其进行特征词的 扩充,建立有效的情感特征词库.实验表明,这种情  (Phrase)+1). S2(Phrase) (RTF(Phrase)/(=(2) 其中Phrase表示在文中分词标注后的短语, R。 (Phrase)表示Phrase出现在所有评论中的次 数,R F(Phrase)是Phrase在所有评论中出现的累计 总次数,Ⅳ。 (Phrase)是Phrase出现在所有不同新 感特征提取方法更适用于网络新闻评论,基于模糊 集的情感特征词库的扩充比传统的扩充方法更 有效. 1模糊理论 美国的控制论专家Zadeh在1965年提出了模 糊集理论,1973年又提出了用模糊语言描述系统的 方法,给出了模糊集合和模糊语义的相关定义 , 把模糊数学与人工智能相结合进行了研究. 模糊语义的产生主要是由于客观事物具有连续 性与语言符号具有的离散性之间的矛盾关系.在数 学模型上,我们用离散的语言符号来标志连续的事 物时,就会产生边界的模糊性. 定义1一个语言变量是一个五元组(F, , , G,M). 其中F是语言变量的名称;T表示语言变量F的 语言值总体构成的集合,也叫做辞集,即一个具体的 语言值名称记作 ,我们把 表示为T: + +…, 取有限个数. 则是语言变量F的论域;G代表句 法规则,通过该规则产生了,的语言值的名称; 被 称为语言规则, 中的每个语言值. 的辞义 可以 看成在论域 上 的一个模糊集合 J. 2 基于网络新闻评论的情感特征词提取 网络评论中情感语义挖掘的关键技术是提取情 感特征词,而传统意义上情感词一般由形容词和副 词体现,但新闻评论中语料的特殊性需要更多不同 词性的词语作为特征,例如“哈哈”等叹词可以单独 作为一句话或一条评论,有着很强的感情色彩,因此 在评论语料中还需要进一步的筛选和标注分类.本 文认为传统研究的文本分类方法局限性较多,主要 表现在不能很准确地区分情感词汇和普通词汇,而 且传统方法更加忽略了词汇和词汇搭配后带来的情 感倾向性的变化,所以本文采取的方法是分阶段逐 步优化选取情感特征. 闻中的次数,ⅣT (Phrase)表示Phrase在所有新闻 中出现的累计总次数. 先对评论中出现的词进行打分,然后按s。的得 分进行排序,设定5,(Phrase)不小于最小分数 min(Phrase)(设为3),在满足条件的语料中再按5 的得分进行排序,s:(Phrase)的最小分数 min(Phrase)也不得小于3,得分较高的标注为高频 特征词.考虑到这些情感特征词中仍有大量的噪音 和不规范的地方,因此再进行人工筛选排除,对特征 词进行情感倾向标注,最终得到正向情感语料库 (PBF)和负向情感语料库(NBF)合成的初级情感 语料库(BF). 3 情感特征词库的扩充 考虑到直接使用初级情感语料库难免会使召回 率过低,不能达到很好的效果,因此我们运用模糊理 论扩充初级情感语料库(BF)得到模糊情感语料库 (GF),本文主要对语料库中的形容词和副词进行同 位词扩充. 由语言变量的定义可知,语言变量的辞义 可以看成论域上的一个模糊集合M( ).本文应用 模糊集合对提取的网络新闻评论情感特征词中的 形容词和副词作为语言变量进行了情感语义模糊 化处理,其中在可行域上扩充的特征词的褒贬程 度分别用G(好,Good)、B(坏,Bad)表示,扩充情 感词的强度由小到大依次表示为s(少)、M(中)、 L(大)、VL(极),中间没有情感倾向的特征词表示 为z.我们选出的情感特征词分别扩充为VLB、 LB、MB、SB、Z、SG、MG、LG、VLG 9个级别,分别表 示极度贬义、相对贬义、贬义、略有贬义、中性、略 有褒义、褒义、相对褒义、极度褒义,每个都对应一 个模糊隶属度函数,这里我们称为初级扩充模糊 集,如图1. 图1表示在Matlab模糊工具箱中扩充情感词褒 贬程度的初级扩充模糊集.针对上述各级别建立了 扩充模糊集,因此高斯函数型的模糊隶属度函数在 第4期 庄丽,佘玉梅,江涛,等:基于模糊集的网络新闻评论的情感特征提取研究 275 赵 哩 {f8} 评价值 图1初级扩充模糊集 定义域[一4,4]上表示为 y: ( ): p( ).(3) Ztrw 式中or 、C 为模糊隶属度函数的参数,其情感 级别与w的取值相对应,其中w∈{VLB,LB,MB, SB,Z,SG,MG,LG,VLG};扩充的情感特征词语的 程度值用 来表示;y表示相应的情感评价词程度的 隶属度;当 =e 时,Y=1,得or =0.4,当Y越接 近于1时,表示情感特征词隶属于这一情感级别的 程度就越大. 在北京大学研制的数据库NTCIR一6中就定 义了1 241万个词与词之间的同位关系和情感递 进关系,同时还记录了它们之间的匹配次数 (MacthCnt)和同位关系之间的置信度 J.本文对 初级情感语料库中形容词和副词都进行了语义模 糊扩充,用自动验证的方法来检查这些扩充的情 感特征词汇.我们把每一个扩充得到的候选特征 词的同位正向词数(P)与负向扩充词数(Ⅳ)进行 比较,满足P>N且P>=min(Phrase)时,即归 为正向模糊情感语料库;N>P且N>= min(Phrase)时,归为负向情感语料库.这样经过 过滤后的正负扩充模糊语料库与初级情感语料库 构成了模糊情感语料库(GF). 4 实验 本文针对搜狐网近期最热的新闻事件《l0岁女 孩电梯内摔打1岁半男童疑似将其扔下25楼》,截 止到2013年12月9日有111 372次浏览,19 075人 评论跟帖;网易新闻网《重庆长寿法院受理”女孩抛 童”案原告索赔30万元》参与人数为121 298人,评 论有13 731条;人民网《重庆摔打男童案女孩称阳 台逗玩致其坠落》共有157 956人关注,585人评论, 共计收集新闻评论33 391条,经过人工筛选出与新 闻主题无关和无感情倾向的语句2 894条后,从中抽 取10 000条作为训练语料. 本文采用哈工大信息检索实验室的分词系统, 对语料进行了词性的标注,用其开发的汉语句法分 析器DeParser对句子进行分析.实验中用本文的特 征词提取方法对比了基于句法分析提取词性因素作 为特征词的方法,对比实验提取的词性因素为形容 词、副词、动词和名词4类 J,从而构建了通用情感 特征词表(GC)(如表1). 表1 特征词提取的例词 词性 特征词 形容词 、伪善、暴 过于、一点、有些、何止、稍微、不怎么、不丁点儿、要命、 半点、足足、很、老、特别、尤其、无比、忒、极 逃避、殴打、折磨、扇耳光、赔偿、蒙蔽了、被抓、报复、被 抛、释怀、帮助、原谅、杜绝、欢呼、曝光 : 道德、监护人、心里、受害人、婴儿、小孩、视频、家长、家 庭、学校、恶魔、杀人犯、女魔头、妖女、后遗症 针对特征词的情感极性分类,本文采用了基 础情感字典,主要基于知网 J、《褒义词词典》、 《贬义词词典》 为主,选用的基础情感词典中共 有情感词汇5 281个,其中有2 807个褒义词,有 2 474个贬义词.同时采用SVM和朴素贝叶斯 2 种分类方法对语料进行分类处理,对比评价指标, 结果显示本文对新闻评论内容情感特征提取的方 法要优于根据词性对文本内的特征词的提取,而 且NB分类方法也略微好于SVM分类方法.实验流 程如图2所示. 图2网络新闻评论处理过程 实验采用Precisiom(查准率)和Recall(召回 率)作为评价分类结果的指标,用朴素贝叶斯分类 方法和SVM分类方法对不同的特征提取方法形成 的语料库进行评测时,公式如下: 276 云南民族大学学报(自然科学版) 第23卷 P删 =∑True(c )/E Doe(Ci). ciE c ci∈c =(4) 具有较大的不客观J洼和不确定性,优化和度量基准 词的选择方法是重要的研究课题.本文今后的研究 ∑TYue(Ci)/∑Response(c。).(5) ciE c ci∈c 将会基于初级扩充模糊集对情感词汇本体从隶属于 情感分类、极性、强度等角度进行描述,构建模糊情 感细分语料库,结合修饰词的模糊语言算子等方法 其中True(c )是分类为c 并且正确的文档数, Response(c )是分类为c 的文档数 J. 用朴素贝叶斯分类方法从中提取了1 493个特 征词,其中正向词155个,负向词1 338个;用SVM分 类方法提取的特征词为1 342,正向词为132个,负 向词为1 210个.从实验结果中的召回率和准确率进 行对比可知,朴素贝叶斯分类方法较适合用于新闻 评论的情感分类研究,NB模型比SVM模型的召回 率高出接近2%.而且本文对情感特征词的提取方 法也比传统研究中根据词性提取关键词的方法好很 多。如表2. 表2 模糊情感特征词库(GF)和通用情感特征 词库(GC)的实验对比结果 5 结语 本文主要研究了网络新闻评论隋感特征提取的难 点,从模糊语义角度对特征提取进行了阐述,提出了用 模糊理论扩充特征词语料库,并且与传统方法根据词 性提取的特征词进行了对比实验,效果有明显提高. 上述研究中还存在一些问题尚未得到解决:① 不同主题词和不同特征词之间的关系识别问题;② 基准词选择的准确性问题,它直接影响到词汇倾向 性分析的结果.通常基准词的选定是由研究者决定, 对每条新闻评价的情感值进行模糊计算,通过对大 量特征词情感值的综合计算得到网络评论者对新闻 事件的情感倾向,分析出大量用户对某一情感目标 的主要情感倾向等. 参考文献: 【1]王代强,李旭曜.我国网络新闻评论文献综述[J].新闻 与传播研究,2011(7):16—18. [2]ZADEH L A.Fuzzy sets[J].Information and Control, 1965,8(3):338—353. [3]刘颖.基于消费者网络评论情感的产品模糊推理研究 [D].大连:大连理工大学,2010. [4]陶富民,高军,周凯.面向话题的新闻评论的情感特征选 取[J].中文信息学报,2010(03):37—43. [5]娄德成,姚天防.汉语句子语义极性分析和观点抽取方 法的研究[J].计算机应用,2006,26(11):622—625. [6]JINDAL N,LIU B.Identi ̄ing comparative sentences in text document[C]//Proceedings of the 29th Annual Inter— national ACM SIGIR Conference on Research and Develop・ ment in Information Retrieva1.New York:ACM Press, 2006:24—251. [7]LIN,WU D D.Using text mining and sentiment an analysis for online ofrums hotspot detection and forecast[J].Deci. sion Suppo ̄Systems,2010(48):354—386. [8]杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文 文本情感分类方法[J].计算机应用研究,2010,27 (10):3737—3739. [9]王素格,李伟.面向中日关系论坛的情感分类问题研究 [J].计算机工程与应用,2007,43(32):174—177. (责任编辑庄红林) 

因篇幅问题不能全部显示,请点此查看更多更全内容