基于模糊集的网络新闻评论的情感特征提取研究

2021-01-10 来源：钮旅网

云南民族大学学报：自然科学版，２０１４，２３（４）：２７３—２７６　ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１６７２—８５１３．２０１４．０４．０１１　ＣＮ　５３—１１９２／Ｎ　ＩＳＳＮ　１６７２—８５ｌ３　ｈｔｔｐ：／／ｘｂ．ｙｎｎｉ．ｅｄｕ．ａｎ　基于模糊集的网络新闻评论的情感特征提取研究　庄　丽，余玉梅，江涛，丁冬冬，王米利，刘敬凤　（云南民族大学数学与计算机科学学院，云南昆明６５００３１）　摘要：介绍了情感分析中情感特征提取的难点，提出了利用模糊理论和语义模糊化对提取的　特征词进行扩充，建立模糊情感语料库，通过与基于句法分析的词性选取的特征词组成的情　感特征词典作对比实验，说明模糊理论适合用于网络新闻评论中情感特征词库的提取和　扩充．　关键词：模糊集；模糊语义；网络新闻评论；情感特征　中图分类号：ＴＰ３９３　文献标志码：Ａ　文章编号：１６７２—８５１３（２０１４）０４—０２７３—０４　Ｒｅｓｅａｒｃｈ　ｏｆ　ｓｅｎｔｉｍｅｎｔａｌ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ｆｒｏｍ　ｎｅｔｗｏｒｋ　ｎｅｗｓ　ｃｏｍｍｅｎｔｓ　ｂａｓｅｄ　ｏｎ　ｆｕｚｚｙ　ｓｅｔｓ　ＺＨＵＡＮＧ　Ｌｉ，ＳＨＥ　Ｙｕ—ｍｅｉ，ＪＩＡＮＧ　Ｔａｏ，ＤＩＮＧ　Ｄｏｎｇ—ｄｏｎｇ，　ＷＡＮＧ　Ｍｉ—ｌｉ，ＬＩ　Ｕ　Ｊｉｎｇ－ｆｅｎｇ　（Ｓｃｈｏｏｌ　ｏｆ　Ｍａｔｈｅｍａｔｉｃｓ　ａｎｄ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，Ｙｕｎｎａｎ　Ｍｉｎｚｕ　Ｕｎｉｖｅｒｓｉｔｙ，Ｋｕｎｍｉｎｇ　６５００３１，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｐａｐｅｒ　ｄｉｓｃｕｓｓｅｓ　ｔｈｅ　ｄｉｆｉｆｃｕｌｔｉｅｓ　ｏｆ　ｔｈｅ　ｓｅｎｔｉｍｅｎｔａｌ　ｆｅａｔｕｒｅ　ｓｅｌｅｃｔｉｏｎ　ｉｎ　ｔｈｅ　ｓｅｎｔｉｍｅｎｔ　ａｎａｌｙｓｉｓ，ｐｒｏｐｏｓｅｓ　ｔｈｅ　ｕｓｅ　ｏｆ　ｔｈｅ　ｆｕｚｚｙ　ｔｈｅｏｒｙ　ａｎｄ　ｔｈｅ　ｓｅｍａｎｔｉｃ　ｆｕｚｚｉｎｅｓｓ　ｔｏ　ｅｎｌａｒｇｅ　ｔｈｅ　ｂａｎｋ　ｏｆ　ｔｈｅ　ｓｅｌｅｃｔｅｄ　ｆｅａｔｕｒｅ　ｗｏｒｄｓ，ｅｓｔａｂｌｉｓｈｅｓ　ｔｈｅ　ｆｕｚｚｙ　ｅｍｏｔｉｏｎａｌ　ｃｏｒｐｕｓ，ａｎｄ　ｂｙ　ｔｈｅ　ｃｏｍｐａｒｉｓｏｎ　ｏｆ　ｔｈｅ　ｓｅｎｔｉｍｅｎｔａｌ—ｆｅａｔｕｒｅ　ｄｉｃｔｉｏｎａｒｉｅｓ　ｂａｓｅｄ　ｏｎ　ｓｙｎｔａｃｔｉｃ　ａｎａｌｙ—　ｓｉｓ，ｉｔ　ｃｏｎｃｌｕｄｅｓ　ｔｈａｔ　ｔｈｅ　ｆｕｚｚｙ　ｔｈｅｏｒｙ　ｃａｎ　ｂｅｔｔｅｒ　ｓｅｌｅｃｔ　ａｎｄ　ｅｎｌａｒｇｅ　ｔｈｅ　ｅｍｏｔｉｏｎａｌ　ｆｅａｔｕｒｅ　ｖｏｃａｂｕｌａｒｙ．　Ｋｅｙ　ｗｏｒｄｓ：ｆｕｚｚｙ　ｓｅｔｓ；ｆｕｚｚｙ　ｓｅｎｔｉｍｅｎｔ；ｎｅｔｗｏｒｋ　ｎｅｗｓ　ｃｏｍｍｅｎｔｓ；ｓｅｎｔｉｍｅｎｔａｌ　ｆｅａｔｕｒｅ　随着网络的普及，网络上用户生成的内容越　相关政策有着很大的影响，新闻评论越来越具有　来越多，如博客、论坛、新闻评论等，成为大众参与　参考和研究价值．　社会生活的一种新的平台．相关研究表明，绝大多　网络新闻评论具有社会新闻共有的及时性和网　数网民对新闻评论的内容都基于新闻正文，外加　络评论独具的开放性和多元性等特征，所以网络新　很多自己对新闻事件的看法，除一般事实外，还有　闻评论的情感特征提取相对来说更加困难，其难点　大量的主观性内容，对之后阅读新闻和评论的网　主要有：　民有着引导和交流的作用　Ｊ．研究还显示网络新　１）评论内容的随意性，出现很多与新闻内容无　闻跟帖评论所针对的话题，一般都是时事热点和　关，不具有任何价值的干扰信息；　备受大众关注的新闻事件，网民在网络上表达出　２）评述内容普遍都只有几十个字的长度，情感　来的意见，不仅反映了公众对社会重大公共事件　特征不集中；　的关注度与参与度，也反映了公众不同的价值判　３）错误噪声、别字、简字、俚语和引入的网络新　断和思想动态，对社会和国家了解民情民意，制定　词较多，用语不规范；　收稿日期：２０１３—１２—１２．　基金项目：国家自然科学基金（６１３６３０２２）；云南省自然科学基金（２０１１ＦＺ１７６）；云南省计算机科学与技术专业核心课程　教学团队．　作者简介：庄丽（１９８８一），女，硕士研究生．主要研究方向：自然语言处理．　通信作者：余玉梅（１９６５一），女，硕士生导师，教授．主要研究方向：人工智能．　２７４　云南民族大学学报（自然科学版）　第２３卷　４）指代不明确，思维发散，很多评论有很强的　背景知识．　．ｓ。（Ｐｈｒａｓｅ）　＝（ＲＤＦ（Ｐｈｒａｓｅ）／（ＮＤＦ（Ｐｈｒａｓｅ）＋１）．　（１）　在研究方法上，由于新闻评论的语义具有模糊　性，对具有模糊性的自然语言进行情感模糊化建模　是可行的，其中模糊理论是处理模糊问题的有效工　具之一，因此本文的目标就是找出一个有效的情感　特征提取方法，运用模糊集理论对其进行特征词的　扩充，建立有效的情感特征词库．实验表明，这种情　　（Ｐｈｒａｓｅ）＋１）．　Ｓ２（Ｐｈｒａｓｅ）　（ＲＴＦ（Ｐｈｒａｓｅ）／（＝（２）　其中Ｐｈｒａｓｅ表示在文中分词标注后的短语，　Ｒ。　（Ｐｈｒａｓｅ）表示Ｐｈｒａｓｅ出现在所有评论中的次　数，Ｒ　Ｆ（Ｐｈｒａｓｅ）是Ｐｈｒａｓｅ在所有评论中出现的累计　总次数，Ⅳ。　（Ｐｈｒａｓｅ）是Ｐｈｒａｓｅ出现在所有不同新　感特征提取方法更适用于网络新闻评论，基于模糊　集的情感特征词库的扩充比传统的扩充方法更　有效．　１模糊理论　美国的控制论专家Ｚａｄｅｈ在１９６５年提出了模　糊集理论，１９７３年又提出了用模糊语言描述系统的　方法，给出了模糊集合和模糊语义的相关定义　，　把模糊数学与人工智能相结合进行了研究．　模糊语义的产生主要是由于客观事物具有连续　性与语言符号具有的离散性之间的矛盾关系．在数　学模型上，我们用离散的语言符号来标志连续的事　物时，就会产生边界的模糊性．　定义１一个语言变量是一个五元组（Ｆ，　，　，　Ｇ，Ｍ）．　其中Ｆ是语言变量的名称；Ｔ表示语言变量Ｆ的　语言值总体构成的集合，也叫做辞集，即一个具体的　语言值名称记作　，我们把　表示为Ｔ：　＋　＋…，　取有限个数．　则是语言变量Ｆ的论域；Ｇ代表句　法规则，通过该规则产生了，的语言值的名称；　被　称为语言规则，　中的每个语言值．　的辞义　可以　看成在论域　上　的一个模糊集合　Ｊ．　２　基于网络新闻评论的情感特征词提取　网络评论中情感语义挖掘的关键技术是提取情　感特征词，而传统意义上情感词一般由形容词和副　词体现，但新闻评论中语料的特殊性需要更多不同　词性的词语作为特征，例如“哈哈”等叹词可以单独　作为一句话或一条评论，有着很强的感情色彩，因此　在评论语料中还需要进一步的筛选和标注分类．本　文认为传统研究的文本分类方法局限性较多，主要　表现在不能很准确地区分情感词汇和普通词汇，而　且传统方法更加忽略了词汇和词汇搭配后带来的情　感倾向性的变化，所以本文采取的方法是分阶段逐　步优化选取情感特征．　闻中的次数，ⅣＴ　（Ｐｈｒａｓｅ）表示Ｐｈｒａｓｅ在所有新闻　中出现的累计总次数．　先对评论中出现的词进行打分，然后按ｓ。的得　分进行排序，设定５，（Ｐｈｒａｓｅ）不小于最小分数　ｍｉｎ（Ｐｈｒａｓｅ）（设为３），在满足条件的语料中再按５　的得分进行排序，ｓ：（Ｐｈｒａｓｅ）的最小分数　ｍｉｎ（Ｐｈｒａｓｅ）也不得小于３，得分较高的标注为高频　特征词．考虑到这些情感特征词中仍有大量的噪音　和不规范的地方，因此再进行人工筛选排除，对特征　词进行情感倾向标注，最终得到正向情感语料库　（ＰＢＦ）和负向情感语料库（ＮＢＦ）合成的初级情感　语料库（ＢＦ）．　３　情感特征词库的扩充　考虑到直接使用初级情感语料库难免会使召回　率过低，不能达到很好的效果，因此我们运用模糊理　论扩充初级情感语料库（ＢＦ）得到模糊情感语料库　（ＧＦ），本文主要对语料库中的形容词和副词进行同　位词扩充．　由语言变量的定义可知，语言变量的辞义　可以看成论域上的一个模糊集合Ｍ（　）．本文应用　模糊集合对提取的网络新闻评论情感特征词中的　形容词和副词作为语言变量进行了情感语义模糊　化处理，其中在可行域上扩充的特征词的褒贬程　度分别用Ｇ（好，Ｇｏｏｄ）、Ｂ（坏，Ｂａｄ）表示，扩充情　感词的强度由小到大依次表示为ｓ（少）、Ｍ（中）、　Ｌ（大）、ＶＬ（极），中间没有情感倾向的特征词表示　为ｚ．我们选出的情感特征词分别扩充为ＶＬＢ、　ＬＢ、ＭＢ、ＳＢ、Ｚ、ＳＧ、ＭＧ、ＬＧ、ＶＬＧ　９个级别，分别表　示极度贬义、相对贬义、贬义、略有贬义、中性、略　有褒义、褒义、相对褒义、极度褒义，每个都对应一　个模糊隶属度函数，这里我们称为初级扩充模糊　集，如图１．　图１表示在Ｍａｔｌａｂ模糊工具箱中扩充情感词褒　贬程度的初级扩充模糊集．针对上述各级别建立了　扩充模糊集，因此高斯函数型的模糊隶属度函数在　第４期　庄丽，佘玉梅，江涛，等：基于模糊集的网络新闻评论的情感特征提取研究　２７５　赵　哩　｛ｆ８｝　评价值　图１初级扩充模糊集　定义域［一４，４］上表示为　ｙ：　（　）：　ｐ（　）．（３）　Ｚｔｒｗ　式中ｏｒ　、Ｃ　为模糊隶属度函数的参数，其情感　级别与ｗ的取值相对应，其中ｗ∈｛ＶＬＢ，ＬＢ，ＭＢ，　ＳＢ，Ｚ，ＳＧ，ＭＧ，ＬＧ，ＶＬＧ｝；扩充的情感特征词语的　程度值用　来表示；ｙ表示相应的情感评价词程度的　隶属度；当　＝ｅ　时，Ｙ＝１，得ｏｒ　＝０．４，当Ｙ越接　近于１时，表示情感特征词隶属于这一情感级别的　程度就越大．　在北京大学研制的数据库ＮＴＣＩＲ一６中就定　义了１　２４１万个词与词之间的同位关系和情感递　进关系，同时还记录了它们之间的匹配次数　（ＭａｃｔｈＣｎｔ）和同位关系之间的置信度　Ｊ．本文对　初级情感语料库中形容词和副词都进行了语义模　糊扩充，用自动验证的方法来检查这些扩充的情　感特征词汇．我们把每一个扩充得到的候选特征　词的同位正向词数（Ｐ）与负向扩充词数（Ⅳ）进行　比较，满足Ｐ＞Ｎ且Ｐ＞＝ｍｉｎ（Ｐｈｒａｓｅ）时，即归　为正向模糊情感语料库；Ｎ＞Ｐ且Ｎ＞＝　ｍｉｎ（Ｐｈｒａｓｅ）时，归为负向情感语料库．这样经过　过滤后的正负扩充模糊语料库与初级情感语料库　构成了模糊情感语料库（ＧＦ）．　４　实验　本文针对搜狐网近期最热的新闻事件《ｌ０岁女　孩电梯内摔打１岁半男童疑似将其扔下２５楼》，截　止到２０１３年１２月９日有１１１　３７２次浏览，１９　０７５人　评论跟帖；网易新闻网《重庆长寿法院受理”女孩抛　童”案原告索赔３０万元》参与人数为１２１　２９８人，评　论有１３　７３１条；人民网《重庆摔打男童案女孩称阳　台逗玩致其坠落》共有１５７　９５６人关注，５８５人评论，　共计收集新闻评论３３　３９１条，经过人工筛选出与新　闻主题无关和无感情倾向的语句２　８９４条后，从中抽　取１０　０００条作为训练语料．　本文采用哈工大信息检索实验室的分词系统，　对语料进行了词性的标注，用其开发的汉语句法分　析器ＤｅＰａｒｓｅｒ对句子进行分析．实验中用本文的特　征词提取方法对比了基于句法分析提取词性因素作　为特征词的方法，对比实验提取的词性因素为形容　词、副词、动词和名词４类　Ｊ，从而构建了通用情感　特征词表（ＧＣ）（如表１）．　表１　特征词提取的例词　词性　特征词　形容词　、伪善、暴　过于、一点、有些、何止、稍微、不怎么、不丁点儿、要命、　半点、足足、很、老、特别、尤其、无比、忒、极　逃避、殴打、折磨、扇耳光、赔偿、蒙蔽了、被抓、报复、被　抛、释怀、帮助、原谅、杜绝、欢呼、曝光　：　道德、监护人、心里、受害人、婴儿、小孩、视频、家长、家　庭、学校、恶魔、杀人犯、女魔头、妖女、后遗症　针对特征词的情感极性分类，本文采用了基　础情感字典，主要基于知网　Ｊ、《褒义词词典》、　《贬义词词典》　为主，选用的基础情感词典中共　有情感词汇５　２８１个，其中有２　８０７个褒义词，有　２　４７４个贬义词．同时采用ＳＶＭ和朴素贝叶斯　２　种分类方法对语料进行分类处理，对比评价指标，　结果显示本文对新闻评论内容情感特征提取的方　法要优于根据词性对文本内的特征词的提取，而　且ＮＢ分类方法也略微好于ＳＶＭ分类方法．实验流　程如图２所示．　图２网络新闻评论处理过程　实验采用Ｐｒｅｃｉｓｉｏｍ（查准率）和Ｒｅｃａｌｌ（召回　率）作为评价分类结果的指标，用朴素贝叶斯分类　方法和ＳＶＭ分类方法对不同的特征提取方法形成　的语料库进行评测时，公式如下：　２７６　云南民族大学学报（自然科学版）　第２３卷　Ｐ删　＝∑Ｔｒｕｅ（ｃ　）／Ｅ　Ｄｏｅ（Ｃｉ）．　ｃｉＥ　ｃ　ｃｉ∈ｃ　＝（４）　具有较大的不客观Ｊ洼和不确定性，优化和度量基准　词的选择方法是重要的研究课题．本文今后的研究　∑ＴＹｕｅ（Ｃｉ）／∑Ｒｅｓｐｏｎｓｅ（ｃ。）．（５）　ｃｉＥ　ｃ　ｃｉ∈ｃ　将会基于初级扩充模糊集对情感词汇本体从隶属于　情感分类、极性、强度等角度进行描述，构建模糊情　感细分语料库，结合修饰词的模糊语言算子等方法　其中Ｔｒｕｅ（ｃ　）是分类为ｃ　并且正确的文档数，　Ｒｅｓｐｏｎｓｅ（ｃ　）是分类为ｃ　的文档数　Ｊ．　用朴素贝叶斯分类方法从中提取了１　４９３个特　征词，其中正向词１５５个，负向词１　３３８个；用ＳＶＭ分　类方法提取的特征词为１　３４２，正向词为１３２个，负　向词为１　２１０个．从实验结果中的召回率和准确率进　行对比可知，朴素贝叶斯分类方法较适合用于新闻　评论的情感分类研究，ＮＢ模型比ＳＶＭ模型的召回　率高出接近２％．而且本文对情感特征词的提取方　法也比传统研究中根据词性提取关键词的方法好很　多。如表２．　表２　模糊情感特征词库（ＧＦ）和通用情感特征　词库（ＧＣ）的实验对比结果　５　结语　本文主要研究了网络新闻评论隋感特征提取的难　点，从模糊语义角度对特征提取进行了阐述，提出了用　模糊理论扩充特征词语料库，并且与传统方法根据词　性提取的特征词进行了对比实验，效果有明显提高．　上述研究中还存在一些问题尚未得到解决：①　不同主题词和不同特征词之间的关系识别问题；②　基准词选择的准确性问题，它直接影响到词汇倾向　性分析的结果．通常基准词的选定是由研究者决定，　对每条新闻评价的情感值进行模糊计算，通过对大　量特征词情感值的综合计算得到网络评论者对新闻　事件的情感倾向，分析出大量用户对某一情感目标　的主要情感倾向等．　参考文献：　【１］王代强，李旭曜．我国网络新闻评论文献综述［Ｊ］．新闻　与传播研究，２０１１（７）：１６—１８．　［２］ＺＡＤＥＨ　Ｌ　Ａ．Ｆｕｚｚｙ　ｓｅｔｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｃｏｎｔｒｏｌ，　１９６５，８（３）：３３８—３５３．　［３］刘颖．基于消费者网络评论情感的产品模糊推理研究　［Ｄ］．大连：大连理工大学，２０１０．　［４］陶富民，高军，周凯．面向话题的新闻评论的情感特征选　取［Ｊ］．中文信息学报，２０１０（０３）：３７—４３．　［５］娄德成，姚天防．汉语句子语义极性分析和观点抽取方　法的研究［Ｊ］．计算机应用，２００６，２６（１１）：６２２—６２５．　［６］ＪＩＮＤＡＬ　Ｎ，ＬＩＵ　Ｂ．Ｉｄｅｎｔｉ￣ｉｎｇ　ｃｏｍｐａｒａｔｉｖｅ　ｓｅｎｔｅｎｃｅｓ　ｉｎ　ｔｅｘｔ　ｄｏｃｕｍｅｎｔ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２９ｔｈ　Ａｎｎｕａｌ　Ｉｎｔｅｒ—　ｎａｔｉｏｎａｌ　ＡＣＭ　ＳＩＧＩＲ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐ・　ｍｅｎｔ　ｉｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａ１．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ　Ｐｒｅｓｓ，　２００６：２４—２５１．　［７］ＬＩＮ，ＷＵ　Ｄ　Ｄ．Ｕｓｉｎｇ　ｔｅｘｔ　ｍｉｎｉｎｇ　ａｎｄ　ｓｅｎｔｉｍｅｎｔ　ａｎ　ａｎａｌｙｓｉｓ　ｆｏｒ　ｏｎｌｉｎｅ　ｏｆｒｕｍｓ　ｈｏｔｓｐｏｔ　ｄｅｔｅｃｔｉｏｎ　ａｎｄ　ｆｏｒｅｃａｓｔ［Ｊ］．Ｄｅｃｉ．　ｓｉｏｎ　Ｓｕｐｐｏ￣Ｓｙｓｔｅｍｓ，２０１０（４８）：３５４—３８６．　［８］杨鼎，阳爱民．一种基于情感词典和朴素贝叶斯的中文　文本情感分类方法［Ｊ］．计算机应用研究，２０１０，２７　（１０）：３７３７—３７３９．　［９］王素格，李伟．面向中日关系论坛的情感分类问题研究　［Ｊ］．计算机工程与应用，２００７，４３（３２）：１７４—１７７．　（责任编辑庄红林）　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于模糊集的网络新闻评论的情感特征提取研究