广东技术师范学院学报(自然科学)2014年第3期JournalofGuangdongPolgechnicNormalUnivemityNo.3.2014中文微博情感分析方法研究王银,吴新玲(广东技术师范学院计算机科学学院,广东广州510665)摘要:微博情感分析是当今情感分析的一大研究热点,中文微博情感分析按照处理层面的不同可以分为主题无关和主题相关分析,分析方法主要分为两类,一是基于情感词典的方法,另一类是基于机器学习的方法.本文对目前中文微博情感分析的主要流程和处理方法进行了探讨。对两类方法的特点及其研究现状进行了分析、比较,对不能完全准确进行情感分类的主要原因进行了归纳总结,为情感分析方法的进一步研究提供了参考方向.关键词:中文微博;情感分析;情感词典;机器学习中图分类号:TP391文献标识码:B文章编号:1672—402X(2014)03—0063—06引言微博因其使用简便性,用户量剧增。日益成为情感表达、交流讨论的场所.微博上含有大量具有情感倾向的发言,对其进行情感分析可以得到有用的决策信息,可应用于民意调查、舆论监控、政府决策、商品销售等.情感分析又称观点分析,用于分析文本中观点持有者对事件的支持、反对或中立态度,也即分析文本表达的正面、负面或中性情感.英文微博发展较中国早.对于其各方面研究也更深入.但由于中文和英文存在语言上的差别,针对英文微博的研究方法并不完全适合中文微博.中文与英文首要区别在于没有天然分词,并且词语以及句子结构之间存在差异.中文微博140个字比相同数目英文表达的内容也要丰富的多.针对中文微博的特点,研究者从多个方面多个角度对情感分析方法进行了研究.文本情感分析一般包括:文本预处理,特征提取,特征权重计算,情感分析等几大步骤.根据分析的细粒度不同可以分为主题无关和主题相关分析.相对普通文本.微博文本有其特殊性,如语料简短、词语丰富多样、主题松散等.因此相应的情感分析方法需要处理更多问题.如收稿日期:2013—12—11情感词的多样性,文本矩阵的稀疏性等.根据情感分析的具体实现算法.可以分为两大类,一是基于情感词典的分析方法,一是基于机器学习的分析方法.在处理过程中,为了不断提升情感分析的准确率.不同的研究者在分析的具体过程中.注重不同细节.提出各自的优化处理方法.本文简要讨论了微博文本的预处理.以及主题无关和主题相关分析方法的特点和研究现状.重点探讨了基于情感词典和基于机器学习的情感分析方法特点和现状.并对两类方法的优缺点进行了比较。归纳总结了不能完全准确进行情感分类的主要原因.1微博文本的预处理微博文本与普通文本存在明显差异,预处理也存在特殊性,基本步骤包括过滤无关信息、分句、分词和词性标注.一条微博字数限制在140字内,但是表达形式存在多模态性,可以采用文字、图片、视频等表达。还因其可以转发引用他人微博存在一些微博文本特有标记.预处理时。首先将这些无关标记如链接以及“@”“//”标签及其后包含的内容。“#”与“#”符号之间的内容及符号一起去除.英文单词和视频及图片也去除,保留表情符号.作者简介:王银(1986一),女,江西赣州人,广东技术师范学院计算机科学学院2012级硕士研究生.研究方向:数据挖掘.万方数据・64.王银,吴新玲:中文微博情感分析方法研究第3期在进行主题相关情感分析时,需要对微博文本进行分旬处理.中文句末的标点有.?!……文本通过识别断旬符号来进行分旬.分句后进行分词.分词是中文文本分析的一个关键步骤,能否正确分词影响特征提取进而影响情感分析结果.文献[1]进行归纳分词方法主要有三类,基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法.现在已经有较多可直接使用的分词系统,如庖丁中文分词系统、简易中文分词系统SCWS、中国科学院研制的汉语词法分析系统ICTCLAS和哈尔滨工业大学信息检索研究室语言技术平台提供的IRLAS分词系统.较常用的是中国科学院研制的ICTCLAS分词系统,该系统包括中文分词、词性标注、命名实体识别和未登录词识别的功能。其分词效率高达97.58%.对于分词步骤.有研究者考虑将构建的新情感词典加入分词系统词库,以保证情感词的正确划分不遗失.分词后。即可以根据情感分析的层面需要。提取相应的词语或短语特征,进行相应的处理.2主题无关和主题相关情感分析2.1主题无关的微博情感分析主题又称为评价对象,主题无关的微博情感分析是指给出整体微博文本的情感极性.而不关心具体的评价对象,将全部文本视为同一评价对象.早期进行的微博情感分析大部分是此种方式。选取了某一个专题的微博文本后.直接提取情感特征计算整体情感倾向.不对其中的子评价对象进行提取划分.中文微博字数限制在140字内.往往可以有多条语句.通过观察发现较多情况下当有多条语句时.会出现多个评论对象.特别是出现比较句型时.两个评价对象的情感倾向完全相反,当做同一评价对象来处理时,情感分析会出现很大偏差.很显然,主题无关的情感分析太过粗糙.需要进一步细致化,找出具体的评价对象和相应的情感倾向.2.2主题相关的微博情感分析主题相关即不仅给出情感分析结果而且找出具体的评价对象,将属于同一评价对象的情感进行配对和聚类.主题相关的情感分析是提升情感分析准确率的主要方法之一,目前已有研究者进行此方面研究,采用多种方法进行评万方数据价对象抽取.文献[2]为了找到评价对象、情感值对.提出distance概念.对于微博中的语句,先识别出情感词记为位置i,看在窗口distance个词范围内,即[i—distance,i+distance]中是否出现主题词.如出现主题词则认为该句与主题相关.并且通过实验找到了最合适的distance值,距离为30时最佳.文献[2]还提出了零指代情况处理.即如果一个微博句子中不包含任何名词性短语和代词,即认为它表达的情感是针对上一句的对象.文献[3]提出主题聚类的事件关注点抽取.并提出几个词语搭配模式对主题词和情感词进行搭配.如形容词+名词、动词+名词、名词+形容词3种模式搭配.文献[4]提出基于话题的OBJ表单,在话题型微博中,微博语句的评价对象省略时.可以在话题名称中寻找.3基于情感词典和机器学习的情感分析方法情感极性的具体方法主要包括两类.一是基于情感词典的方法。另一种是基于机器学习的方法.无论哪种算法都涉及情感特征的选取、赋予特征权值。主要涉及以下几类特征选取:(1)情感词典目前的基础情感词典有知网(HowNet)、《学生褒贬义词典》中提供的正负情感词以及NTUSD由台湾大学整理并发布的情感词典.史继林、朱英贵编著的《褒义词词典》和杨玲、朱英贵编著的《褒义词词典》.微博用语不规范经常出现新名词和变形词,其中包含情感词语,因此仅仅依靠基础情感词典不能满足微博情感分析的需求。需要不断充实情感词典.情感词典的扩展方法一般有两种.一种是基于语义计算HowNet语义相似度方法:另一种基于统计分析,通过计算目标词与基准情感词之间的点互信息值从而获取目标词的情感倾向.文献[5]提出构建网络情感词典和微博领域情感词典,采用微博语料集做情感基准词,通过基于扩展的点间互信息(PMI)的方法计算候选词与基准词的相似度.从而判断候选词的情感倾向,对情感词典进行扩展.文献[7]提出基于最大期望(expectationmaximization,简称EM)的新情感词倾向评定方法并添加到情感词典中.文献[8]采用N—gram技术实现了一个微第3期王银,吴新玲:中文微博情感分析方法研究・65・博情感新词、变形词发现方法,文中还用该方法构建了转折递进词表.文献[9]提出改进的计算HowNet语义相似度方法,考虑到相似度越大的基准词应该占更大的权重.因此采用加权的情感倾向度计算方法。新词的情感倾向度的计算准确率有一定的提高.文献[10]利用基础情感多重否定等.文献[14]对多种有副词修饰的极性短语搭配进行了研究.给出了其极性值计算方法.(3)标点符号标点符号有两种作用。一是在主题相关的分析中断句作用,二是对情感强弱或极性有影词词典、连词词典及词语距离,提出了基于多重词典的中文文本情感特征抽取方法.文献[11]提出将词语间语素关系融入到图模型中。并结合词语同义关系进行中文褒贬词典半监督构建的方法.文献[12]选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI算法计算情感词的情感权值.在基础情感词典的基础上扩充词典.情感词典构建的困难除了未登录词的解决问题还因中文一词多义。存在反讽、褒义贬用、贬义褒用等一些情况.为解决这一问题,文献[3]提出两个极性词典结合使用。在情感判断时,如遇到某个极性词语在两个极性词典中的极性标注不相同,则对该词进行人工判定,有助于消除因词语歧义导致的情感分析错误,同时该方法也扩大了情感词的覆盖范围.文献[13]构建了语境歧义词搭配词典。通过关联规则发现语境歧义词搭配集合再采用互信息剪枝,最后得到有情感倾向的搭配加入搭配词典.基于情感词典方法有进一步改进。不仅仅收集情感词语.还加入短句和短语规则.文献[4]提出基于语义的词典加规则的方法,针对微博用语的不规范不仅构建了基于短语的情感词典,更进一步将有情感极性的短句也加入其中.提出了有情感极性的短语规则.长距离搭配形成的情感短语。如“是……的责任”是表达负面情感的短语.(2)程度副词和否定副词在表达情感时,根据发言者的情绪经常会用程度副词进行修饰,如很、太、非常等对于情感强度起到加强或减弱的作用,对情感分析产生影响.不同的程度副词所表达的情感强烈程度不同。对所修饰的情感词的影响也不同,在情感分析是需要对其进行归类整理.否定副词的作用更不可忽略,因其在使用时对情感发生完全的翻转.而且中文表达形式多样,否定词的使用也多种多样,如双重否定,万方数据响.标点符号如“?”“!”等都表达了一定的情感因素。对于旬式分析中判断句子是否疑问句反(4)表情符号在微博语言中.表情符号是表达情感的一[16]提出了识别新表情符号、计算其情感权值的方法.并将表情符号所包含的情感因素融合3.1基于情感词典的情感分析方法该方法主要依据情感词典,一条微博语句的情感极性由该语句中包含的所有情感词的极面公式进行情感极性的判断:情感极性=I正向情感(如果正向情感词数>负向情感词数){负向情感(如果正向情感词数<负向情感词数)I中性情感(如果正向情感词数=负向情感词数)最初的基于情感词典方法仅仅考虑情感词种因素,赋予不同的特征不同的权值,情感词也根据表达情感的强烈程度赋值。最后将整条微博情感特征极性权值加和.文献[5]对程度副词、否定副词和表情符号都给出了相应权值.其中为了简便计算,将表情符号根据权值并人情感词典中,视为情感词使用与情感词相同的处理计算方法.改进后的基于情感词典方法计算方法公式如下:0“=^‰×&‘(3—1)公式(3—1)中,Mwa表示程度副词权值,&问句也有帮助.文献[15]通过实验证明考虑标点符号的情感分析比不考虑标点符号准确率略有提升.种重要方式.表情符号表达情感直观清晰,是情感分析中不可忽视的特征.对微博中所有的表情符号进行整理.根据表达情感极性和强弱进行分类,文献[5]给出了整理后的详细表格.文献到与其共现的情感词中.性值加和所得.基于情感词典的方法最初依据下语,但是根据上文情感特征分析这是不全面的,语句中还包含其他影响情感的特征.现基于情感词典的方法出现很多改进方法,一般都综合各・66・王银,吴新玲:中文微博情感分析方法研究第3期表示情感词W;的权值.O“=^‰×&(3—2)公式(3—2)中,Mwb表示否定副词权值,S“表示情感词W;的权值.kO;=∑仉(3—3)f=l公式(3—3)中,D,表示包含k个情感词的微博消息的情感值,以表示情感词W;结合副词影响的权值.I>O;为正面情感O。={-o;为中性情感(3—4)l<0;为负面情感最后公式(3—4)可以依据实际语句包含副词和情感词的情况得出该条微博语句的总情感倾向,判定微博语句为正面、中性或负面情感.3.2基于机器学习的情感分析方法基于机器学习的方法将微博情感分析看做分类问题来处理,即通过算法将文本分为正面、负面和中性情感三类.也有研究者先将微博文本分为主客观类,再将主观微博划分正负情感.常用的机器学习算法有支持向量机SVM.朴素贝叶斯NB,最大熵ME和最近邻方法KNN.选取微博文本中有利于情感极性分类的词或短语等作为特征,用数值来表示特征权重,形成向量空间模型,再通过分类器进行分类.分类器的构建通过训练集来获得。分类器的性能通过测试集来验证.针对微博文本特点和基于机器学习方法的基本流程,主要有以下一些处理技术:(1)训练集测试集的自动标注,减轻人工负担训练集需要事先给出情感类别标号.以构建机器学习分类器.为了提高分类器的准确性,通常采用人工标注的方式来获得有情感类别标号的训练集和测试集.但是训练集和测试集的微博数量比较大。是一项比较繁琐的工作.为了减轻负担提高速率文献[18]提出利用表情符号和情绪词相结合的方式来自动标注训练集语料.表情符号表达情感强烈直观,可根据微博中正负表情图片的数量直接判断情感极性,利用情绪词判定时同时考虑否定词的影响,结合表情符号和情绪词两者能达到较好分类效果.(2)特征项的选择基于机器学习的算法,特征选择可以将全部万方数据文本词语作为特征也可以选取文本中有情感倾向的词语或符号等,如上文例举的情感词、程度副词、否定副词、标点符号、表情符号.如何取舍文献[19]给出了三种常用特征选择方法:①信息增益(IG)方法,通过测量加入特征t相对于去掉特征t对分类性能的影响来衡量特征t的分类能力;②CHI统计,通过测量特征与类别之间的依赖性来进行特征的选取;③文档频率,通过设置文档频率阀值来进行特征的选取.文献[15]提出了二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上。利用情感词典进行二次情感特征提取.其实该方法的实质是注意到了微博多评价对象的影响,基于句法路径构建句法树可以提取评价对象,从而提高情感分析准确率.(3)特征项权重的计算特征项权重表示主要有三种方式,布尔型、词频型以及TF—IDF型.文献[20]作者认为某个关键词出现一次或者多次,所表达的情感是一致的,因此使用布尔型来进行文本表示,出现为1,不出现为O.以上提及的三种方式都是传统的权重表示方式,文献[14]提出了新型的表示方式.基于特征极性值的位置权重计算.根据建立的情感词极性值结合该词出现于句子的位置权重共同来计算该特征权重.(4)向量空间模型及降维处理依据特征项和特征权重可以建立相应向量空间模型,但普遍存在维数高稀疏的缺点,给计算带来很大负担.文献[15]提出在存储时采用<特征项索引号、特征权值>的方式以节省存储空间.文献[14]认为文本中的动词和形容词是能够反映文本情感倾向性的特征,因而选择微博文本中的全部动词和形容词为特征项.这导致特征空间的维数非常高.该文献采用卡方统计方法进行特征选择进行初步降维处理,再利用层次聚类算法对特征空间进行进一步降维.文献[21]提出利用中文同义词词典合并同义词特征项来实现降低维度,将同一阶层类别的同义词合并为一个特征.(5)机器学习分类目前较常用的机器学习算法有支持向量机SVM,贝叶斯NB,最大熵ME和最近邻方法KNN.文献[19]对三种机器SVM、NB、n元语言第3期王银,吴新玲:中文微博情感分析方法研究・67・模型学习算法,三种特征选取算法(信息增益方法、CHI统计、文档频率)以及三种特征权值计算方法(布尔型、词频型、'IF—IDF型)进行了实证比较研究.实验结果表明。当采用TF—IDF权值计算时搭配SVM性能更好。而采用布尔型权值计算时朴素贝叶斯算法性能更好,综合采用SVM和信息增益以及'IF—IDF三者结合对微博的情感分类效果最好.3.3基于情感词典方法与基于机器学习方法性能比较3.3.1基于情感词典的方法(1)优越性是更能体现文本这种非结构化数据的特性.尤其现在基于该方法的研究加入短语、语义规则和句式句法的影响。更有利于挖掘文本内在的联系和所表达的情感.文献[22]对分词算法进行了一些改进同时提出了不同句式结构对情感分析的影响和计算方法.文献[23]提出了基于词典和规则集的情感分类方法,不仅改进了词典的构建方法还总结了句型、句问关系、词语多元组和表情符多种规则:(2)缺点是依赖构建的情感词典,微博用语不规范,经常出现新名词、变形词,当词典中没有这些词时,该方法无法统计新词语的影响.3.3.2基于机器学习的方法(1)优点是克服了未登录词的影响,将文本转化为结构化数据进行处理.文本分词后.可以根据需要全部词语选为特征项或根据需要选取部分.只要通过训练集构造好了分类器就可对未知类别的微博文本进行分类.(2)缺点是将各个特征看做孤立的元素、不能体现文本内部结构和联系.这是很重要一方面.另外也因文本词语多种多样变化万千,往往导致构造的向量空间存在高维稀疏的特点,给计算带来严重负担.影响分类的速率和效率.4总结综观各文献的实例研究结果。目前的中文微博情感分析分类准确率已达到一定水平。但仍有提升的空间.针对不能正确识别的部分.主要原因归纳如下:(1)对微博语料的语言特点研究还不是很透彻.微博数据主要由中文文本组成。中文表达千变万化.对其特点和规则进行深入研究是前提.万方数据只有在充分了解语言特点的基础上才能找对合适的方法来达到较高较好的分析结果;(2)微博的多评价对象特点导致极性判断错误.文献[15]通过微博情感分析与酒店评论情感分类进行了比较,同样的处理方法,酒店评论情感分类效果更佳。证明了微博多评价对象对于情感分类产生影响:(3)无论是基于情感词典还是基于机器学习方法都涉及特征的选取问题.如何提取更能提高分类效果的特征是关键所在.为了提升情感分析的准确率,我们的下一步工作可以从这些角度出发.不断扩充情感词典库。同时进一步从语义角度分析总结中文微博文本特点,结合主题识别技术,提取<评价对象,评价情感词>元组.充分融合基于情感词典和基于机器学习的情感分类方法,结合两者的长处,综合提高中文微博情感分析准确率.参考文献:[1]张宁.基于语义的中文文本预处理研究[D].西安:西安电子科技大学.2011.[2]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报.2012,(1):73—82.[3]宋双永,李秋丹,路冬媛.面向微博客的热点事件情感分析方法[J].计算机科学.2012(6A):226—228.[4]侯敏,滕永林,李雪燕等.话题型微博语言特点及其情感分析策略研究[J].语言文字应用.2013,(2):135—143.[5]陈晓东.基于情感词典的中文微博情感倾向分析研究[D].武汉:华中科技大学.2012.[6]杨超,冯时,王大玲,等.基于情感词典扩展技术的网络舆情倾向性分析[J].中文信息学报.2010,(4):69l一695.[7]苏杰,缪裕青,刘少兵,等.基于语义倾向计算器的情感分析方法[J].桂林电子科技大学学报.2012,(4):302—306.[8]韩忠明,张玉沙,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件.2012,(10):89-93.[9]傅向华,刘国,郭岩岩,等.中文博客多方面话题情感分析研究[J].中文信息学报.2013,(1):47—55.[10]朱艳辉,栗春亮,徐叶强,等.一种基于多重词典的中文文本情感特征抽取方法[J].湖南工业大学学报.2011,(2):42—46.・68・王银,吴新玲:中文微博情感分析方法研究第3期[11]常晓龙。张晖.融合语素特征的中文褒贬词典构建[19]刘志明,刘鲁.基于机器学习的中文微博情感分类[J].计算机应用.2012,(7):2033—2037.[12]阳爱民,林江豪,周咏梅.中文文本情感词典构建方法[DB/OL].2013—5—15.中国知网.[13]宋艳雪,张绍武,林鸿飞.基于语境歧义词的句子实证研究[J].计算机工程与应用.2012,(1):1—4.[20]张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学.2012(1IA):146—148.[21]Ying_Tsea1.SentimentSun,ChicI山angClassificationofandChen,Chun__chiehShortLiu,et情感倾向性分析[J].中文信息学报.2012,(3):38—43.[14]吴维,肖诗斌.基于多特征与复合分类法的中文微博情感分析[J].北京信息科技大学学报.2013,(4):39-45.ChineseonSentencesComputa-[C]//ProceedingsofthetionalLinguistics22,aconferenceSpeechProcessing(ROCLING2010).Taiwan:2010.Aimin,ZhouYongme,eta1.Classifi-Basedon[15]Lin.Jianghao,Yangcation[22]张昊曼,石博莹,刘栩宏.基于权值算法的中文情感分析系统研究与实现[J].计算机应用研究.2012,(12):4571-4573.ofMicroblogSentimentEngineeringandNaveBayesian[J].computerScience,2012,(9):86-90.[16]王文远,王大玲,冯时,等.一种面向情感分析的微博表情情感词典构建及应用[J].计算机与数字工程.2012,(11):6-9.[17]朱嫣然,闵景,周雅倩等.基于Hownet的词汇语义[23]王志涛,於志文,郭斌,等.基于词典和规则集的中文微博情感分析[DB/OL].2013—10—12.中国知网.[24]周胜臣,瞿文婷,石英子等.中文微博情感分析研究综述[J].计算机应用与软件.2013,(3):161—164.倾向计算[J].中文信息学报.2006,(1):14—20.[18]庞磊,李寿山,周国栋.基于情绪知识的中文微博情感分类方法[J].计算机工程.2012,(13):156—158.[25]喻琦.中文微博情感分析技术研究[D].浙江:浙江工商大学.2013.[责任编辑:刘向红】ResearchonSentimentAnalysisMethodofChineseMicrobloggingWANGYin.WUXin-ling(InstituteofComputerSciences,GuangdongPolytechnicNormalUniversity,Guangzhou510665,China)microbloggingsentimentanalysisistoaAbstract:Chinesesentimentanalysisresearchbehotspotnow.Chinesemicrobloggingdividedintoaccordingdifferentprocessinglevelscanthetarget-independentanalysisandtarget-dependentonanalysis,analysismethodsistheofmethodcanbeondividedintotwocategories,oneisthemachinelearning.Thispaperdiscussesanalysisatmethodbasedthemainemotionlexicon,anothermethodbasedprocessandtwoprocessingmethodsChinesestatusmicroblogginganalyzedsentimentpresent.Thereasonforofnotcharacteristicsoffullyaccurateandresearchareandcompared,thetomainemotionclassificationaresummarized,providingreferencefurtherresearchsentimentanalysismethod.Keywords:Chinesemicroblogging;sentimentanalysis;emotionlexicon;machinelearning万方数据中文微博情感分析方法研究
作者:作者单位:刊名:英文刊名:年,卷(期):
王银, 吴新玲, WANG Yin, WU Xin-ling
广东技术师范学院计算机科学学院,广东广州,510665广东技术师范学院学报(自然科学版)
JOURNAL OF GUANGDONG POLYECHNIC NORMAL UNIVERSITY2013,35(1)
本文链接:http://d.wanfangdata.com.cn/Periodical_gdjssfxyxb-z201401016.aspx