您的当前位置:首页正文

情感语音特征对语料库依赖性的统计分析

2022-01-19 来源:钮旅网
20l1年8月 噪声与振动控制 第4期 文章编号:1006—1355(2011)04—0132—05 情感语音特征对语料库依赖性的统计分析 孙颖, 张雪英 (太原理工大学信息工程学院,太原030024) 摘要:简述线性预测倒谱系数(LPCC)、Teager能量算子(TEO)、梅尔频率倒谱系数(MFCC)和过零峰值幅度 (ZCPA)特征提取方法,并将这四种方法应用于情感识别。设计两种实验,第一种是使用TYIJT和Berlin语料库的单语 言实验,这种实验证明,以上四种特征在单一的语料库单一语言条件下均能够有效地表征语音的情感特征,其中 MFCC特征对情感的识别率最高。第二种实验是混合语料库的单一语言实验。之前大多数关于情感特征的研究都是 基于某一种语料库中某种特定语言的,但在实际中,说话人的背景环境总是多种多样。因此,对特征的混合语料库研 究是有现实意义的。第二种实验证明这四种特征都是语料库依赖性的,其中ZCPA特征的识别率下降最少。 关键词:声学;信号处理;情感语音识别;语料库依赖性;情感特征;混合语料库 中图分类号:TN912.34 文献标识码:A DOI编码:10.3969/j.issn.1006.1355.2011.04.031 Statistical Analysis for Database Dependence in Classification of Emotional Speech by using Diferent Features Extraction Approaches SUN Ying,ZHANG Xue-ying (College of Information Engineering,TYUT,Taiyuan 030024,China) Abreact:Four approaches of feature extraction:the Linear Predictive Cepstral Coeficifent(LPCC),the Tcagcr Energy Operator(TEO),the Mel-Frequency Cepsrtal Coeficifent(MFCC)and the Zero Crossings wih tPeak Amplitudes(ZCPA)are described in this paper.And these approaches are applied to emotional speech recognition.Two kinds of experiments are carried out.The first one is a l【ind ofsingle language experiments wih TYUT dattabase and Berlin atabase.Ids results show that tthese four approaches Can represent speech emotion effectively by using single lnguage aof single database.MFCC has the best result of the four approaches.The second kind experiment is merge-database of single language.Most previous work on emotional feature extraction is based on a special language of single speech database.But in practice,the environmentofthe speakeris various.Sothe studyofemotionalfeature extractionbased onmerge—databaseis sigmficative. Experiments ofthe second kind indicate that the four features are all database dependent.ZCFA features are ofthe least databasedependenceofthefour approaches. Key wO Is:acoustics;sinalg analysis;emotional speech recognition;database dependence;emotional features; merge.database 人类的语言包含着说话人要传达的信息,同时 也能够传递说话人的情感状态。情感计算是当今热 点的研究领域,情感语音的自动识别正是这一热点 领域中面临的最新挑战之一。情感语音识别的目的 是将未知的情感语音按照不同的情感状态分类。为 收稿日期:2011-01.04;修改日期:2011-04—16 项目基金:国家自然科学基金(No.61072087); 山西省自然科学基金(No.2010011020—1); 山西省研究生创新基金(No.20093010) 了能够可靠地检测出人类的情感状态,语音的音调、 短时谱和强度等被认为是典型的表征语音情感状态 的特征 ]。 本文使用了线性预测倒谱系数(Linear Predictive Cepstral Coeficifent,LPCC)、梅尔频率倒 谱系数(Mel—Frequency Cepstral Coeficifent, MFCC)、Teager能量算子(Teager Energy Operator, TEO)及过零峰值幅度(Zero Crossings with Peak Amplitudes,ZCPA)几种特征作为表征语音情感状态 的基本特征,这几种特征均是语音的音调、短时谱和 强度特征的一种或几种的统计组合,两个情感语料 库(TYuT语料库、Berln语料库)作为基础语料库。i 作者简介:孙颖(1981.),女,河南濮阳人,在读博士,目前 从事情感语音研究。 E.mail;tyntsy@163.com 情感语音特征对语料库依赖性的统计分析 虽然目前国内对各种情感特征的研究很多,但是大 部分都是基于某种语言或者某种单独的语料库的。 133 语音情感的分类对比实验,下面简要介绍这四种方 法。 而在实际谈话中,说话人有着各自不同的语言背景, 因此研究不同发音条件下混合语料库的情感特征是 有现实意义的。本文通过两个单独情感语料库中英 语、汉语、德语三种语言的对比试验,及混合语料库 三种语言的对比试验,分别得出了这几种特征的语 2.1 LPCC特征 线性预测倒谱系数(LPCC)是线性预测系数 (Linear Predictive Coeficifent,LPC)在倒谱域的表 示,通常LPCC是由声信号的LPC递推得到的口】。 LPCC很好地去掉了语音产生过程的激励信息,主要 反映声道响应,通常十几个倒谱系数就能很好地描 料库依赖特性及语言依赖特性。 1 情感语音识别系统的组成 情感语音识别系统的组成与语音识别系统的组 成类似,基本分为语料库的准备、特征提取和模式匹 配三个部分。图l为情感语音识别的基本框图。 述语音信号的共振峰特性,因此可用于语音情感识 别中。 2.2 MFCC特征 梅尔频率倒谱系数(Me1.Frequency Cepstral Coefifcient,MFCC)是一种基于人耳听觉域特性提 取的特征参数 】。MFCC特征提取时,首先将原始 语音信号预加重、分帧加窗。接着对每一帧语音信 号进行快速傅里叶变换,得到信号的离散功率谱。 然后将信号的功率谱通过一组M个三角带通滤波 器,即Mel滤波器组,每个滤波器的中心频率在Mel 频率轴上为等间距分布。将每个滤波器的输出取对 焉薤塞 特征提墩 模式匹配 数能量,得到对数功率谱。最后将对数功率谱经过 离散余弦变换,转换到时域,就是MFCC。 在整个频率域,MFCC的三角滤波器是非均匀 分布的。滤波器在低频区域分布较为密集,在中高 频区域较为稀疏,这样使得MFCC在低频区域具有 较好的计算精度,频率分辨率高;在中高频区域计算 精度低,频谱信息被弱化。而语音信号主要集中在 低频部分,这种非均匀的滤波器可以很好地体现低 频信号的特征,并且屏蔽高频噪声的干扰,从而确保 特征的有效性。 2.3 ZCPA特征 图1情感语音识别的基本框 Fig.1 Basic structure of Emotion Speech Recognition 从图1中可以看出,首先,在语料库的准备阶段 要建立不同种情感类型的语料库;其次在特征提取 部分提取的是能够表征语音情感状态的特征:最后 根据不同划分方法在模式识别部分建立多种情感语 音模型,以得到识别率。 情感的划分方法是建立情感语料库与模式识别 部分的重要基础。目前主要存在两种划分方法:基 本情绪论和维度空间论[21。基本情绪论的观点认为 情绪在发生上有原型形式,即存在着数种人类的基 本情绪类型,每种类型各有其独特的体验特性、生理 过零峰值幅度(Zero Crossings with Peak Amplitudes,ZCPA)特征是一种基于人耳听觉特性的 特征,在语音识别中具有较高的抗噪性 。图2是 ZCPA特征提取框图。从图中可以看出,整个过程可 以分为滤波、过零及峰值特征提取、输出特征规整三 个部分 ]。 唤醒模式和外显模式。而对于基本情绪应包括哪些 情绪,则有不同的看法,最常被提到的是厌恶、愤怒、 高兴、悲伤、害怕等。 维度论认为,几个维度组成的空间包括了人类 原始情感语音信号在采样后,首先经过16个 FIR滤波器被分为16组。这16个滤波器的频带划 所有的情绪,情绪的表示可以看作是具有信息度量 的多维空间的点在情感空间中的映射,情感计算的 分根据等矩形带宽(Equivalent Rectangulr aBandwidth,ERB)来确定。滤波后,每组的信号都会 基础就是找到这个映射维度论,把不同情绪看作是 逐渐的、平稳的转变,不同情绪之间的差异性和相似 性是根据它们在维度空间中的距离远近来显示的。 本文使用的是基本情绪论划分方法。 依次通过过零检测模块、峰值检测模块、非线性压缩 模块和频率接收模块。过零检测模块用以计算情感 语音信号的过零率,并用过零间隔来表示信号的频 率信息。峰值检测模块会找到相邻两个过零点间的 最大峰值幅度,并在非线性压缩模块将最大峰值幅 度压缩,来表示信号的强度信息。接着频率信息和 2情感分类特征的研究 本文在相同的条件下用四种特征提取方法进行 2011年8月 噪声与振动控制 第4期 H 一 通道o 13)=3 645句。录制时,说话人处于安静的办公室环 境中(信噪比为20 dB ̄30dB)。录音采用Cool蹦t 瓜滤  零儡通道l5 过零及峰值特征提取 ]  }一 输出特征 规整 Pro2.0软件,PHILIPS的SHM 100麦克风,采样率为 11 024 Hz,分辨率为16 bit。为了保证语句的情感质 量和发音的自然性,还由录音者之外的11人进行了 组波器 I 滤波 主观辨听实验,最终选取890句情感语句组成情感 语料库。 3.2 Berlin语料库 Berlin语料库是在柏林技术大学的电波暗室中 录制的德语语句 。10位演员(5男5女)模仿了7种 情感,分别是中立,生气,害怕,高兴,悲伤,厌恶和烦 图2 ZCPA特征提取框图 Fig.2 Structure ofthe ZCPA Feature Extraction Approach 躁。每种情感包含10个德语句子。在高质量录音 设备下以48 kHz和16kHz的采样率录制。录音后 强度信息在频率接收模块被组合起来,成为每组的 输出特征川。最后将每组频率接收器的输出进行时 间幅度规整。规整后的特征为最终输出特征。 2.4 TEO特征 Teager能量算子(TEO)是最先由Teager和 Kaiser提出的。根据Teager的研究,声源是声道内 同样进行了主观辨听实验。最后选出了493旬语 句。 4识别实验及实验结果分析 本文做了两种实验。第一种,分别用第三节中 描述的两个语料库中的三种语言进行了实验。考虑 到实验的准确性和普遍性,在TY1JT语料库的每种 情感中随机选取了9l句语句用于实验。Berlin语料 库每种情感包含的语句个数不同,在高兴、生气、中 性及烦躁的情感状态下随机选取了7l句语句,而由 于焦虑、厌恶及悲伤的情感状态所含语句较少,因此 Berlin语料库的这三种情感状态的所有语句均被选 非线性涡流的交互作用 TEO自提出后,就被广泛 的应用于各种领域中,其中最为重要的就是在信号 特征提取领域的应用嘲。TEO的离散形式描述如 下: (s 】)=s。In】一S +1]s 一1】 (1) 其中 (‘)为TEO算子,s 】是采样后的语音信 号。本文中,TEO特征的提取步骤如下:首先对采样 用。第二种,进行了三种语言混合语料库的实验。 后的原始情感语音分帧,110个样点为一帧,帧移为 5O%。接着将分帧后的信号通过16个FIR滤波 器。这16个滤波器的频率范围为200 ̄4 000 Hz,频 带划分遵循2.3节简述的ERB频带划分原则。最后 对16个滤波器的输出加权规整,规整后的特征即为 TEO特征。 由于Berlin语料库包含了TYUT语料库之外的四种 情感,因此在进行混合语料库识别实验时要去除这 四类情感。每种实验使用大约2/3的句子训练,l/3 的句子测试。用于训练和测试的句子个数见表1。 支持向量机(SVM)算法被用于情感特征的分 类。支持向量机被证明是模式识别的有效手段。支 持向量机将输入映射到一个高维空间,然后用一个 超平面分类[10]o本文中,分别使用了对应于各种情 感的支持向量机,训练集中的每类情感数据对应的 支持向量机经训练后被确定为相应的情感类,其他 非本类的情感则被标上否定标志。在情感识别过程 中,同时将特征向量输入到所有支持向量机中,每个 支持向量机的输出通过逻辑判断后,来选择最可能 的情感类别,输出肯定标志的则被选定为正确情感, 由此可以得到识别结果。 3情感语料库 3.1 TⅥJT语料库 TYUT语料库是太原理工大学于2010年1月录 制的情感语料库。其目的是用于开展情感语音合成 与情感语音识别的研究。语料库包含6句中文,7句 英文。每句话由l4位男性和13位女性分别用高兴、 愤怒、中立三种情感发音9次。因此汉语语句共有 6x9x3x(14+13)=4 374句,英语语句共有5x9x3x(14+ 表1训练与测试语句数 Tab.1 TheNumberofSentencesforTraining andTesting 情感语音特征对语料库依赖性的统计分析 1 35 4.1一种语言的实验 本组实验以语言种类划分,分别对两种语料库 的三种语言进行三种情感的识别,例如做汉语高兴 实验时,用于训练的语句为汉语语料库中所有情感 语句,即用于训练的语句为61+61+61=183句,测试 的语句均为T JT语料库中的汉语高兴语句,即30 句。表2为四种特征的识别结果。 通过对TYUT的汉语、英语和Berlin语料库的 德语分别进行的识别实验,得到了总体较为理想的 识别率,LPCC、TEO、MFCC和ZCPA四种特征的平 均识别率达到了81.75%。综合对比这四种特征在 三种情感三种语言的平均识别结果,平均识别率从 高到低依次为MFCC(85.79%)、TEO(80.83%)、 ZCPA(80.77%)、LPCC(79.15%)。 从情感分类的角度来看,三种特征表现出中性 的识别率最高,高兴的次之,生气的最低,分析其原 因可能与语料库录制时的情感表现有关。 从语言的角度来看,四种特征均表现为汉语的 识别率最高,英语次之,德语最差。这是因为TYUT 语料库是由母语为中文的说话人录制的,因此在情 感表现上中文要强于英文,而Berlin语料库的表现 在一些参考文献中的平均识别率也比较低,如文献 [11】中同样在SVM分类算法和Berlin语料库下基于 分段的情感自动分类方法(SBA)的识别结果,文献 [11]的平均识别率是65.5%,可见Berlin语料库本身 的情感表现就比较弱。单独分析各种特征时, MFCC特征对英语、德语的三种情感状态及汉语的 生气和中性情感状态的识别率最高,ZCPA特征对汉 语的高兴情感状态的识别率最高。因此,单纯从识 别率上来看,MFCC特征是这四种特征中区分情感 的最为有效的方法。 4.2混合语料库的实验 本组实验将TYUT语料库和Berlin语料库相同 情感的语句混合,再对三种语言进行三种情感的识 别。例如做汉语高兴实验时,用于训练的语句为两 种语料库中所有的高兴情感的训练语句,即用于训 练的语句为61+61+48=170旬,而测试的语句为 TYuT语料库的汉语高兴情感测试语句,即30句。 表3为四种特征的识别结果。 从表3中可以发现,此时,综合识别结果从高到 低的特征排列为MFCC(82.28%)、ZCPA(78.63%)、 LPCC(74.81%)、TEO(73.74%)。识别率的排列顺 序有所变化,并且识别率都有所下降,其中MFCC下 降了3.51个百分点,ZCPA下降了2.14个百分点, LPCC下降了4.34个百分点,TEO下降了7.09个百 分点。 从情感分类的角度来看,LPCC和MFCC特征 的表现有所变化,中性的最高,生气的次之,高兴的 最低。ZCPA特征中生气平均的识别率低于高兴的, 但这是由于ZCPA特征对于德语的生气识别率下降 非常大,影响了整个的平均值。 从语言的角度来看,四种特征中有三种在三种 语言上的表现没有发生变化,依然是汉语最高,英语 次之,德语最差。 单独分析各种特征时,ZCPA特征除了继续在汉 语的高兴状态保持最高之外,还在英语的生气状态、 德语的高兴状态和中性状态取得了最高的识别率。 MFCC特征在剩下的语言情感状态下识别率最高。 从两次实验的结果分析,相同情感语料混合处 理后,识别结果有很大变化,总体来讲都有所下降。 虽然MFCC特征在两次实验中都有比较好的表现, 但是ZCPA特征在语料库混合后是所有特征中下降 最少的,并且在某些语言的某些情感下超过了 MFCC。而根据参考文献[11],当使用混合语料库 时,索尼公司的机器狗AIBO和基于分段方法 (Segment Based Approach,SBA)特征的识别结果会 急剧下降。可见ZCPA特征具有较好的语料库自适 应性。 5结语及展望 本文通过单独语言和混合语料库两组实验,分 别得出了LPCC、TEO、MFCC和ZCPA这四种特征 在高兴、生气以及中性情感状态下的识别结果。单 纯从识别率上来说,MFCC在两组试验中的表现最 好,平均识别率分别达到了85.79%和82.28%,其余 三种特征的平均识别率略低,但也都能达到比较理 想的结果,可见,LPCC、TEO、MFCC和ZCPA特征都 可以有效地表征语音的情感特性,并且均可以适用 于不同语料库和不同语言。 对比两组实验,可以发现,当采用混合语料库 时,这四种特征的识别率都会下降,但混合语料库对 ZCPA特征的影响最小。这说明LPCC、TEO、MFcc 和ZCPA特征都有一定的语料库依赖性,尤其是当 处于比较复杂的语言背景环境时,这种依赖性会表 现的更为明显。单纯从本文的试验中分析,ZCPA特 征的语料库依赖性最小,但是由于情感语料库的特 殊性,可以利用的情感语料库有限,本文只使用了两 种语料库。如果增加语料库的个数,并且增加语言 的种类,ZCPA特征是否依然能够表现出较好的语料 库独立性,将是需要进一步研究的课题。同时如何 构建出一种具有语料库独立性的特征将是我们今后 工作的重点 2011年8月 噪声与振动控制 第4期 表3四种特征在混合语料库实验中的实验结果(%) Tab.3 Percentage Classificaiton Accuracy ofMerge-database(%) 参考文献: f1】Dimi ̄o Vervm'idis,Constantine Kotropoulos.Emotional [7】焦志平,张雪英,赵淑彦.一种基于听觉模型的抗噪语音 识别特征提取方法【J】.太原理工大学学报,2005,36: 13-15. speech recognition:resources,features,and methods【J]. Spe ̄h Communitation,2006,48:1162—1181. 【8】He L,Lech M,Maddage N,Allen N.Emotion recognition in speech of parents of depressed adolescents 】. Proceedings of the Third International Conference on 【2】罗跃嘉,吴健辉.情绪的心理控制与认知研究策略[J】.西 南师范大学学报(人文社会科学版),2005,31(2):26.29. 【3】刘丽嫒,严家明.一种孤立词语音识别的实现方法及改 进【J].现代电子技术,2010,16:109—112. Bioinformatics and Biomedical Engineering(ICBBE 2009).Beijing,China,June 11-13,2009,1-4. [9】E Burkhardt,A.Paeschke,M.Rolfes,W Sendlmeier,B. [4]袁正午,肖旺辉.改进的混合MFCC语音识别算法研究 【J】.计算机工程与应用,2009,45(33):108.1 10. 【5】Dob・suk Kim,Soo-Yong Lee,Rhee M.Kil.Auditory processing of speech signal for robust speech recognition Weiss.A atdabase ofGerman emotional speech【J】.Proe. nterIpeeceh,2005:1517—1520. 【l0】w M.Chmpbell,J.P.CampeU,D.A.Reynolds,E. Singer,P.A.Torres-Carrasquillo..Support vector machines in real-world noisy envirroments[J].IEEE Trasnsctaions SpeechandAudioProcessing,1999,7(1):55—58. [6】Ying Sun,Xueying Zhang.A Study of Zero・Crossings with Peak-Amplitudes in Speech Emotion Classiication ffor speaker and lnguage raecogniiton【J】.Compute ̄ Speech and Language,2006,20:210-229. [11】Mohammad Shami,Wemer Verhlst.An evaluation of het robuness of existng superivised machine learning 【C】.The First International Conference on Pervasive Computing,sinagl Processing and Applications,Harbin, approaches to he tclassiifcation of emotions in speech【J】. Speech Communication,2007,49:201.212. China,Sep.17.19,2010:328—331. 

因篇幅问题不能全部显示,请点此查看更多更全内容