第24卷 第5期 2008 信号处理 SIGNAL PROCESSING Vo1.24. No.5 Oct.20o8 l0月 一种用于语声转换系统的LPC残差信号生成算法1 简志华杨震 (南京邮电大学信号处理与传输研究院,江苏南京210003) 摘要:残差信号中的基音信息对语音的说话人个性特征有着重要的影响。本文首先通过转换后的语音谱包络特征参 数(LSP)来预测相应的目标基音周期,再利用预测的目标基音周期来修改源语音的残差信号,从而生成所需要的目标语音 残差信号。客观评测和主观听觉测试都表明,本文的残差信号生成算法(PP+DCT,Pitch Prediction+Discrete Cosine Trans. form)性能要好于以往的残差预测法。 关键词:语音处理;语声转换;残差信号;基音预测;离散余弦变换 An Algorithm for Generating LPC Residual Signal Used in Voice Conversion System JIAN Zhi—hua YANG Zhen (Institute of Signal Processing and Transmission,Nanjing Univ.of Post and Telecom.,Nanjing Jiangsu,210003) Abstract:Pitch information contained in residual signal of speech plays an important role in speaker identity.An algorithm(PP +DCT,Pitch Prediction+Discrete Cosine Transform)for generating residual signal is proposed in this paper,which ifrstly predicts the corresponding target pitch using the convened spectrla envelop feature(LSP),and then uses DCT to modify the source residual sinagl according to the dynamic pitch—scale factor.Both subjective and objective evaluations are conducted.The experimentla results demon・ strated that the proposed algorithm can achieve better performance than the residual prediction(RP)method. Key words: Speech processing;Voice conversion;Residual sinal;Pigtch prediction;DCT 1 引言 语音信号包含了丰富的信息,既有语义信息,也包含了 说话人个性特征、情感以及说话的场景等信息。语声转换就 是改变语音信号中源说话人(source speaker)的个性特征,使 间,继而在某种匹配准则下,寻找将源说话人特征向量空间 映射到目标说话人特征向量空间的最优匹配函数。而转换 阶段,就是用所求得的匹配函数将源说话人特征参数转换成 目标说话人的特征参数,使得合成出来的语音具有目标说话 人的身份特征。影响语音个性特征的声学参数主要是声道 之具有Et标说话人(target speaker)的特性,从而使得语音在 特性参数和韵律特征参数,虽然声道特性在语音个性化信息 中取到了主导作用,但韵律信息也对其有重要的影响。目前 的语声转换算法主要是针对声道特性参数来进行转换,在对 韵律特性的改变时往往采取比较简单的处理方法,比如在对 经转换之后听起来就像是目标说话人的声音一样,而其中的 语义信息并没有改变[1]。语声转换技术的应用领域非常广 泛,比如,具有说话人个性化特征的文语转换(1TI’S)和语音合 成系统[2]一[5]、数字多媒体娱乐和电脑游戏[6]、帮助发声 基音进行修改时,利用源和目标语音基音周期的平均值计算 出比例因子,从而对所有的语音都按照这样一个固定的比例 因子来进行修改,而没有考虑基音的动态变化[2][4][5]。 这种韵律特性转换是比较粗糙的,因为基音轨迹,即基音的 动态变化,往往更能影响语音的特性[10]。为了改善这种情 况,Kain提出了残差预测算法,它不是直接来修改源语音的 基音周期、音素时长等韵律信息,而是用训练语音库中目标 器官和听觉器官受损的人提高语音质量[7][8]、作为语音识 别系统中的说话人自适应模块用以降低因说话人差异而给 识别系统带来的影响[9]等。 语声转换系统是通过改变语音信号的声学特征参数来 调整语音的个性特征。一般来讲,语声转换包含了两个步 骤,即训练阶段和转换阶段。在训练阶段,通过提取源说话 人语音和目标说话人语音的特征参数,形成两个特征向量空 收稿13期:2007年1月31 13;修回13期:2007年6月6日; 本文得到江苏省青蓝工程项目资助,编号QL003YZ 语音生成残差信号码本,然后利用转换后的谱特征参数在各 第5期 一种用于语声转换系统的LPC残差信号生成算法 763 个分类中的后验概率对所有的码字进行加权,生成目标的残 差信号,从而达到对韵律特性的修改[11]。而H.Ye在训练 的均值向量 和基音周期的均值 ;同时,协方差矩阵∑ 包含了四块,分别为x 的L×L维的协方差矩阵∑ , 与P 之间的互协方差矩阵∑ (L×1维)和 (1×L维),还有就 是P 的方差∑ 。对于每个高斯分量,可以表示为: 阶段保存所有目标语音的残差信号,语音谱特征参数转换 后,寻找与其谱距离最小的目标语音帧,而该帧所对应的残 差信号就用来合成所需要的语音[12]。这些预测算法都完 全丢弃了源语音的残差信号,而残差信号中不仅包含了说话 人的个性特征信息,也含有语音的其他信息。如果完全丢弃 了源语音的残差信号,虽然在一定程度上可以改变说话人的 叫 个性特征,但也会损失语音信号频谱的细节,从而降低了转 换后语音的自然度。针对这些情况,本文提出了一种新的韵 律特性转换算法。该算法主要是修改语音残差信号的基音 周期而保留了原来的波形细节和特点,首先利用转换后的语 音谱特征参数来预测目标语音的基音周期,从而和该帧源语 音的基音周期进行比较,计算出比例因子(该比例因子是动 态变化,每帧语音的比例因子是不同的,而不是固定不变), 进而再利用离散余弦变换对残差信号按照该比例因子进行 压缩或者扩展,从而达到修改基音周期的目的,产生所需要 的语音激励信号。 本文结构安排如下:第2部分在介绍基音周期预测算法 的基础上,着重阐述基于离散余弦变换的残差信号转换方 法;实验及其结果将在第3部分中介绍,第4部分将对全文进 行总结。 2 LPC残差信号生成算法 线性预测模型是一种重要的语音信号模型,它符合语音 信号的生成机理,在语声转换研究中广为使用。语音经过 LPC分析后,残差信号中的基音信息对语音的个性特征具有 非常重要的作用。Kain的实验表明,如果只对语音的声道特 性参数进行转换,而保持残差信号不变,则语声转换系统的 性能急剧下降[11]。因此,生成目标语音的残差信号对转换 系统具有重要的影响。 2.1基音预测 对语音库中的目标说话人语音进行清/浊音判决,提取 出其中的浊音语音帧。为了减少发音轻重变化的影响,使用 RMS能量对每帧语音信号的样点幅度进行归一化,之后提取 浊音帧的KSP参数和基音周期,则分别形成了LSP矢量序列 和基音周期序列,设为x。,x2,…,x ,…,xⅣ和Pl,P2,…,P , …,P ,其中Ⅳ为总共的浊音帧数,x 为 维的KSP列向量, P 是基音周期。将相应的x 和P 进行联接,则形成一个拓 展的新的列矢量Y =[xT,P r。使用高斯混合模型(GMM) 对拓展后的,J+1维空间{Y }的概率密度进行联合密度建模, GMM中的各个参数由EM算法来求取,设其概率密度函数为: ^f f(Y)=∑・. N(Y; ,∑ ) (1) M 其中,Ot 是第m个分量的先验概率,且满足∑Ot =1,N(Y; ,n I ,∑ )是均值向量为 、协方差矩阵为∑ 的正态分布。 由于向量Y 是由向量X 和基音周期P 拼接而成,因此,对 于GMM每个分量的均值向量 包含了两部分,即L维LSP 在X服从高斯分布和X与P服从联合高斯分布的情况下,若 X已知,在最小均方误差(MMSE)估计准则下,对P的估计为 [13]: =E(plx) f(plx)dx = +∑P (∑“) (x一 ) 因此,对于GMM来说,在当前时刻LSP参数x 已知的情况 下,基音周期P 的估计值为: =∑.卢 (x )・[ +∑ (∑ ) (x 一 )] (4) 其中, 、 和∑ 、∑ 是式(2)中的均值和协方差,卢 (X ) 表示X 属于GMM中第m个分量Q 的概率,即后验概率 卢 ( ):P(Q : 蓝 (5)。 ∑・. N(X ; ,∑ ) 2.2 LPC残差信号转换 基音周期的改变可以通过对LPC残差信号进行压缩或 者拉伸来实现[14]。离散余弦变换(DCT)是一种常用的信 号压缩和扩展的正交变换算法,在语音、图像等领域被广泛 应用。在从变换域中恢复出信号时,DCT能够保持信号的周 期性。 为了得到目标语音的残差信号,在转换阶段,对每帧源 说话人语音进行LPC处理,得到LSP参数 和残差信号,并 同时计算出每帧浊音信号的基音周期。使用基于GMM的联 合密度估计算法对声道特性参数X 进行转换,得到目标的声 道特性参数 [11]。之后根据式(4)的基音周期预测算法, 用转换后的LSP参数 来预测目标语音的基音周期(浊音情 况下)。设某帧源语音的残差信号为{e(n):0 n≤N.一1}, 基音周期为P,而用其转换后的LSP参数 预测到的目标基 音周期为 ,则生成目标残差信号的算法可表示为如下几个 步骤: 1)使用DCT对源残差信号{e(n):O n≤N。一1}进行变换 f 1 l )= N t-1咖。s ; ㈦’2,…卅 (6) 2)对残差信号{e(n):0≤n Ⅳ 一1}基音周期的修改通过调 整IDCT的点数Ⅳ2来实现,而Ⅳ2=Nl・i,/p。如果』;>p,即基 764 信号处理 第24卷 音周期变长,则在DCT系数E(k)的最后阶补充 — 个 零;如果 <p,则只截取DCT系数0(k)的前 个系数,丢弃 的转换(F1-to.M1)。图2是M1一to—M2情况下的一段语音在 转换前后的基音轮廓对比图,为了能更清楚地看到基音轮廓 的变化,我们在图上分别 对PP+DCT法、残差预 后面的Ⅳ1一Ⅳ2个系数。由于DCT有良好的信号能量集中的 性能,即信号的绝大部分能量都集中在低位的DCT系数,因 此丢弃一些高位的DCT系对信号的能量影响甚小。 3)对经过补零或者截取后的系数进行,v2点的IDCT,则可获 测法和源语音的基音在 数值上增加了5、10和 得具有目标基音周期的残差信号,为: )= ,+√ E㈤… , n=0,1,…,Ⅳ2—1 (7) 上述的目标残差信号生成算法只是针对浊音信号。对 于清音,则不对残差信号进行转换[11],只转换该帧的谱特 征参数,在合成Et标语音时使用源残差信号。另外,由于信 号样点数的变化会引起信号能量的改变,为了补偿信号能量 的改变,在进行IDCT之前,对DCT系数进行规一化处理 [14];同时,样点数 的变化也造成了语 且 音的时长改变,为 了对语音时长不造 成影响,则在语音 合成时,改变语音 帧问叠加段的长度 来进行补偿[15]。 图1语声转换系统框图 图1是语声转换系 统的整体框架图。 3实验及结果 3.1语音库 本文实验所用的语音库是对称的语音库,也即每个人的 发音内容是一样的,由500个语句组成,长短不一,既有字和 短语,也有长句,覆盖了大部分的汉语音节,也充分考虑了发 音的协同效应。由4个人发音,其中两个男声、两个女声,分 别记为M1、M2和F1、F2,每人每个语句都发音3次。每个人 都尽量以相同的方式发音,以保持语音有比较好的时间对 齐。在信噪比不低于30db的实验室环境下录制,信号抽样率 为16k,每个样点16bit量化。语音库分成两部分,其中350 个语句用于系统的训练,另外150个语句用于系统性能的测 试。测试实验分为客观评测和主观听觉测试。 3.2客观评测 实验采用LSP参数作为语音信号频谱信息的特征矢量, 语音帧长为20ms,帧移为10ms,窗函数为hamming窗,语音 信号分析/合成模型采用LPC模型。本文的主要目的是生成 转换语音的残差信号,其性能与残差预测法[11]进行比较。 谱特征参数LSP的转换采用JDE—GMM(Joint Density Estima— tion)算法[11],GMM的分量数M取128。实验分为四个子 任务,分别为男声到男声的转换(M1一to—M2)、男声到女声的 转换(M2一to—F2)、女声到女声的转换(F2一to—F1)、女声到男声 20。从图上可以看出,在 基音平均值的转换效果 来讲,两种算法都是比较 有效的,但从基音轮廓变 图2基音轮廓对比 化的角度来看,PP+DCT 法比残差预测法能够更 好地反映目标语音的基音走势。图3是在M2-to.F2的情况 下一帧语音的残差信号在转换前后的对比情况,该帧残差信 号的基音周期变化因子 : /P=0.875。从图上可以看出, PP+DCT对残差信号基音的修改是更加有效的,这不仅说 明,基音预测是非常准确的,而且使用DCT来生成所需要的 残差信号是行之有效的。而残差预测法由于使用各个分量 的线性加权,使得生成的残差信号在基音的变化上并不明 显,而且波形也要过于平滑一些。图4是一段语音在F1.to— M1变换下的语谱图对照情况,从图上可以看出,PP+DCT能 目标激励信号 图3残差信号对比 氰语音 宵 墨 * 纂 宵 王 * 0 2 04 0.6 时闻(6) 图4语谱图对比 第5期 一种用于语声转换系统的LPC残差信号生成算法 765 够保留更多的语音频谱细节,这是因为在残差信号中,基音 周期信息是影响说话人个性特征的主要因素,而波形的细节 信息主要是影响语音的质量。在PP+DCT算法中,它主要是 [4]C.H.Wu,C.C.Hsia,T.H.Liu,J.F.Wang,“Voice con- version using duration・-embedded bi--HMMs for expressive speech synthesis,”IEEE Transactions on Audio,Speech, 用来修改信号的基音周期,相当于对信号进行了伸缩处理, 而对信号的波形细节影响不大,而残差预测法,是彻底地丢 弃了源语音的残差信号,利用训练阶段建立的目标语音残差 信号码本进行线性加权,这样对残差信号会有较大的破坏, and Language Processing,Vo1.14,No.4,Ju1.2006,PP. 1109—1l16. [5]O.Turk,L.M.Arsln,“Robusat prcesosing techniques for voice conversion,”Computer Speech and language,Vo1. 丢失了一些语音频谱的细节信息。 3.3主观听觉测试 主观听力感觉测试是对语音信号进行测试的一个重要 组成部分。在语声转换系统性能的测试中,ABX测试法是一 种常用的测试手段,它用来区分不同的说话人。A和B分别 表示源说话人语音和目标说话人语音,x表示转换后的语音。 在实验测试中,要求受测者判断x更接近A还是更接近B。 在本文实验中,5个受测者参与了ABX测试。测试结果见表 1。从测试结果来看,PP+DCT的效果要略高于残差预测法。 同时,不管是哪种转换算法,异性之间的转换效果都要好于 同性之间的转换。 表1 ABX测试结果 M1.t0.M2 M2一to—F2 F2一t0一Fl F1一to.M1 RP 73.2% 86.8% 71.7% 87.6% PP+DCT 74.3% 87.9% 72.4% 88.9% 4 总结 本文提出了一种用于语声转换系统的残差信号生成算 法(PP+DCT)。该算法是首先通过转换后的语音谱包络特 征参数(LSP)来预测相应的目标基音周期,再利用预测的目 标基音周期来修改源语音的残差信号,从而生成所需要的目 标语音残差信号。为了补偿因信号样点数改变所带来的能 量和信号时长的变换,在进行IDCT之前对DCT系数进行能 量规一化处理,并在合成语音时相应地改变帧间叠加部分的 长度。客观评测和主观听觉测试都表明,本文的残差信号生 成算法性能要好于以往的残差预测法。 参考文献 D.G.Childers,K.Wu,D.M.Hicks,etc.。“Voice conver- sion,”Speech Communication,Vo1.8,No.2,Feb.1995, PP.147—158. [2] Y.Stylianou,O.Cappe and E.Moulines,“Continuous Prob— abilistic TransfonTl for Voice Conversion.”IEEE Transac. tions on Speech and Audio Processing,Vo1.6,No.2,Mar. 1998,PP.131-142. [3] A.Mouchtaris,S.S.Narayanan,C.Kyriakakis,“Muhichan- nel Audio Synthesis by Subband—based Spectral Conversion and Parameter adaptation,”IEEE Transactions on Speech and Audio Processing,Vo1.13,No.2,Mar.2005,PP. 263-274. 20,No.4,Oct.2006,PP.441—467. [6] Y.Sato,“Voice Quality Convesrion using Interactive Evo- lution of Prosodic Control,”Applied Soft Computing,Vo1. 5,No.2,Jan.2005,PP.181-192. [7]N.Bi,Y.Y.Qi,“Application ofSpeechConversiontoAlary- geal Speech Enhancement,’’IEEE Transactions on Speech and Audio Processing,Vo1.5,No.2,Mar.1997,PP.97—105. [8]C.L.Lee,W.W.Chang,Y.C.Chiang,“Spectrla and Pro— sodic Transformations of Hearing・-impaired Mandarin Spee-- ch,”Speech Communication,Vo1.48,No.2,Feb.2006, PP.207—219. [9]K.Shikano,S.Nakamura,M.Abe,“Speaker adaptation nad voice conversion by codebook mapping,”in IEEE Proceed— ing of ISCAS,Singapore,Jun.11-14,1991,PP.594-597. [10]H.Matsumoto,S.Hiki,T.Sone,T.Nimura,“Muhidimen- sional representation of personal quality of vowels and its acoustic correlates,”IEEE Trnasaction on Audio and Elec- troacoustics,Vo1.21,No.5,1973,PP.428—436. [11]A.Kain,“High resolution voice convesrion,”Ph.D.The— sis,OGI School of Science and Engineering at Oregon Health and Science University,Po ̄land,Oregon,2001. [12]H.Ye,S.Young,“QuMi ̄一enhanced voice morphing using maximum likelihood transformation,’’IEEE Transactions on Audio,Speech,and Language Processing,Vo1.14,No.4, Ju1.2006,pp.1301.1312. [13]B.Milner,X.Shao,“Prediction of fundamentla ̄equency and voicing from Mel—frequency cepstral coefficients for unconstrained speech reconstruction,’’IEEE Transactions on Audio,Speech,and Language Processing,Vo1.15,No. 1,2007,PP.24—33. [14]R.Muralishankar,A.G.Ramakrishnan,P.Prathibha, “Modiifcation of pitch using DCT in the source domain,” Speech Communication,Vo1.42,No.2,2004,PP.143-154. [15]K.L.Lee,“Statistical approach for voice eprsonality trans- formation,”IEEE Transaction on Audio,Speech and Lan. guage Processing,Vo1.15,No.2,Feb.2007,PP.641—651. 作者简介 简志华:男,1978年l2月生于江西新余,现为南京邮电 大学信号处理与传输研究院博士研究生,信号与信息处理专 业,研究方向为语音信号处理、语声转换及语音识别等。