一种用于语声转换系统的LPC残差信号生成算法

2021-03-27 来源：钮旅网

第２４卷　第５期　２００８　信号处理　ＳＩＧＮＡＬ　ＰＲＯＣＥＳＳＩＮＧ　Ｖｏ１．２４．　Ｎｏ．５　Ｏｃｔ．２０ｏ８　ｌ０月　一种用于语声转换系统的ＬＰＣ残差信号生成算法１　简志华杨震　（南京邮电大学信号处理与传输研究院，江苏南京２１０００３）　摘要：残差信号中的基音信息对语音的说话人个性特征有着重要的影响。本文首先通过转换后的语音谱包络特征参　数（ＬＳＰ）来预测相应的目标基音周期，再利用预测的目标基音周期来修改源语音的残差信号，从而生成所需要的目标语音　残差信号。客观评测和主观听觉测试都表明，本文的残差信号生成算法（ＰＰ＋ＤＣＴ，Ｐｉｔｃｈ　Ｐｒｅｄｉｃｔｉｏｎ＋Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓ．　ｆｏｒｍ）性能要好于以往的残差预测法。　关键词：语音处理；语声转换；残差信号；基音预测；离散余弦变换　Ａｎ　Ａｌｇｏｒｉｔｈｍ　ｆｏｒ　Ｇｅｎｅｒａｔｉｎｇ　ＬＰＣ　Ｒｅｓｉｄｕａｌ　Ｓｉｇｎａｌ　Ｕｓｅｄ　ｉｎ　Ｖｏｉｃｅ　Ｃｏｎｖｅｒｓｉｏｎ　Ｓｙｓｔｅｍ　ＪＩＡＮ　Ｚｈｉ—ｈｕａ　ＹＡＮＧ　Ｚｈｅｎ　（Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ　ａｎｄ　Ｔｒａｎｓｍｉｓｓｉｏｎ，Ｎａｎｊｉｎｇ　Ｕｎｉｖ．ｏｆ　Ｐｏｓｔ　ａｎｄ　Ｔｅｌｅｃｏｍ．，Ｎａｎｊｉｎｇ　Ｊｉａｎｇｓｕ，２１０００３）　Ａｂｓｔｒａｃｔ：Ｐｉｔｃｈ　ｉｎｆｏｒｍａｔｉｏｎ　ｃｏｎｔａｉｎｅｄ　ｉｎ　ｒｅｓｉｄｕａｌ　ｓｉｇｎａｌ　ｏｆ　ｓｐｅｅｃｈ　ｐｌａｙｓ　ａｎ　ｉｍｐｏｒｔａｎｔ　ｒｏｌｅ　ｉｎ　ｓｐｅａｋｅｒ　ｉｄｅｎｔｉｔｙ．Ａｎ　ａｌｇｏｒｉｔｈｍ（ＰＰ　＋ＤＣＴ，Ｐｉｔｃｈ　Ｐｒｅｄｉｃｔｉｏｎ＋Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓｆｏｒｍ）ｆｏｒ　ｇｅｎｅｒａｔｉｎｇ　ｒｅｓｉｄｕａｌ　ｓｉｇｎａｌ　ｉｓ　ｐｒｏｐｏｓｅｄ　ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｗｈｉｃｈ　ｉｆｒｓｔｌｙ　ｐｒｅｄｉｃｔｓ　ｔｈｅ　ｃｏｒｒｅｓｐｏｎｄｉｎｇ　ｔａｒｇｅｔ　ｐｉｔｃｈ　ｕｓｉｎｇ　ｔｈｅ　ｃｏｎｖｅｎｅｄ　ｓｐｅｃｔｒｌａ　ｅｎｖｅｌｏｐ　ｆｅａｔｕｒｅ（ＬＳＰ），ａｎｄ　ｔｈｅｎ　ｕｓｅｓ　ＤＣＴ　ｔｏ　ｍｏｄｉｆｙ　ｔｈｅ　ｓｏｕｒｃｅ　ｒｅｓｉｄｕａｌ　ｓｉｎａｇｌ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｄｙｎａｍｉｃ　ｐｉｔｃｈ—ｓｃａｌｅ　ｆａｃｔｏｒ．Ｂｏｔｈ　ｓｕｂｊｅｃｔｉｖｅ　ａｎｄ　ｏｂｊｅｃｔｉｖｅ　ｅｖａｌｕａｔｉｏｎｓ　ａｒｅ　ｃｏｎｄｕｃｔｅｄ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔｌａ　ｒｅｓｕｌｔｓ　ｄｅｍｏｎ・　ｓｔｒａｔｅｄ　ｔｈａｔ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ａｌｇｏｒｉｔｈｍ　ｃａｎ　ａｃｈｉｅｖｅ　ｂｅｔｔｅｒ　ｐｅｒｆｏｒｍａｎｃｅ　ｔｈａｎ　ｔｈｅ　ｒｅｓｉｄｕａｌ　ｐｒｅｄｉｃｔｉｏｎ（ＲＰ）ｍｅｔｈｏｄ．　Ｋｅｙ　ｗｏｒｄｓ：　Ｓｐｅｅｃｈ　ｐｒｏｃｅｓｓｉｎｇ；Ｖｏｉｃｅ　ｃｏｎｖｅｒｓｉｏｎ；Ｒｅｓｉｄｕａｌ　ｓｉｎａｌ；Ｐｉｇｔｃｈ　ｐｒｅｄｉｃｔｉｏｎ；ＤＣＴ　１　引言　语音信号包含了丰富的信息，既有语义信息，也包含了　说话人个性特征、情感以及说话的场景等信息。语声转换就　是改变语音信号中源说话人（ｓｏｕｒｃｅ　ｓｐｅａｋｅｒ）的个性特征，使　间，继而在某种匹配准则下，寻找将源说话人特征向量空间　映射到目标说话人特征向量空间的最优匹配函数。而转换　阶段，就是用所求得的匹配函数将源说话人特征参数转换成　目标说话人的特征参数，使得合成出来的语音具有目标说话　人的身份特征。影响语音个性特征的声学参数主要是声道　之具有Ｅｔ标说话人（ｔａｒｇｅｔ　ｓｐｅａｋｅｒ）的特性，从而使得语音在　特性参数和韵律特征参数，虽然声道特性在语音个性化信息　中取到了主导作用，但韵律信息也对其有重要的影响。目前　的语声转换算法主要是针对声道特性参数来进行转换，在对　韵律特性的改变时往往采取比较简单的处理方法，比如在对　经转换之后听起来就像是目标说话人的声音一样，而其中的　语义信息并没有改变［１］。语声转换技术的应用领域非常广　泛，比如，具有说话人个性化特征的文语转换（１ＴＩ’Ｓ）和语音合　成系统［２］一［５］、数字多媒体娱乐和电脑游戏［６］、帮助发声　基音进行修改时，利用源和目标语音基音周期的平均值计算　出比例因子，从而对所有的语音都按照这样一个固定的比例　因子来进行修改，而没有考虑基音的动态变化［２］［４］［５］。　这种韵律特性转换是比较粗糙的，因为基音轨迹，即基音的　动态变化，往往更能影响语音的特性［１０］。为了改善这种情　况，Ｋａｉｎ提出了残差预测算法，它不是直接来修改源语音的　基音周期、音素时长等韵律信息，而是用训练语音库中目标　器官和听觉器官受损的人提高语音质量［７］［８］、作为语音识　别系统中的说话人自适应模块用以降低因说话人差异而给　识别系统带来的影响［９］等。　语声转换系统是通过改变语音信号的声学特征参数来　调整语音的个性特征。一般来讲，语声转换包含了两个步　骤，即训练阶段和转换阶段。在训练阶段，通过提取源说话　人语音和目标说话人语音的特征参数，形成两个特征向量空　收稿１３期：２００７年１月３１　１３；修回１３期：２００７年６月６日；　本文得到江苏省青蓝工程项目资助，编号ＱＬ００３ＹＺ　语音生成残差信号码本，然后利用转换后的谱特征参数在各　第５期　一种用于语声转换系统的ＬＰＣ残差信号生成算法　７６３　个分类中的后验概率对所有的码字进行加权，生成目标的残　差信号，从而达到对韵律特性的修改［１１］。而Ｈ．Ｙｅ在训练　的均值向量　和基音周期的均值　；同时，协方差矩阵∑　包含了四块，分别为ｘ　的Ｌ×Ｌ维的协方差矩阵∑　，　与Ｐ　之间的互协方差矩阵∑　（Ｌ×１维）和　（１×Ｌ维），还有就　是Ｐ　的方差∑　。对于每个高斯分量，可以表示为：　阶段保存所有目标语音的残差信号，语音谱特征参数转换　后，寻找与其谱距离最小的目标语音帧，而该帧所对应的残　差信号就用来合成所需要的语音［１２］。这些预测算法都完　全丢弃了源语音的残差信号，而残差信号中不仅包含了说话　人的个性特征信息，也含有语音的其他信息。如果完全丢弃　了源语音的残差信号，虽然在一定程度上可以改变说话人的　叫　个性特征，但也会损失语音信号频谱的细节，从而降低了转　换后语音的自然度。针对这些情况，本文提出了一种新的韵　律特性转换算法。该算法主要是修改语音残差信号的基音　周期而保留了原来的波形细节和特点，首先利用转换后的语　音谱特征参数来预测目标语音的基音周期，从而和该帧源语　音的基音周期进行比较，计算出比例因子（该比例因子是动　态变化，每帧语音的比例因子是不同的，而不是固定不变），　进而再利用离散余弦变换对残差信号按照该比例因子进行　压缩或者扩展，从而达到修改基音周期的目的，产生所需要　的语音激励信号。　本文结构安排如下：第２部分在介绍基音周期预测算法　的基础上，着重阐述基于离散余弦变换的残差信号转换方　法；实验及其结果将在第３部分中介绍，第４部分将对全文进　行总结。　２　ＬＰＣ残差信号生成算法　线性预测模型是一种重要的语音信号模型，它符合语音　信号的生成机理，在语声转换研究中广为使用。语音经过　ＬＰＣ分析后，残差信号中的基音信息对语音的个性特征具有　非常重要的作用。Ｋａｉｎ的实验表明，如果只对语音的声道特　性参数进行转换，而保持残差信号不变，则语声转换系统的　性能急剧下降［１１］。因此，生成目标语音的残差信号对转换　系统具有重要的影响。　２．１基音预测　对语音库中的目标说话人语音进行清／浊音判决，提取　出其中的浊音语音帧。为了减少发音轻重变化的影响，使用　ＲＭＳ能量对每帧语音信号的样点幅度进行归一化，之后提取　浊音帧的ＫＳＰ参数和基音周期，则分别形成了ＬＳＰ矢量序列　和基音周期序列，设为ｘ。，ｘ２，…，ｘ　，…，ｘⅣ和Ｐｌ，Ｐ２，…，Ｐ　，　…，Ｐ　，其中Ⅳ为总共的浊音帧数，ｘ　为　维的ＫＳＰ列向量，　Ｐ　是基音周期。将相应的ｘ　和Ｐ　进行联接，则形成一个拓　展的新的列矢量Ｙ　＝［ｘＴ，Ｐ　ｒ。使用高斯混合模型（ＧＭＭ）　对拓展后的，Ｊ＋１维空间｛Ｙ　｝的概率密度进行联合密度建模，　ＧＭＭ中的各个参数由ＥＭ算法来求取，设其概率密度函数为：　＾ｆ　ｆ（Ｙ）＝∑・．　Ｎ（Ｙ；　，∑　）　（１）　Ｍ　其中，Ｏｔ　是第ｍ个分量的先验概率，且满足∑Ｏｔ　＝１，Ｎ（Ｙ；　，ｎ　Ｉ　，∑　）是均值向量为　、协方差矩阵为∑　的正态分布。　由于向量Ｙ　是由向量Ｘ　和基音周期Ｐ　拼接而成，因此，对　于ＧＭＭ每个分量的均值向量　包含了两部分，即Ｌ维ＬＳＰ　在Ｘ服从高斯分布和Ｘ与Ｐ服从联合高斯分布的情况下，若　Ｘ已知，在最小均方误差（ＭＭＳＥ）估计准则下，对Ｐ的估计为　［１３］：　＝Ｅ（ｐｌｘ）　ｆ（ｐｌｘ）ｄｘ　＝　＋∑Ｐ　（∑“）　（ｘ一　）　因此，对于ＧＭＭ来说，在当前时刻ＬＳＰ参数ｘ　已知的情况　下，基音周期Ｐ　的估计值为：　＝∑．卢　（ｘ　）・［　＋∑　（∑　）　（ｘ　一　）］　（４）　其中，　、　和∑　、∑　是式（２）中的均值和协方差，卢　（Ｘ　）　表示Ｘ　属于ＧＭＭ中第ｍ个分量Ｑ　的概率，即后验概率　卢　（　）：Ｐ（Ｑ　：　蓝　（５）。　∑・．　Ｎ（Ｘ　；　，∑　）　２．２　ＬＰＣ残差信号转换　基音周期的改变可以通过对ＬＰＣ残差信号进行压缩或　者拉伸来实现［１４］。离散余弦变换（ＤＣＴ）是一种常用的信　号压缩和扩展的正交变换算法，在语音、图像等领域被广泛　应用。在从变换域中恢复出信号时，ＤＣＴ能够保持信号的周　期性。　为了得到目标语音的残差信号，在转换阶段，对每帧源　说话人语音进行ＬＰＣ处理，得到ＬＳＰ参数　和残差信号，并　同时计算出每帧浊音信号的基音周期。使用基于ＧＭＭ的联　合密度估计算法对声道特性参数Ｘ　进行转换，得到目标的声　道特性参数　［１１］。之后根据式（４）的基音周期预测算法，　用转换后的ＬＳＰ参数　来预测目标语音的基音周期（浊音情　况下）。设某帧源语音的残差信号为｛ｅ（ｎ）：０　ｎ≤Ｎ．一１｝，　基音周期为Ｐ，而用其转换后的ＬＳＰ参数　预测到的目标基　音周期为　，则生成目标残差信号的算法可表示为如下几个　步骤：　１）使用ＤＣＴ对源残差信号｛ｅ（ｎ）：Ｏ　ｎ≤Ｎ。一１｝进行变换　ｆ　１　ｌ　）＝　Ｎ　ｔ－１咖。ｓ　；　㈦’２，…卅　（６）　２）对残差信号｛ｅ（ｎ）：０≤ｎ　Ⅳ　一１｝基音周期的修改通过调　整ＩＤＣＴ的点数Ⅳ２来实现，而Ⅳ２＝Ｎｌ・ｉ，／ｐ。如果』；＞ｐ，即基　７６４　信号处理　第２４卷　音周期变长，则在ＤＣＴ系数Ｅ（ｋ）的最后阶补充　—　个　零；如果　＜ｐ，则只截取ＤＣＴ系数０（ｋ）的前　个系数，丢弃　的转换（Ｆ１－ｔｏ．Ｍ１）。图２是Ｍ１一ｔｏ—Ｍ２情况下的一段语音在　转换前后的基音轮廓对比图，为了能更清楚地看到基音轮廓　的变化，我们在图上分别　对ＰＰ＋ＤＣＴ法、残差预　后面的Ⅳ１一Ⅳ２个系数。由于ＤＣＴ有良好的信号能量集中的　性能，即信号的绝大部分能量都集中在低位的ＤＣＴ系数，因　此丢弃一些高位的ＤＣＴ系对信号的能量影响甚小。　３）对经过补零或者截取后的系数进行，ｖ２点的ＩＤＣＴ，则可获　测法和源语音的基音在　数值上增加了５、１０和　得具有目标基音周期的残差信号，为：　）＝　，＋√　Ｅ㈤…　，　ｎ＝０，１，…，Ⅳ２—１　（７）　上述的目标残差信号生成算法只是针对浊音信号。对　于清音，则不对残差信号进行转换［１１］，只转换该帧的谱特　征参数，在合成Ｅｔ标语音时使用源残差信号。另外，由于信　号样点数的变化会引起信号能量的改变，为了补偿信号能量　的改变，在进行ＩＤＣＴ之前，对ＤＣＴ系数进行规一化处理　［１４］；同时，样点数　的变化也造成了语　且　音的时长改变，为　了对语音时长不造　成影响，则在语音　合成时，改变语音　帧问叠加段的长度　来进行补偿［１５］。　图１语声转换系统框图　图１是语声转换系　统的整体框架图。　３实验及结果　３．１语音库　本文实验所用的语音库是对称的语音库，也即每个人的　发音内容是一样的，由５００个语句组成，长短不一，既有字和　短语，也有长句，覆盖了大部分的汉语音节，也充分考虑了发　音的协同效应。由４个人发音，其中两个男声、两个女声，分　别记为Ｍ１、Ｍ２和Ｆ１、Ｆ２，每人每个语句都发音３次。每个人　都尽量以相同的方式发音，以保持语音有比较好的时间对　齐。在信噪比不低于３０ｄｂ的实验室环境下录制，信号抽样率　为１６ｋ，每个样点１６ｂｉｔ量化。语音库分成两部分，其中３５０　个语句用于系统的训练，另外１５０个语句用于系统性能的测　试。测试实验分为客观评测和主观听觉测试。　３．２客观评测　实验采用ＬＳＰ参数作为语音信号频谱信息的特征矢量，　语音帧长为２０ｍｓ，帧移为１０ｍｓ，窗函数为ｈａｍｍｉｎｇ窗，语音　信号分析／合成模型采用ＬＰＣ模型。本文的主要目的是生成　转换语音的残差信号，其性能与残差预测法［１１］进行比较。　谱特征参数ＬＳＰ的转换采用ＪＤＥ—ＧＭＭ（Ｊｏｉｎｔ　Ｄｅｎｓｉｔｙ　Ｅｓｔｉｍａ—　ｔｉｏｎ）算法［１１］，ＧＭＭ的分量数Ｍ取１２８。实验分为四个子　任务，分别为男声到男声的转换（Ｍ１一ｔｏ—Ｍ２）、男声到女声的　转换（Ｍ２一ｔｏ—Ｆ２）、女声到女声的转换（Ｆ２一ｔｏ—Ｆ１）、女声到男声　２０。从图上可以看出，在　基音平均值的转换效果　来讲，两种算法都是比较　有效的，但从基音轮廓变　图２基音轮廓对比　化的角度来看，ＰＰ＋ＤＣＴ　法比残差预测法能够更　好地反映目标语音的基音走势。图３是在Ｍ２－ｔｏ．Ｆ２的情况　下一帧语音的残差信号在转换前后的对比情况，该帧残差信　号的基音周期变化因子　：　／Ｐ＝０．８７５。从图上可以看出，　ＰＰ＋ＤＣＴ对残差信号基音的修改是更加有效的，这不仅说　明，基音预测是非常准确的，而且使用ＤＣＴ来生成所需要的　残差信号是行之有效的。而残差预测法由于使用各个分量　的线性加权，使得生成的残差信号在基音的变化上并不明　显，而且波形也要过于平滑一些。图４是一段语音在Ｆ１．ｔｏ—　Ｍ１变换下的语谱图对照情况，从图上可以看出，ＰＰ＋ＤＣＴ能　目标激励信号　图３残差信号对比　氰语音　宵　墨　＊　纂　宵　王　＊　０　２　０４　０．６　时闻（６）　图４语谱图对比　第５期　一种用于语声转换系统的ＬＰＣ残差信号生成算法　７６５　够保留更多的语音频谱细节，这是因为在残差信号中，基音　周期信息是影响说话人个性特征的主要因素，而波形的细节　信息主要是影响语音的质量。在ＰＰ＋ＤＣＴ算法中，它主要是　［４］Ｃ．Ｈ．Ｗｕ，Ｃ．Ｃ．Ｈｓｉａ，Ｔ．Ｈ．Ｌｉｕ，Ｊ．Ｆ．Ｗａｎｇ，“Ｖｏｉｃｅ　ｃｏｎ－　ｖｅｒｓｉｏｎ　ｕｓｉｎｇ　ｄｕｒａｔｉｏｎ・－ｅｍｂｅｄｄｅｄ　ｂｉ－－ＨＭＭｓ　ｆｏｒ　ｅｘｐｒｅｓｓｉｖｅ　ｓｐｅｅｃｈ　ｓｙｎｔｈｅｓｉｓ，”ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｕｄｉｏ，Ｓｐｅｅｃｈ，　用来修改信号的基音周期，相当于对信号进行了伸缩处理，　而对信号的波形细节影响不大，而残差预测法，是彻底地丢　弃了源语音的残差信号，利用训练阶段建立的目标语音残差　信号码本进行线性加权，这样对残差信号会有较大的破坏，　ａｎｄ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．１４，Ｎｏ．４，Ｊｕ１．２００６，ＰＰ．　１１０９—１ｌ１６．　［５］Ｏ．Ｔｕｒｋ，Ｌ．Ｍ．Ａｒｓｌｎ，“Ｒｏｂｕｓａｔ　ｐｒｃｅｓｏｓｉｎｇ　ｔｅｃｈｎｉｑｕｅｓ　ｆｏｒ　ｖｏｉｃｅ　ｃｏｎｖｅｒｓｉｏｎ，”Ｃｏｍｐｕｔｅｒ　Ｓｐｅｅｃｈ　ａｎｄ　ｌａｎｇｕａｇｅ，Ｖｏ１．　丢失了一些语音频谱的细节信息。　３．３主观听觉测试　主观听力感觉测试是对语音信号进行测试的一个重要　组成部分。在语声转换系统性能的测试中，ＡＢＸ测试法是一　种常用的测试手段，它用来区分不同的说话人。Ａ和Ｂ分别　表示源说话人语音和目标说话人语音，ｘ表示转换后的语音。　在实验测试中，要求受测者判断ｘ更接近Ａ还是更接近Ｂ。　在本文实验中，５个受测者参与了ＡＢＸ测试。测试结果见表　１。从测试结果来看，ＰＰ＋ＤＣＴ的效果要略高于残差预测法。　同时，不管是哪种转换算法，异性之间的转换效果都要好于　同性之间的转换。　表１　ＡＢＸ测试结果　Ｍ１．ｔ０．Ｍ２　Ｍ２一ｔｏ—Ｆ２　Ｆ２一ｔ０一Ｆｌ　Ｆ１一ｔｏ．Ｍ１　ＲＰ　７３．２％　８６．８％　７１．７％　８７．６％　ＰＰ＋ＤＣＴ　７４．３％　８７．９％　７２．４％　８８．９％　４　总结　本文提出了一种用于语声转换系统的残差信号生成算　法（ＰＰ＋ＤＣＴ）。该算法是首先通过转换后的语音谱包络特　征参数（ＬＳＰ）来预测相应的目标基音周期，再利用预测的目　标基音周期来修改源语音的残差信号，从而生成所需要的目　标语音残差信号。为了补偿因信号样点数改变所带来的能　量和信号时长的变换，在进行ＩＤＣＴ之前对ＤＣＴ系数进行能　量规一化处理，并在合成语音时相应地改变帧间叠加部分的　长度。客观评测和主观听觉测试都表明，本文的残差信号生　成算法性能要好于以往的残差预测法。　参考文献　Ｄ．Ｇ．Ｃｈｉｌｄｅｒｓ，Ｋ．Ｗｕ，Ｄ．Ｍ．Ｈｉｃｋｓ，ｅｔｃ．。“Ｖｏｉｃｅ　ｃｏｎｖｅｒ－　ｓｉｏｎ，”Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，Ｖｏ１．８，Ｎｏ．２，Ｆｅｂ．１９９５，　ＰＰ．１４７—１５８．　［２］　Ｙ．Ｓｔｙｌｉａｎｏｕ，Ｏ．Ｃａｐｐｅ　ａｎｄ　Ｅ．Ｍｏｕｌｉｎｅｓ，“Ｃｏｎｔｉｎｕｏｕｓ　Ｐｒｏｂ—　ａｂｉｌｉｓｔｉｃ　ＴｒａｎｓｆｏｎＴｌ　ｆｏｒ　Ｖｏｉｃｅ　Ｃｏｎｖｅｒｓｉｏｎ．”ＩＥＥＥ　Ｔｒａｎｓａｃ．　ｔｉｏｎｓ　ｏｎ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．６，Ｎｏ．２，Ｍａｒ．　１９９８，ＰＰ．１３１－１４２．　［３］　Ａ．Ｍｏｕｃｈｔａｒｉｓ，Ｓ．Ｓ．Ｎａｒａｙａｎａｎ，Ｃ．Ｋｙｒｉａｋａｋｉｓ，“Ｍｕｈｉｃｈａｎ－　ｎｅｌ　Ａｕｄｉｏ　Ｓｙｎｔｈｅｓｉｓ　ｂｙ　Ｓｕｂｂａｎｄ—ｂａｓｅｄ　Ｓｐｅｃｔｒａｌ　Ｃｏｎｖｅｒｓｉｏｎ　ａｎｄ　Ｐａｒａｍｅｔｅｒ　ａｄａｐｔａｔｉｏｎ，”ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．１３，Ｎｏ．２，Ｍａｒ．２００５，ＰＰ．　２６３－２７４．　２０，Ｎｏ．４，Ｏｃｔ．２００６，ＰＰ．４４１—４６７．　［６］　Ｙ．Ｓａｔｏ，“Ｖｏｉｃｅ　Ｑｕａｌｉｔｙ　Ｃｏｎｖｅｓｒｉｏｎ　ｕｓｉｎｇ　Ｉｎｔｅｒａｃｔｉｖｅ　Ｅｖｏ－　ｌｕｔｉｏｎ　ｏｆ　Ｐｒｏｓｏｄｉｃ　Ｃｏｎｔｒｏｌ，”Ａｐｐｌｉｅｄ　Ｓｏｆｔ　Ｃｏｍｐｕｔｉｎｇ，Ｖｏ１．　５，Ｎｏ．２，Ｊａｎ．２００５，ＰＰ．１８１－１９２．　［７］Ｎ．Ｂｉ，Ｙ．Ｙ．Ｑｉ，“Ａｐｐｌｉｃａｔｉｏｎ　ｏｆＳｐｅｅｃｈＣｏｎｖｅｒｓｉｏｎｔｏＡｌａｒｙ－　ｇｅａｌ　Ｓｐｅｅｃｈ　Ｅｎｈａｎｃｅｍｅｎｔ，’’ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．５，Ｎｏ．２，Ｍａｒ．１９９７，ＰＰ．９７—１０５．　［８］Ｃ．Ｌ．Ｌｅｅ，Ｗ．Ｗ．Ｃｈａｎｇ，Ｙ．Ｃ．Ｃｈｉａｎｇ，“Ｓｐｅｃｔｒｌａ　ａｎｄ　Ｐｒｏ—　ｓｏｄｉｃ　Ｔｒａｎｓｆｏｒｍａｔｉｏｎｓ　ｏｆ　Ｈｅａｒｉｎｇ・－ｉｍｐａｉｒｅｄ　Ｍａｎｄａｒｉｎ　Ｓｐｅｅ－－　ｃｈ，”Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，Ｖｏ１．４８，Ｎｏ．２，Ｆｅｂ．２００６，　ＰＰ．２０７—２１９．　［９］Ｋ．Ｓｈｉｋａｎｏ，Ｓ．Ｎａｋａｍｕｒａ，Ｍ．Ａｂｅ，“Ｓｐｅａｋｅｒ　ａｄａｐｔａｔｉｏｎ　ｎａｄ　ｖｏｉｃｅ　ｃｏｎｖｅｒｓｉｏｎ　ｂｙ　ｃｏｄｅｂｏｏｋ　ｍａｐｐｉｎｇ，”ｉｎ　ＩＥＥＥ　Ｐｒｏｃｅｅｄ—　ｉｎｇ　ｏｆ　ＩＳＣＡＳ，Ｓｉｎｇａｐｏｒｅ，Ｊｕｎ．１１－１４，１９９１，ＰＰ．５９４－５９７．　［１０］Ｈ．Ｍａｔｓｕｍｏｔｏ，Ｓ．Ｈｉｋｉ，Ｔ．Ｓｏｎｅ，Ｔ．Ｎｉｍｕｒａ，“Ｍｕｈｉｄｉｍｅｎ－　ｓｉｏｎａｌ　ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｏｆ　ｐｅｒｓｏｎａｌ　ｑｕａｌｉｔｙ　ｏｆ　ｖｏｗｅｌｓ　ａｎｄ　ｉｔｓ　ａｃｏｕｓｔｉｃ　ｃｏｒｒｅｌａｔｅｓ，”ＩＥＥＥ　Ｔｒｎａｓａｃｔｉｏｎ　ｏｎ　Ａｕｄｉｏ　ａｎｄ　Ｅｌｅｃ－　ｔｒｏａｃｏｕｓｔｉｃｓ，Ｖｏ１．２１，Ｎｏ．５，１９７３，ＰＰ．４２８—４３６．　［１１］Ａ．Ｋａｉｎ，“Ｈｉｇｈ　ｒｅｓｏｌｕｔｉｏｎ　ｖｏｉｃｅ　ｃｏｎｖｅｓｒｉｏｎ，”Ｐｈ．Ｄ．Ｔｈｅ—　ｓｉｓ，ＯＧＩ　Ｓｃｈｏｏｌ　ｏｆ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ　ａｔ　Ｏｒｅｇｏｎ　Ｈｅａｌｔｈ　ａｎｄ　Ｓｃｉｅｎｃｅ　Ｕｎｉｖｅｒｓｉｔｙ，Ｐｏ￣ｌａｎｄ，Ｏｒｅｇｏｎ，２００１．　［１２］Ｈ．Ｙｅ，Ｓ．Ｙｏｕｎｇ，“ＱｕＭｉ￣一ｅｎｈａｎｃｅｄ　ｖｏｉｃｅ　ｍｏｒｐｈｉｎｇ　ｕｓｉｎｇ　ｍａｘｉｍｕｍ　ｌｉｋｅｌｉｈｏｏｄ　ｔｒａｎｓｆｏｒｍａｔｉｏｎ，’’ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．１４，Ｎｏ．４，　Ｊｕ１．２００６，ｐｐ．１３０１．１３１２．　［１３］Ｂ．Ｍｉｌｎｅｒ，Ｘ．Ｓｈａｏ，“Ｐｒｅｄｉｃｔｉｏｎ　ｏｆ　ｆｕｎｄａｍｅｎｔｌａ￣ｅｑｕｅｎｃｙ　ａｎｄ　ｖｏｉｃｉｎｇ　ｆｒｏｍ　Ｍｅｌ—ｆｒｅｑｕｅｎｃｙ　ｃｅｐｓｔｒａｌ　ｃｏｅｆｆｉｃｉｅｎｔｓ　ｆｏｒ　ｕｎｃｏｎｓｔｒａｉｎｅｄ　ｓｐｅｅｃｈ　ｒｅｃｏｎｓｔｒｕｃｔｉｏｎ，’’ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄ　Ｌａｎｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．１５，Ｎｏ．　１，２００７，ＰＰ．２４—３３．　［１４］Ｒ．Ｍｕｒａｌｉｓｈａｎｋａｒ，Ａ．Ｇ．Ｒａｍａｋｒｉｓｈｎａｎ，Ｐ．Ｐｒａｔｈｉｂｈａ，　“Ｍｏｄｉｉｆｃａｔｉｏｎ　ｏｆ　ｐｉｔｃｈ　ｕｓｉｎｇ　ＤＣＴ　ｉｎ　ｔｈｅ　ｓｏｕｒｃｅ　ｄｏｍａｉｎ，”　Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ，Ｖｏ１．４２，Ｎｏ．２，２００４，ＰＰ．１４３－１５４．　［１５］Ｋ．Ｌ．Ｌｅｅ，“Ｓｔａｔｉｓｔｉｃａｌ　ａｐｐｒｏａｃｈ　ｆｏｒ　ｖｏｉｃｅ　ｅｐｒｓｏｎａｌｉｔｙ　ｔｒａｎｓ－　ｆｏｒｍａｔｉｏｎ，”ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎ　ｏｎ　Ａｕｄｉｏ，Ｓｐｅｅｃｈ　ａｎｄ　Ｌａｎ．　ｇｕａｇｅ　Ｐｒｏｃｅｓｓｉｎｇ，Ｖｏ１．１５，Ｎｏ．２，Ｆｅｂ．２００７，ＰＰ．６４１—６５１．　作者简介　简志华：男，１９７８年ｌ２月生于江西新余，现为南京邮电　大学信号处理与传输研究院博士研究生，信号与信息处理专　业，研究方向为语音信号处理、语声转换及语音识别等。　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

一种用于语声转换系统的LPC残差信号生成算法