摘 要: 采用统计学方法,分析、建立了不同词性在韵律参数上的二维相似度表格,并将此结果直接应用到基于CART和基于贝叶斯的重音检测模型中。
关键词: 词性 CART方法 贝叶斯方法 统计分析 重音检测
语音合成系统的目的是把各种形式的文本转化为自然语音。要获得高质量的自然语音,一方面取决于对目标语言自身的了解,包括具体环境下特定文本的内部语法结构、韵律层结构等相应信息;另一方面取决于语音层如何由恰当的韵律知识和适当的生成算法产生自然流畅的语音。
轻重音的自动检测模型对提高语音合成系统的效果有重要作用,尤其对合成出更丰富、更能表征出语义的语音具有关键作用。该模型主要使用数据驱动的方法利用韵律参数来自动检测语流中的轻重音。但目前该模型的效果还亟待提高。国内外有许多关于词性和韵律之间关系的研究,如词性和韵律参数有很强的相关性;词性信息在韵律模型中是最广泛使用的属性之一,它与重音、时长、调型都有很强的正相关性;词性承载了许多语法上和语义上的信息,这些信息对轻重音的检测有相当重要的作用。这些理论都表明了词性对于提高轻重音自动检测模型的效果有至关重要的作用。但研究者在使用词性来提高模型效果时,并没有达到其预想效果。作者认为其主要原因有:目前词性的分类主要基于词性是语法功能的聚类这一理论,而没有体现词性与韵律参数之间的关系。如果将这些词性直接作为轻重音自动检测模型的输入,则显然不能提高其性能,因为轻重音的表达主要体现在韵律参数和语法信息上。所以本文将在现有的词性分类体系上利用统计学的方法研究词性在韵律参数上的相似度,然后利用轻重音自动检测模型对结果进行验证和应用。其中轻重音自动检测模型采用二种方法实现:基于CART(Classification and Regression Tree)的模型和基于贝叶斯的模型。
1 统计分析
1.1 词性间韵律参数相似度的总体分析
本研究采用了中国科学技术大学讯飞语音实验室的16 000句语料库,通过该语料库可以获得每个音节的词性信息、高层面韵律属性(如边界、调型、位置)和韵律参数(如基频、时长、能量)。其中文本处理部分将词性划分为26类,通过ISODATA基频聚类法从整体上分析每种词性在基频表现上的相似性,但没有明确的结论。因为聚类未考虑到其他影响韵律参数的因素,所以上述分析并不能证明基频的表现是完全由于词性引起的。
1.2 考虑高层韵律属性对相似度分析
因为词性和高层韵律属性同时影响韵律参数,所以要分析不同词性在韵律参数上的相似度,就必须考虑高层韵律属性。而高层韵律属性构成的特征空间很庞大,为了克服数据稀疏问题,必须将那些对韵律参数影响不大的属性过滤出去。采用MEANS分析高层属性对韵律参数的重要性,同时利用偏相关法分析其和韵律参数的相关性,结合语音学知识最终确定了影响韵律参数的11个因素。下面介绍分析思路是:
首先选择二种词性,根据不同的韵律环境(韵律环境由11个因素的不同水平组合而成)对二种词性的所有音节进行分类,每一类都处于相同的韵律环境。为了具有统计意义,要求每一类都至少含有二种词性各20个音节,计算每一类中二个词性的基频均值、时长均值、能量均值,然后计算出二词性相应韵律参数均值的比值。这样就可以获得各种韵律环境下二词性的韵律参数均值的比值。由于名词和动词在库中出现频率很高,分别为29%和24%,所以在分析那些分布频数不大的词性时,总是与名词或动词进行比较,最后得出各类词性间的比值结果。首先比较名词、动词,由图1发现名词的时长均值要比动词短一些,但名词和动词能量均值比值、基频均值比值的分布比较符合以1为均值的正态分布。

用同样的方法分析名词与形容词、名词与介词、名词与副词、动词和助词、动词和连词、动词和方位词、动词和数词之间的韵律参数均值比值。特别需要指出的是在分析动词和连词时,若不考虑音节,则它们的韵律参数比值符合以1为均值的正态分布;若仅分析既做动词又做连词的音节,则作为连词时的基频均值和时长均值明显要高于动词。这说明不同音节对比值可能有一定的影响。由于比值有一部分是以1为中心的准正态分布,所以不利于相似度的分析。导致这种结果可能有三个原因:
(1)上述分析未考虑其他非主要的高层韵律属性对韵律参数的影响。
(2)上述分析未考虑音节的影响,而词性主要体现在语法功能上,这与有调音节是相关的。
(3)二个词性间的韵律参数比值在不同韵律环境下可能是不同的。
下面对上述原因进行分析。
1.2.1 分析原因(1)
同样分析名词和动词,在分析时长时,没有考虑到前调、前边界等这类高层韵律属性。此时加入这些因素,发现加入前调型属性后,名词和动词的时长均值比值仍然与未加入前调型属性时的分布一致,再加入前边界,同样是这个分布。因此得出结论:没有考虑这些非重要属性对分析结果并没有显著影响。
1.2.2 分析原因(2)(3)
由上面连词和动词的分析结果可以推测:有调音节的类型对比值有影响。所以先针对特定的有调音节来分析二词性的声学差异。首先比较名词和形容词,结果可以发现:对于同一音节,比值随着韵律环境的变化而变化,但更趋于一个方向(即都大于1或都小于1)。因此可以推测以下二点:词性间声学参数均值的比值与韵律环境有关系;比值与有调音节类型有关系。图2、图3列出其中二个音节在各种韵律环境下的比值分布图(其中,对特定的音节韵律环境不同而比值相同的只占1.6%)。同时利用ANOVA(单因素方差分析)和MEANS(均值分析)来分析音节的作用。


由ANOVA分析结果:Sig<0.05,说明不同的有调音节之间,其基频均值比值差异是显著的。
由MEANS分析结果:Eta=0.521,说明有调音节与基频均值的比值之间关联性较强。
接着分析名词和动词、名词和介词、名词和副词、动词和助词、动词和连词,得出的结果与上面一致。因此认为:二个词性间的比值与韵律环境是相关的,并且与有调音节类型也有关,但只有一部分有调音节对比值产生显著影响,将这类有调音节从库中过滤掉,从而使词性的相似度分析具有普遍意义。重新分析,得出结果。
因为词性间韵律参数比值的分布符合正态分布,所以利用二个正态分布相似度的计算公式来求词性之间在韵律参数上的相似度。举例说明如下。
例如求助词和介词在韵律参数上的相似度,可以看成是求动词/助词的韵律参数比值分布和动词/介词的韵律参数比值分布之间的相似度α。表1是部分词性之间的相似度表格(α越小,二词性的相似性越高)。
2 利用模型验证分析结果的有效性
目前语音合成系统中使用的重音检测模型分为二种:一种使用CART方法建立,用M1表示;另一种使用贝叶斯方法建立,用M2表示。将上述相似度表格加入上述二个模型分别验证,对M1验证过程如下:
原始数据集为12 000句,其中70%作为训练集,30%作为测试集。
因为决策属性主要是基频、时长、能量以及相关的高层韵律属性,对模型作了如下改进:
根据词性相似度的分析结果在训练和测试数据中加入三个新的属性:POS1、POS2、POS3,分别代表基频均值最相似、时长均值最相似、能量均值最相似的二词性编码类别。
与词性A在相应韵律参数上最相似的词性B是这样定义的:B与A的相应参数相似度α最小。根据这一定义进行二进制编码,分别作为POS1、POS2、POS3的值,然后对模型进行训练和测试。表2是测试结果。对M2的验证过程同上,其测试结果如表3所示。

根据以上测试结果可知,对词性在韵律参数上相似度的研究结果能显著提升重音检测模型的效果。
3 结 论
本文通过对词性在韵律参数上相似度的研究,获得词性在韵律参数上的二维相似度表。利用该表格提供的专家知识,使得重音检测模型的效果得到了很大的提升,这对合成出更丰富、更能表征出语义的语音具有关键作用。在下一步的研究中,将对此结果进行改进和推广,形成完整而灵活的先验知识库,并应用到更多的韵律模型中去,以期提高语音合成系统的自然度和流畅度。
参考文献
1 Huckvale M,Fang A.Statistical Analysis of Syntax_Prosody Relationships Using the Prosice Corpus.In:Institute of Acoustics Conference on Speech and Hearing,1996
2 Pan S,McKeown K,Hirschberg J.Exploring Features from Natural Language Generation for Prosody Modeling. Computer Speech and Language,2002;16(3)
3 Taylor P,Black A.Assigning Phrase Breaks from Part-of-Speech Sequences.In:proceedings of Eurospeech97,1997
4 李虎生,刘加,刘润生.基于置信度的语音识别无监督说话人自适应.计算机研究与发展,2001;38(1)
5 卢文岱.SPSS for Windows统计分析.北京:电子工业出版社,2000
